DNA-encoded library(DEL)は最大 1012 規模の化合物に DNA バーコードを付与し、アフィニティ選択 + シーケンシングで結合度プロキシ(read counts)を一挙に取得できる超高スループット技術である。McCloskey ら(2020)は disynthon ベースの DEL-ML フレームワークを確立し、ECFP4 + GBM/GNN/transformer で DEL 内予測の高精度を示した。しかし 2024 年の BELKA(Benchmarking for Encoded Library Knowledge Assessment)コンペで多くのモデルが 新規スキャフォールドへの汎化に失敗 することが大規模に露呈した。
→ AURKA 150万点 DEL 選択データで汎化失敗を再検証し、ドメイン適応による解法を SciLifeLab DDD の視点で整理する。
同一 DEL 内 AUC > 0.85 → 新規スキャフォールドで AUC < 0.65 へ約 0.20 ポイント急落。ドメイン適応(DA)で部分回復。
超大規模化学空間 (10^12) を一回のアフィニティ選択で 150 万点の学習データへ凝縮。disynthon 単位の ECFP4 が ML 入力。
| ノイズ源 | 影響 | 対処 |
|---|---|---|
| マトリックス結合 | 偽陽性 read | matrix control 差分 |
| DNA タグ干渉 | 結合プロファイル歪み | tag-aware 補正 |
| 不均等合成収率 | BB 偏り | yield 正規化 |
| 分布シフト | OOD 汎化失敗 | MMD / DANN |
DEL の組合せ構造自体が近縁アナログ集団からの SAR 抽出という内在ノイズ耐性を提供する一方、make-on-demand 仮想ライブラリとの分布シフトは別途補正が必要。
DEL は化合物数では ZINC を超えうるが、DNA 互換反応に限られるためスキャフォールド多様性は限定的。これが OOD 汎化問題の根本要因。