Toward generalizable predictive models for DNA-encoded libraries
Drug Discovery Today | 2026年3月 Vol.31 No.2 | DOI: 10.1016/j.drudis.2026.104629
DEL x ML の汎化性課題を AURKA 150万点で実証。同一化学空間で AUC>0.85 でも新規スキャフォールドで <0.65。ドメイン適応で克服を提唱。
(1) 背景と課題:DEL-ML が直面する「新規スキャフォールド汎化の壁」

DNA-encoded library(DEL)は最大 1012 規模の化合物に DNA バーコードを付与し、アフィニティ選択 + シーケンシングで結合度プロキシ(read counts)を一挙に取得できる超高スループット技術である。McCloskey ら(2020)は disynthon ベースの DEL-ML フレームワークを確立し、ECFP4 + GBM/GNN/transformer で DEL 内予測の高精度を示した。しかし 2024 年の BELKA(Benchmarking for Encoded Library Knowledge Assessment)コンペで多くのモデルが 新規スキャフォールドへの汎化に失敗 することが大規模に露呈した。

限界1: モデルはビルディングブロックを「暗記」しているだけで、物理化学的相互作用原理を抽出できていない
限界2: DEL データはマトリックス結合・DNA タグ干渉・不均等合成収率に由来するノイズを多く含む

→ AURKA 150万点 DEL 選択データで汎化失敗を再検証し、ドメイン適応による解法を SciLifeLab DDD の視点で整理する。

(2) 手法の概要
  • OpenDEL 4.0(HitGen 社)AURKA 150万件を使用
  • disynthon = 3 BB 組合せを単位に ECFP4 化学特徴量を生成
  • read count を結合プロキシに分類器学習(GBM / GNN / transformer)
  • ATPase 活性と biophysical assay で in vitro 検証
  • 分布シフト補正に MMD / DANN ドメイン適応を導入
DEL-ML 基本パイプライン DEL選択 10^12 BB DNA Seq read count disynthon ECFP4 GBM/GNN classifier hit予測 AURKA + ドメイン適応 (MMD / DANN) DEL <-> make-on-demand 分布シフト補正 McCloskey 2020 -> BELKA 2024 -> 本レビュー
(3) 本研究で示したこと
  • AURKA 150万点 DEL データで現行 ML の 汎化失敗を実証
  • 同一化学空間:AUC > 0.85 と高精度
  • 新規スキャフォールド:AUC < 0.65 へ急落
  • BELKA コンペ結果と整合する独立検証となった
  • ドメイン適応で out-of-domain 精度が改善することを確認
  • DEL の組合せ構造は近縁アナログ群から SAR を抽出する内在ノイズ耐性を持つ
(4a) ドメイン内 vs 新規スキャフォールド AUC
汎化性ギャップ:AUC の急落 1.0 0.85 0.65 0.5 0 0.85+ In-domain 同一DEL空間 <0.65 OOD 新規scaffold ~0.74 +DA MMD/DANN 改善余地 AUC

同一 DEL 内 AUC > 0.85 → 新規スキャフォールドで AUC < 0.65 へ約 0.20 ポイント急落。ドメイン適応(DA)で部分回復。

(4b) スケールファネル:10^12 から学習可能データへ
DEL → ML 学習データのスケール 10^12 理論DEL最大 ~10^9 DEL合成規模 1.5M AURKA選択 disynthon ECFP4 入力 OpenDEL 4.0 / HitGen / AURKA target

超大規模化学空間 (10^12) を一回のアフィニティ選択で 150 万点の学習データへ凝縮。disynthon 単位の ECFP4 が ML 入力。

(4c) DEL ノイズ源と対処
ノイズ源影響対処
マトリックス結合偽陽性 readmatrix control 差分
DNA タグ干渉結合プロファイル歪みtag-aware 補正
不均等合成収率BB 偏りyield 正規化
分布シフトOOD 汎化失敗MMD / DANN

DEL の組合せ構造自体が近縁アナログ集団からの SAR 抽出という内在ノイズ耐性を提供する一方、make-on-demand 仮想ライブラリとの分布シフトは別途補正が必要。

DEL ヒットからの新規スキャフォールド実験確認は本レビュー時点で未達
(4d) DEL vs 一般化学ライブラリの多様性
化学多様性の制約 スキャフォールド多様性 (相対) スコア 1.0 0.5 0 ZINC ~10^9 div=1.0 ChEMBL ~2M div=0.85 DEL 10^9-10^12 div~0.4 DNA互換反応のみ スケール↑ 多様性↓

DEL は化合物数では ZINC を超えうるが、DNA 互換反応に限られるためスキャフォールド多様性は限定的。これが OOD 汎化問題の根本要因。

(5) テイクホームメッセージ
汎化ギャップは構造的
AUC 0.85 → 0.65 の急落は単なるノイズではなく、ECFP4 x disynthon が BB 暗記に偏ることが本質。
ドメイン適応が現実解
MMD・DANN を組み込めば DEL と make-on-demand 仮想ライブラリ間の分布シフトを部分補正できる。
DEL の内在ノイズ耐性
近縁アナログ群の集団挙動から SAR を抽出する性質が、DEL と ML の相性の良さを支えている。
合成多様性が次の律速
DNA 互換反応の拡張なくして DEL のスキャフォールド多様性は伸びず、汎化は完全解決しない。
パイプラインへの応用
  • UniDockRunner 前段フィルタ:数億規模の make-on-demand に DEL-ML スコアを付与し上位のみドッキング
  • MolgenYaml スコアラー:DEL 検証済 SAR 知識を分子生成の誘導に活用
  • disynthon エンコーダ:RDKit + ECFP4 で既存 lib/docking に容易に統合
  • DA モジュール:lib/molgen に MMD/DANN ラッパを追加し外挿リスクを定量化
インパクト
  • DEL-ML の OOD 限界を AURKA で独立検証し BELKA 知見を補強
  • ドメイン適応を DEL から仮想ライブラリ橋渡しの標準ツールに位置付け
  • SciLifeLab DDD Platform / OpenDEL 4.0 / Kaggle BELKA で再現可能