Toward generalizable predictive models for DNA-encoded libraries

Drug Discovery Today | 2026年3月 Vol.31 No.2 | DOI: 10.1016/j.drudis.2026.104629

DEL x ML の汎化性課題を AURKA 150万点で実証。同一化学空間で AUC>0.85 でも新規スキャフォールドで <0.65。ドメイン適応で克服を提唱。

(1) 背景と課題：DEL-ML が直面する「新規スキャフォールド汎化の壁」

DNA-encoded library（DEL）は最大 10¹² 規模の化合物に DNA バーコードを付与し、アフィニティ選択 + シーケンシングで結合度プロキシ（read counts）を一挙に取得できる超高スループット技術である。McCloskey ら（2020）は disynthon ベースの DEL-ML フレームワークを確立し、ECFP4 + GBM/GNN/transformer で DEL 内予測の高精度を示した。しかし 2024 年の BELKA（Benchmarking for Encoded Library Knowledge Assessment）コンペで多くのモデルが 新規スキャフォールドへの汎化に失敗 することが大規模に露呈した。

限界1: モデルはビルディングブロックを「暗記」しているだけで、物理化学的相互作用原理を抽出できていない

限界2: DEL データはマトリックス結合・DNA タグ干渉・不均等合成収率に由来するノイズを多く含む

→ AURKA 150万点 DEL 選択データで汎化失敗を再検証し、ドメイン適応による解法を SciLifeLab DDD の視点で整理する。

(2) 手法の概要

OpenDEL 4.0（HitGen 社）AURKA 150万件を使用
disynthon = 3 BB 組合せを単位に ECFP4 化学特徴量を生成
read count を結合プロキシに分類器学習（GBM / GNN / transformer）
ATPase 活性と biophysical assay で in vitro 検証
分布シフト補正に MMD / DANN ドメイン適応を導入

(3) 本研究で示したこと

AURKA 150万点 DEL データで現行 ML の 汎化失敗を実証
同一化学空間：AUC > 0.85 と高精度
新規スキャフォールド：AUC < 0.65 へ急落
BELKA コンペ結果と整合する独立検証となった
ドメイン適応で out-of-domain 精度が改善することを確認
DEL の組合せ構造は近縁アナログ群から SAR を抽出する内在ノイズ耐性を持つ

(4a) ドメイン内 vs 新規スキャフォールド AUC

同一 DEL 内 AUC > 0.85 → 新規スキャフォールドで AUC < 0.65 へ約 0.20 ポイント急落。ドメイン適応（DA）で部分回復。

(4b) スケールファネル：10^12 から学習可能データへ

超大規模化学空間 (10^12) を一回のアフィニティ選択で 150 万点の学習データへ凝縮。disynthon 単位の ECFP4 が ML 入力。

(4c) DEL ノイズ源と対処

ノイズ源	影響	対処
マトリックス結合	偽陽性 read	matrix control 差分
DNA タグ干渉	結合プロファイル歪み	tag-aware 補正
不均等合成収率	BB 偏り	yield 正規化
分布シフト	OOD 汎化失敗	MMD / DANN

DEL の組合せ構造自体が近縁アナログ集団からの SAR 抽出という内在ノイズ耐性を提供する一方、make-on-demand 仮想ライブラリとの分布シフトは別途補正が必要。

DEL ヒットからの新規スキャフォールド実験確認は本レビュー時点で未達

(4d) DEL vs 一般化学ライブラリの多様性

DEL は化合物数では ZINC を超えうるが、DNA 互換反応に限られるためスキャフォールド多様性は限定的。これが OOD 汎化問題の根本要因。

(5) テイクホームメッセージ

汎化ギャップは構造的
AUC 0.85 → 0.65 の急落は単なるノイズではなく、ECFP4 x disynthon が BB 暗記に偏ることが本質。

ドメイン適応が現実解
MMD・DANN を組み込めば DEL と make-on-demand 仮想ライブラリ間の分布シフトを部分補正できる。

DEL の内在ノイズ耐性
近縁アナログ群の集団挙動から SAR を抽出する性質が、DEL と ML の相性の良さを支えている。

合成多様性が次の律速
DNA 互換反応の拡張なくして DEL のスキャフォールド多様性は伸びず、汎化は完全解決しない。

パイプラインへの応用

UniDockRunner 前段フィルタ：数億規模の make-on-demand に DEL-ML スコアを付与し上位のみドッキング
MolgenYaml スコアラー：DEL 検証済 SAR 知識を分子生成の誘導に活用
disynthon エンコーダ：RDKit + ECFP4 で既存 lib/docking に容易に統合
DA モジュール：lib/molgen に MMD/DANN ラッパを追加し外挿リスクを定量化

インパクト

DEL-ML の OOD 限界を AURKA で独立検証し BELKA 知見を補強
ドメイン適応を DEL から仮想ライブラリ橋渡しの標準ツールに位置付け
SciLifeLab DDD Platform / OpenDEL 4.0 / Kaggle BELKA で再現可能