Revisiting Target-Aware de novo Molecular Generation with TarPass
Between Rational Design and Texas Sharpshooter — Qin, Chen, … Hou, Kang (Adv Sci 2026)
目標: target-aware生成モデル15種を統一プロトコルで横並び評価し、後付け正当化(Texas Sharpshooter)を排した汎化性能とPLI再現性を可視化する。
① 背景と課題

問題設定: Target-aware分子生成モデルは増えたが「ターゲット情報を本当に使っているのか、後付け解釈(Texas Sharpshooter)に過ぎないのか」が判別できない。docking score中央値だけでは粒度不足。

従来評価の限界:

  • 訓練/評価のleakage統制が不徹底(CrossDocked2020との重なり)
  • cherry-picked事例で過大評価される傾向
  • PLI(key interaction)の再現を機械的に評価する仕組みが乏しい
  • apo構造・アロステリック部位がベンチに含まれない
② 手法 — TarPass benchmark + multi-tier post-filter
TarPass benchmark + multi-tier workflow 18 Targets PDB+actives +key IFP YAML Generate 1000 mols (≤2 rounds) Standard Docking +Rescore Evaluation PLI · Plausibility IntDiv · FCD · Tanimoto vs ChEMBL baseline Multi-tier post-filter JAK2 / TYK2 case study

18ターゲット20構造(apo/holo・アロステリック含む)、専門家curatedのkey IFP、BindingDB由来活性化合物、ChEMBLランダム1000本のベースラインで構成。MMseqs2/Foldseekで<1%配列同一性のleakage統制。

③ 本研究で示したこと
  • 15モデル横並び評価で 3D in situも多くがランダム超え統計的有意なし
  • non-3Dは drug-likeness優位/3D in situは PLI優位、optimization系はトレードオフ顕著
  • multi-tier post-filterで JAK2/TYK2 候補を実用的に濃縮できる
  • OSS公開(github.com/sorui-qin/TarPass)で誰でも再現可能
④(a) ベースライン超え数
1 non-3D 4 3D in situ 1 opt-based Models statistically beating ChEMBL random baseline

15モデル中、ChEMBLランダムベースラインを統計的有意に超えたのは合計6モデルのみ。3D in situパラダイムが最多だが多数派が未到達。

④(b) 生成スループット
0.1 non-3D 1.5 flow 12.0 diff/AR Median wall-clock per molecule (s)

non-3Dは0.1秒台、flowは1〜2秒、diffusion/autoregressiveは10秒超。実用VSへの組込みではpost-filterの軽さが効く。

④(c) reference化合物との距離
27 non-3D 33 3D in situ 38 opt FCD vs reference actives (lower=closer)

FCDが小さいほど活性化合物の特徴空間に近い。non-3Dが最近、3D in situ・最適化系は離れる傾向(多様性の代償)。

④(d) Multi-tier 濃縮
Multi-tier post-processing yields 1000 generated per target Validity / Kekulé ↓ ~5–30% Key PLI hard filter ↓ ~50–80% Drug-likeness filter ↓ Lipinski/QED/SA Top hits tens to hundreds

PLI hard constraint → plausibility → drug-likenessのカスケードで生成セットを2桁オーダー濃縮。任意の generator に汎用適用。

主要指標の比較
パラダイムthroughputdocking score 中央値Lipinski 適合key PLI 再現FCD vs ref
non-3D0.1 s/mol−7前後低〜中低(近い)
3D in situ1〜10 s/mol−7.5〜−10
optimization-based後処理依存<−10低(違反増)
ChEMBL random−7前後
⑤ テイクホームメッセージ
  • 多くのtarget-aware生成モデルはランダム超えを統計的に示せない。 docking score単独評価は危険。
  • パラダイム別にトレードオフが明確。PLI vs drug-likeness vs 多様性は同時には満たせない。
  • Multi-tier post-filterは汎用救済策。任意の generator 出力に適用可能。
  • TarPass は OSS データセット & パイプライン。新モデル開発の標準ベンチに組み込むべき。
本研究のインパクト
  • SBDD生成モデル評価の de facto 基準を提示し、過大宣伝を抑止
  • ProLIF/PLIP 連携の key-interaction recall 評価を標準化する道筋
  • lib/molgen + lib/docking 横断で benchmark + post-filter を再利用化