問題設定: Target-aware分子生成モデルは増えたが「ターゲット情報を本当に使っているのか、後付け解釈(Texas Sharpshooter)に過ぎないのか」が判別できない。docking score中央値だけでは粒度不足。
従来評価の限界:
18ターゲット20構造(apo/holo・アロステリック含む)、専門家curatedのkey IFP、BindingDB由来活性化合物、ChEMBLランダム1000本のベースラインで構成。MMseqs2/Foldseekで<1%配列同一性のleakage統制。
15モデル中、ChEMBLランダムベースラインを統計的有意に超えたのは合計6モデルのみ。3D in situパラダイムが最多だが多数派が未到達。
non-3Dは0.1秒台、flowは1〜2秒、diffusion/autoregressiveは10秒超。実用VSへの組込みではpost-filterの軽さが効く。
FCDが小さいほど活性化合物の特徴空間に近い。non-3Dが最近、3D in situ・最適化系は離れる傾向(多様性の代償)。
PLI hard constraint → plausibility → drug-likenessのカスケードで生成セットを2桁オーダー濃縮。任意の generator に汎用適用。
| パラダイム | throughput | docking score 中央値 | Lipinski 適合 | key PLI 再現 | FCD vs ref |
|---|---|---|---|---|---|
| non-3D | 0.1 s/mol | −7前後 | 高 | 低〜中 | 低(近い) |
| 3D in situ | 1〜10 s/mol | −7.5〜−10 | 中 | 中 | 高 |
| optimization-based | 後処理依存 | <−10 | 低(違反増) | 中 | 中 |
| ChEMBL random | — | −7前後 | 高 | — | — |