従来のドッキングベンチマーク(CASF-2016 等)は 数百件規模に留まり、 多様な 3,000 以上のターゲットへの汎化性評価が不可能だった。
結果として DL ドッキング各種(DeepDock / Interformer / SurfDock / Uni-Mol Docking v2)の優位性主張は テストセット依存で、 データリーケージや評価指標の偏りが疑われていた。
真の docking power(ポーズ予測精度)と 物理的妥当性 (ステリッククラッシュ・結合長/角度)の同時評価が必要。
▸ データセット構築: PDB 由来の 14,038 訓練 / 5,201 テストペア、計 3,173 ユニークターゲット。 cold-ligand split(訓練/テスト間のリガンド構造類似性を遮断)。
▸ 訓練データ: Smina-generated docking poses(1,000 poses / complex)と ligand similarity-aware subsets を提供。
▸ 評価: Top-1 success rate(最高ランクポーズが結晶構造と 2Å 以内で一致)と PoseBusters 物理チェックを併用。
4 つの DL ドッキング手法のうち Interformer のみが ロジスティック回帰(Smina+GNINA スコア特徴量)と 同等の Top-1 を達成。
DeepDock / SurfDock / Uni-Mol Docking v2 は LR 以下の精度で、 後処理なしの raw ポーズに大量のステリッククラッシュを示した。
Interformer の優位は 物理制約をアーキテクチャに架け橋として内蔵 した設計に起因。物理制約を欠く DL 生成は VS 実用性に達しない。
Interformer ≈ LR ベースライン。他の DL 手法は 20% 以下に沈む。
クラシック法 (Smina) と Interformer は物理合格率が高いが、 残る 3 手法は raw 出力で 30% 前後。
NextTopDocker は CASF-2016 を 桁違いに上回る規模で、 多様なターゲットでの汎化性を初めて測定可能にする。
RMSD < 2Å の精度指標と PoseBusters の物理指標を 並行測定することで、 見かけの精度に隠れた物理破綻を暴く。
最大規模 (14K/5K × 3,173 ターゲット, cold-ligand) の公正評価では、 Interformer 以外の DL ドッキングは Smina+GNINA 特徴量のロジスティック回帰にも勝てない。 raw ML ポーズには 物理制約の欠如が深刻に残る。 lib/docking/UniDockRunner には PoseBusters チェック と LR re-ranking をパイプライン KPI として組み込む価値がある。