NextTopDocker: 史上最大規模のドッキング Power Benchmark が示す 「Deep Learning はロジスティック回帰よりも概して劣る」

DOI: 10.26434/chemrxiv.10001776 Published: 2026年2月 (ChemRxiv) Category: computational_chemistry Authors: Truong, Ballester, Taboureau, Tran-Nguyen
ゴール: 14,038 訓練 / 5,201 テスト × 3,173 ターゲットの cold-ligand split で 最先端 DL ドッキング 4 種を公正に再評価し、シンプルな LR ベースラインとの真の差を可視化する。

1背景と課題

従来のドッキングベンチマーク(CASF-2016 等)は 数百件規模に留まり、 多様な 3,000 以上のターゲットへの汎化性評価が不可能だった。

結果として DL ドッキング各種(DeepDock / Interformer / SurfDock / Uni-Mol Docking v2)の優位性主張は テストセット依存で、 データリーケージや評価指標の偏りが疑われていた。

真の docking power(ポーズ予測精度)と 物理的妥当性 (ステリッククラッシュ・結合長/角度)の同時評価が必要。

2手法の概要

▸ データセット構築: PDB 由来の 14,038 訓練 / 5,201 テストペア、計 3,173 ユニークターゲット。 cold-ligand split(訓練/テスト間のリガンド構造類似性を遮断)。

▸ 訓練データ: Smina-generated docking poses(1,000 poses / complex)と ligand similarity-aware subsets を提供。

▸ 評価: Top-1 success rate(最高ランクポーズが結晶構造と 2Å 以内で一致)と PoseBusters 物理チェックを併用。

3本研究で示したこと

4 つの DL ドッキング手法のうち Interformer のみが ロジスティック回帰(Smina+GNINA スコア特徴量)と 同等の Top-1 を達成。

DeepDock / SurfDock / Uni-Mol Docking v2 は LR 以下の精度で、 後処理なしの raw ポーズに大量のステリッククラッシュを示した。

Interformer の優位は 物理制約をアーキテクチャに架け橋として内蔵 した設計に起因。物理制約を欠く DL 生成は VS 実用性に達しない。

4主な結果(4 パネル)

(a) Top-1 success rate(@2Å, cold-ligand)

100% 50% 0% LR baseline ≈ 36% ~36% LR ~37% Interformer ~22% DeepDock ~18% SurfDock ~15% Uni-Mol Interformer のみが LR と同等

Interformer ≈ LR ベースライン。他の DL 手法は 20% 以下に沈む。

(b) PoseBusters 物理妥当性(合格率)

100% 50% 0% ~95% Smina ~85% Interformer ~30% DeepDock ~35% SurfDock ~25% Uni-Mol raw DL ポーズはステリッククラッシュ多発

クラシック法 (Smina) と Interformer は物理合格率が高いが、 残る 3 手法は raw 出力で 30% 前後

(c) データセット構築フロー

PDB 由来 タンパク質-リガンド複合体 ~3,173 ユニークターゲット cold-ligand split 訓練/テストでリガンド類似性遮断 14,038 訓練 / 5,201 テスト + Smina pose 1,000/complex

NextTopDocker は CASF-2016 を 桁違いに上回る規模で、 多様なターゲットでの汎化性を初めて測定可能にする。

(d) 評価パイプライン

test complex DL Docker Smina + LR Top-1 pose RMSD<2Å PoseBusters 同一テストセットで両指標を比較し、DL の真の優位を検証

RMSD < 2Å の精度指標と PoseBusters の物理指標を 並行測定することで、 見かけの精度に隠れた物理破綻を暴く。

5テイクホームメッセージ

最大規模 (14K/5K × 3,173 ターゲット, cold-ligand) の公正評価では、 Interformer 以外の DL ドッキングは Smina+GNINA 特徴量のロジスティック回帰にも勝てない。 raw ML ポーズには 物理制約の欠如が深刻に残る。 lib/docking/UniDockRunner には PoseBusters チェックLR re-ranking をパイプライン KPI として組み込む価値がある。