NextTopDocker: 史上最大規模のドッキング Power Benchmark が示す「Deep Learning はロジスティック回帰よりも概して劣る」

DOI: 10.26434/chemrxiv.10001776 Published: 2026年2月 (ChemRxiv) Category: computational_chemistry Authors: Truong, Ballester, Taboureau, Tran-Nguyen

ゴール: 14,038 訓練 / 5,201 テスト × 3,173 ターゲットの cold-ligand split で最先端 DL ドッキング 4 種を公正に再評価し、シンプルな LR ベースラインとの真の差を可視化する。

1背景と課題

従来のドッキングベンチマーク（CASF-2016 等）は 数百件規模に留まり、多様な 3,000 以上のターゲットへの汎化性評価が不可能だった。

結果として DL ドッキング各種（DeepDock / Interformer / SurfDock / Uni-Mol Docking v2）の優位性主張は テストセット依存で、データリーケージや評価指標の偏りが疑われていた。

真の docking power（ポーズ予測精度）と 物理的妥当性 （ステリッククラッシュ・結合長/角度）の同時評価が必要。

2手法の概要

▸ データセット構築: PDB 由来の 14,038 訓練 / 5,201 テストペア、計 3,173 ユニークターゲット。 cold-ligand split（訓練/テスト間のリガンド構造類似性を遮断）。

▸ 訓練データ: Smina-generated docking poses（1,000 poses / complex）と ligand similarity-aware subsets を提供。

▸ 評価: Top-1 success rate（最高ランクポーズが結晶構造と 2Å 以内で一致）と PoseBusters 物理チェックを併用。

3本研究で示したこと

4 つの DL ドッキング手法のうち Interformer のみがロジスティック回帰（Smina+GNINA スコア特徴量）と同等の Top-1 を達成。

DeepDock / SurfDock / Uni-Mol Docking v2 は LR 以下の精度で、後処理なしの raw ポーズに大量のステリッククラッシュを示した。

Interformer の優位は 物理制約をアーキテクチャに架け橋として内蔵 した設計に起因。物理制約を欠く DL 生成は VS 実用性に達しない。

4主な結果（4 パネル）

(a) Top-1 success rate（@2Å, cold-ligand）

Interformer ≈ LR ベースライン。他の DL 手法は 20% 以下に沈む。

(b) PoseBusters 物理妥当性（合格率）

クラシック法 (Smina) と Interformer は物理合格率が高いが、残る 3 手法は raw 出力で 30% 前後。

(c) データセット構築フロー

NextTopDocker は CASF-2016 を 桁違いに上回る規模で、多様なターゲットでの汎化性を初めて測定可能にする。

(d) 評価パイプライン

RMSD < 2Å の精度指標と PoseBusters の物理指標を 並行測定することで、見かけの精度に隠れた物理破綻を暴く。

5テイクホームメッセージ

最大規模 (14K/5K × 3,173 ターゲット, cold-ligand) の公正評価では、 Interformer 以外の DL ドッキングは Smina+GNINA 特徴量のロジスティック回帰にも勝てない。 raw ML ポーズには 物理制約の欠如が深刻に残る。 lib/docking/UniDockRunner には PoseBusters チェックと LR re-ranking をパイプライン KPI として組み込む価値がある。

NextTopDocker: 史上最大規模のドッキング Power Benchmark が示す 「Deep Learning はロジスティック回帰よりも概して劣る」