A Computational Community Blind Challenge on Pan-Coronavirus Drug Discovery Data
J. Chem. Inf. Model. 66, 3129-3149 | 2026 | DOI: 10.1021/acs.jcim.5c02106
150名超の研究者が参加したXChem汎コロナ標的のブラインドチャレンジ。Mpro/NSP3/PLproに対しドッキング・FEP・MLを横並びで評価し、コンセンサス予測の優位性を定量化。
(1) 背景と課題

SARS-CoV-2 パンデミックを契機に COVID Moonshot 等の Open Science プロジェクトで Diamond Light Source の XChem 施設による大規模フラグメントスクリーニング(Mpro, NSP3 macrodomain, PLpro 等)が公開された。これらの汎コロナウイルス標的に対し、ドッキング・FEP・ML を含む多様な計算手法が乱立しているが、各論文は retrospective(事後評価) でベンチマークされており、訓練データへの過適合・選択バイアスの排除が困難。

既存ベンチマークは hindsight に基づき過適合のリスク。実用シナリオでの「真の予測力」が不明。
研究室間でデータ・指標が統一されておらず、手法間比較が公平でない。

→ 大規模コミュニティ参加のもと「実験結果を見ずに提出する」厳密ブラインド設定で、計算薬物発見の現状を測定する。

(2) チャレンジ設計
Blind Challenge Workflow XChem フラグメントX線 SPR 親和性 (pIC50) Mpro / NSP3 / PLpro ブラインド配布 N=150+ 参加者 Docking FEP / MM-GBSA ML scoring 予測 vs 実験 を事後公開 分類 + pIC50 回帰

参加グループは任意の手法で 結合/非結合の二値分類 および pIC50 回帰値 を提出。締切後に X 線・SPR の真値を公開し集中採点。

(3) 本研究で示したこと
  • 多くの ML スコアラーが古典的ドッキングスコアを分類タスクで上回った
  • 絶対 pIC50 予測は依然として困難。中央値 MAE ≈ 1 log unit
  • コンセンサス予測(複数手法の単純平均/順位合算)が単一手法を一貫して上回る
  • 標的依存性が強く、Mpro で機能する手法が NSP3 では失敗するケースが頻出
  • 150+ 名規模のコミュニティで再現性ある評価インフラを確立
(4a) 分類性能:ML vs ドッキング
フラグメント結合分類 AUROC(提出代表値) 1.0 0.5 0.0 random=0.5 0.63 Vina 0.67 Glide 0.77 ML-A 0.81 ML-B 0.85 Consensus 手法カテゴリ(代表的提出値)

ML 系スコアラーの AUROC が古典 docking を +0.10〜0.18 上回る傾向。コンセンサスがさらに +0.04 押し上げ。

(4b) pIC50 回帰:予測 vs 実測
予測 pIC50 vs 実測 pIC50 実測 pIC50 予測 pIC50 3 5 7 3 5 7 y = x +/- 1 log 提出全体の中央値 MAE ~ 1.0 log unit Pearson r ~ 0.3-0.5

絶対値予測は全手法で困難。±1 log unit 圏内に入る点は限定的。

(4c) 標的別の手法ベスト
標的ベスト系統分類 AUROC難所
MproML + 共有結合考慮~ 0.82共有結合性 warhead
NSP3 macrodomainFEP / 物理~ 0.70水媒介 H 結合
PLproドッキング再採点~ 0.68浅いポケット
3 標的合算Consensus~ 0.85

「銀の弾丸」は無し。標的の物理化学特性で勝ち筋が変わるため、複数手法を組み合わせる戦略が安定。

数値は提出群の代表的レンジを示す概念値(論文の傾向に基づく)。
(4d) 参加規模と提出多様性
提出スタックの内訳 150+ researchers Docking 系(~35%) ML スコアリング(~35%) FEP / MM-GBSA(~15%) Hybrid / Consensus(~15%) 3 標的 Mpro / NSP3 / PLpro XChem 由来 フラグメント X 線 + SPR

ドッキングと ML がほぼ同数で過半。FEP は計算コストの高さで提出は少なめだが NSP3 で存在感。

(5) テイクホームメッセージ
分類は ML が優位
結合/非結合の二値分類で ML スコアラーは古典 docking を AUROC で +0.10〜0.18 上回り、フラグメント hit triage の事実上の主役に。
回帰はまだ未解決
絶対 pIC50 の中央値 MAE は約 1 log unit。実用的な「nM レベル」予測には到達しておらず、構造ベース物理計算でも改善幅は限定的。
コンセンサスが王道
異なる原理(物理 + ML + ドッキング)の単純合算が単一最強手法を再現的に超える。スクリーニング工程で複数スコアの統合は事実上の必須。
標的特性で勝者交代
Mpro=ML、NSP3=FEP/物理、PLpro=docking 再採点、と標的の物理化学(共有結合性・水構造・ポケット深度)で勝ち筋が変わる。
応用補足:lib/docking, lib/fep への統合
  • XChem ベンチマークセットlib/docking 標準テストに追加し、UniDockRunner / ProLIFCalculator の回帰検証データに利用
  • Consensus scoring API: 複数スコア(Vina + ML + FEP)を順位 / Z-score 正規化で合算する関数を docking モジュールに実装
  • NSP3 マクロドメイン水媒介結合は MMGBSAEngine + 明示水を扱うサブモードで再評価可能
  • ブラインド設定の評価ハーネスを CI 化し、新スコアラー追加時に AUROC / MAE 退行を検出
インパクト
  • 計算薬物発見の「現状の天井」を 150+ 名のコミュニティで定量化した最大規模ブラインド評価
  • パンコロナ標的(Mpro/NSP3/PLpro)に対する Open Science データ + プロトコルを再利用可能な公共資産として公開
  • 「単一手法 SOTA 競争」から「コンセンサス + 標的別手法選択」への戦略転換を支持する実証エビデンス