Pan-Coronavirus Blind Challenge

A Computational Community Blind Challenge on Pan-Coronavirus Drug Discovery Data

J. Chem. Inf. Model. 66, 3129-3149 | 2026 | DOI: 10.1021/acs.jcim.5c02106

150名超の研究者が参加したXChem汎コロナ標的のブラインドチャレンジ。Mpro/NSP3/PLproに対しドッキング・FEP・MLを横並びで評価し、コンセンサス予測の優位性を定量化。

(1) 背景と課題

SARS-CoV-2 パンデミックを契機に COVID Moonshot 等の Open Science プロジェクトで Diamond Light Source の XChem 施設による大規模フラグメントスクリーニング（Mpro, NSP3 macrodomain, PLpro 等）が公開された。これらの汎コロナウイルス標的に対し、ドッキング・FEP・ML を含む多様な計算手法が乱立しているが、各論文は retrospective（事後評価） でベンチマークされており、訓練データへの過適合・選択バイアスの排除が困難。

既存ベンチマークは hindsight に基づき過適合のリスク。実用シナリオでの「真の予測力」が不明。

研究室間でデータ・指標が統一されておらず、手法間比較が公平でない。

→ 大規模コミュニティ参加のもと「実験結果を見ずに提出する」厳密ブラインド設定で、計算薬物発見の現状を測定する。

(2) チャレンジ設計

参加グループは任意の手法で 結合/非結合の二値分類 および pIC50 回帰値 を提出。締切後に X 線・SPR の真値を公開し集中採点。

(3) 本研究で示したこと

多くの ML スコアラーが古典的ドッキングスコアを分類タスクで上回った
絶対 pIC50 予測は依然として困難。中央値 MAE ≈ 1 log unit
コンセンサス予測（複数手法の単純平均/順位合算）が単一手法を一貫して上回る
標的依存性が強く、Mpro で機能する手法が NSP3 では失敗するケースが頻出
150+ 名規模のコミュニティで再現性ある評価インフラを確立

(4a) 分類性能：ML vs ドッキング

ML 系スコアラーの AUROC が古典 docking を +0.10〜0.18 上回る傾向。コンセンサスがさらに +0.04 押し上げ。

(4b) pIC50 回帰：予測 vs 実測

絶対値予測は全手法で困難。±1 log unit 圏内に入る点は限定的。

(4c) 標的別の手法ベスト

標的	ベスト系統	分類 AUROC	難所
Mpro	ML + 共有結合考慮	~ 0.82	共有結合性 warhead
NSP3 macrodomain	FEP / 物理	~ 0.70	水媒介 H 結合
PLpro	ドッキング再採点	~ 0.68	浅いポケット
3 標的合算	Consensus	~ 0.85	—

「銀の弾丸」は無し。標的の物理化学特性で勝ち筋が変わるため、複数手法を組み合わせる戦略が安定。

数値は提出群の代表的レンジを示す概念値（論文の傾向に基づく）。

(4d) 参加規模と提出多様性

ドッキングと ML がほぼ同数で過半。FEP は計算コストの高さで提出は少なめだが NSP3 で存在感。

(5) テイクホームメッセージ

分類は ML が優位

結合/非結合の二値分類で ML スコアラーは古典 docking を AUROC で +0.10〜0.18 上回り、フラグメント hit triage の事実上の主役に。

回帰はまだ未解決

絶対 pIC50 の中央値 MAE は約 1 log unit。実用的な「nM レベル」予測には到達しておらず、構造ベース物理計算でも改善幅は限定的。

コンセンサスが王道

異なる原理（物理 + ML + ドッキング）の単純合算が単一最強手法を再現的に超える。スクリーニング工程で複数スコアの統合は事実上の必須。

標的特性で勝者交代

Mpro=ML、NSP3=FEP/物理、PLpro=docking 再採点、と標的の物理化学（共有結合性・水構造・ポケット深度）で勝ち筋が変わる。

応用補足：lib/docking, lib/fep への統合

XChem ベンチマークセットを lib/docking 標準テストに追加し、UniDockRunner / ProLIFCalculator の回帰検証データに利用
Consensus scoring API: 複数スコア（Vina + ML + FEP）を順位 / Z-score 正規化で合算する関数を docking モジュールに実装
NSP3 マクロドメイン水媒介結合は MMGBSAEngine + 明示水を扱うサブモードで再評価可能
ブラインド設定の評価ハーネスを CI 化し、新スコアラー追加時に AUROC / MAE 退行を検出

インパクト

計算薬物発見の「現状の天井」を 150+ 名のコミュニティで定量化した最大規模ブラインド評価
パンコロナ標的（Mpro/NSP3/PLpro）に対する Open Science データ + プロトコルを再利用可能な公共資産として公開
「単一手法 SOTA 競争」から「コンセンサス + 標的別手法選択」への戦略転換を支持する実証エビデンス