Can AI-Predicted Complexes Teach ML to Compute Drug Binding Affinity?
コフォールディング構造によるMLSFデータ拡張の品質依存性を系統評価(J. Chem. Inf. Model. 2025, Hsu, Grevtsev, ..., Biggin)
🎯 「品質フィルタさえかければ」AI予測構造は実験構造と同等の訓練効果を持つ。Boltz confidence > 0.9 が実用的ヒューリスティック
① 背景と問い

GNNベースのMLスコアリング関数(MLSF)は実験的タンパク質-リガンド複合体構造でトレーニングするが、高品質実験構造は希少。AlphaFold3・Boltz-1xなどのコフォールディングモデルで合成構造を大量生成しトレーニングデータを拡張できるか?

BindingNet v2(~700K 合成複合体)追加→性能変化なし。なぜ?
BindingNet v1(~70K 高信頼構造)追加→性能が明確に改善

→ 答え: データ量ではなく品質が全て。低品質合成構造は無益どころか有害(Kendall τ=-0.20)

② 実験設計

モデル: AEV-PLIG, EHIGN(GNN-MLSF), RF-Score(3D非対応)

データセット

データセット規模
HiQBind実験最高品質
BindingNet v1~70K高信頼(SHAFTS>1.2)
BindingNet v2~700K大半が低〜中信頼
Boltz-1x (HiQBind再現)実験同数信頼スコアで選別

評価: FEPベンチマーク(データ漏洩最小化)でPearson R・Kendall τ

③ 品質フィルタの識別力

Boltz-1x confidence = 0.8×complexPLDDT + 0.2×iPTM

フィルタ指標閾値高品質率
Boltz confidence>0.985.9%
Ligand pLDDT>0.62~85%
Interface pLDDT>0.75~85%
pTM>0.95↓セット小さい
PDE / PAE識別力なし

RF-Score は3D情報なし → どのデータ拡張でも改善なし

④ データ品質と性能の相関 (Kendall τ)
サブセットKendall τ (サイズ vs PCC)
高信頼 (SHAFTS>1.2)+0.80 ✓ 単調増加
中信頼 (1.0〜1.2)+0.105 ほぼフラット
低信頼 (<1.0)−0.20 ✗ 増やすと悪化
高信頼Boltz-1x予測のみで訓練 → 実験構造と統計的に区別不能な性能
④ train-test類似度と成功率 (RNP)
類似度範囲Boltz-1x 成功率
60〜80%~80%
40〜60%↓低下
<40%大幅低下

信頼スコアの品質識別力は類似度範囲をまたいで安定 → 分布外でも閾値フィルタが有効

多鎖系では単鎖系より性能が低く、信頼スコアの相関も弱い
⑤ まとめ
  • 品質フィルタ済みコフォールディング構造は実験構造と同等の訓練効果
  • Boltz confidence > 0.9 が実用的ヒューリスティック(単鎖85.9%高品質)
  • 大量低品質データは有害(Kendall τ = −0.20)
  • 3D GNN には有効、3D非対応モデル(RF)には無効
⑥ テイクホームメッセージ
🔬 品質 > 量
700Kの低品質構造よりも70Kの高品質構造の方が有益。データ拡張は信頼スコアフィルタ必須。
🤖 AI構造で実験構造を代替
高信頼Boltz-1x予測は実験HiQBind構造と区別不能な訓練効果。新規ターゲットに適用可能。
🎛️ 実用的ヒューリスティック
confidence > 0.9 / ligand pLDDT > 0.62 でリファレンス構造なしに高品質予測を同定できる。
⚠️ 多鎖・外挿に注意
多鎖系・train-test類似度 < 40%では信頼スコアの精度低下。AF3等への閾値移植時は再キャリブレーション要。
ケムインフォパイプライン適用先
適用先ユースケース
lib/dockingBoltz-1xフィルタ済み構造でMLSFをfine-tuning
lib/fepFEP前トリアージMLSFの訓練データを拡張
lib/dockingAEV-PLIGスコアラーの社内データ統合

pip install boltz + GitHub aev-plig で実装可能