Can AI-Predicted Complexes Teach ML to Compute Drug Binding Affinity?

コフォールディング構造によるMLSFデータ拡張の品質依存性を系統評価（J. Chem. Inf. Model. 2025, Hsu, Grevtsev, ..., Biggin）

🎯 「品質フィルタさえかければ」AI予測構造は実験構造と同等の訓練効果を持つ。Boltz confidence > 0.9 が実用的ヒューリスティック

① 背景と問い

GNNベースのMLスコアリング関数（MLSF）は実験的タンパク質-リガンド複合体構造でトレーニングするが、高品質実験構造は希少。AlphaFold3・Boltz-1xなどのコフォールディングモデルで合成構造を大量生成しトレーニングデータを拡張できるか？

BindingNet v2（~700K 合成複合体）追加→性能変化なし。なぜ？

BindingNet v1（~70K 高信頼構造）追加→性能が明確に改善

→ 答え: データ量ではなく品質が全て。低品質合成構造は無益どころか有害（Kendall τ=-0.20）

② 実験設計

モデル: AEV-PLIG, EHIGN（GNN-MLSF）, RF-Score（3D非対応）

データセット

評価: FEPベンチマーク（データ漏洩最小化）でPearson R・Kendall τ

③ 品質フィルタの識別力

Boltz-1x confidence = 0.8×complexPLDDT + 0.2×iPTM

RF-Score は3D情報なし → どのデータ拡張でも改善なし

④ データ品質と性能の相関 (Kendall τ)

高信頼Boltz-1x予測のみで訓練 → 実験構造と統計的に区別不能な性能

④ train-test類似度と成功率 (RNP)

信頼スコアの品質識別力は類似度範囲をまたいで安定 → 分布外でも閾値フィルタが有効

多鎖系では単鎖系より性能が低く、信頼スコアの相関も弱い

⑤ まとめ

⑥ テイクホームメッセージ

🔬 品質 > 量
700Kの低品質構造よりも70Kの高品質構造の方が有益。データ拡張は信頼スコアフィルタ必須。

🤖 AI構造で実験構造を代替
高信頼Boltz-1x予測は実験HiQBind構造と区別不能な訓練効果。新規ターゲットに適用可能。

🎛️ 実用的ヒューリスティック
confidence > 0.9 / ligand pLDDT > 0.62 でリファレンス構造なしに高品質予測を同定できる。

⚠️ 多鎖・外挿に注意
多鎖系・train-test類似度 < 40%では信頼スコアの精度低下。AF3等への閾値移植時は再キャリブレーション要。

ケムインフォパイプライン適用先

適用先	ユースケース
lib/docking	Boltz-1xフィルタ済み構造でMLSFをfine-tuning
lib/fep	FEP前トリアージMLSFの訓練データを拡張
lib/docking	AEV-PLIGスコアラーの社内データ統合

pip install boltz + GitHub aev-plig で実装可能