GNNベースのMLスコアリング関数(MLSF)は実験的タンパク質-リガンド複合体構造でトレーニングするが、高品質実験構造は希少。AlphaFold3・Boltz-1xなどのコフォールディングモデルで合成構造を大量生成しトレーニングデータを拡張できるか?
→ 答え: データ量ではなく品質が全て。低品質合成構造は無益どころか有害(Kendall τ=-0.20)
モデル: AEV-PLIG, EHIGN(GNN-MLSF), RF-Score(3D非対応)
データセット
| データセット | 規模 | 質 |
|---|---|---|
| HiQBind | 実験 | 最高品質 |
| BindingNet v1 | ~70K | 高信頼(SHAFTS>1.2) |
| BindingNet v2 | ~700K | 大半が低〜中信頼 |
| Boltz-1x (HiQBind再現) | 実験同数 | 信頼スコアで選別 |
評価: FEPベンチマーク(データ漏洩最小化)でPearson R・Kendall τ
Boltz-1x confidence = 0.8×complexPLDDT + 0.2×iPTM
| フィルタ指標 | 閾値 | 高品質率 |
|---|---|---|
| Boltz confidence | >0.9 | 85.9% |
| Ligand pLDDT | >0.62 | ~85% |
| Interface pLDDT | >0.75 | ~85% |
| pTM | >0.95 | ↓セット小さい |
| PDE / PAE | — | 識別力なし |
RF-Score は3D情報なし → どのデータ拡張でも改善なし
| サブセット | Kendall τ (サイズ vs PCC) |
|---|---|
| 高信頼 (SHAFTS>1.2) | +0.80 ✓ 単調増加 |
| 中信頼 (1.0〜1.2) | +0.105 ほぼフラット |
| 低信頼 (<1.0) | −0.20 ✗ 増やすと悪化 |
| 類似度範囲 | Boltz-1x 成功率 |
|---|---|
| 60〜80% | ~80% |
| 40〜60% | ↓低下 |
| <40% | 大幅低下 |
信頼スコアの品質識別力は類似度範囲をまたいで安定 → 分布外でも閾値フィルタが有効
| 適用先 | ユースケース |
|---|---|
| lib/docking | Boltz-1xフィルタ済み構造でMLSFをfine-tuning |
| lib/fep | FEP前トリアージMLSFの訓練データを拡張 |
| lib/docking | AEV-PLIGスコアラーの社内データ統合 |
pip install boltz + GitHub aev-plig で実装可能