Assessing Boltz-2 Performance for the Binding Classification of Docking Hits
J. Chem. Inf. Model. 2026, 66, 1511-1521 | DOI: 10.1021/acs.jcim.5c02630 | Bret, Sindt, Rognan (Strasbourg)
共フォールディングモデルBoltz-2をULVSドッキングヒット分類で初の体系評価。既存スコアリング関数を圧倒する一方、標的・変異への鈍感さから「物理ではなく薬物様性」を学習している懸念を提起
① 背景と課題

ウルトララージバーチャルスクリーニング(ULVS)は10億化合物オーダーの探索を可能にしたが、ドッキングのスコアリング関数は依然として偽陽性に弱い。物理ベースの力場や経験則ベースのスコア(Vina、Glide等)はULVS特化のチャレンジングなベンチマーク(プロパティマッチドデコイ)でROC-AUCが低下しがち。一方Boltz-2はAlphaFold3代替のオープンソース共フォールディングモデルとして公開され、構造予測と親和性予測を同時に行える点で注目を集めている。

既存SF:物理近似が粗く、デコイがリガンド類似だとAUCが0.55近辺まで落ちる
Boltz-2のVS適用評価が未検証:信頼度スコアが本当にbindingを見ているか不明

→ Boltz-2の親和性スコアをULVS分類器として体系的にベンチマークし、予測機構を相関分析で解剖する

② 手法の概要
  • シーケンス + SMILES のみ入力 → Boltz-2が複合体構造と親和性スコアを生成
  • ULVSベンチマーク:実験活性化合物 + プロパティマッチドデコイ
  • 分類指標:ROC-AUC, EF1%(top 1%濃縮率)
  • 機構プローブ:ポーズRMSD vs スコア相関、主要残基Ala変異体、標的スワップ
FASTA + SMILES Boltz-2 co-folding + affinity head 予測複合体構造 親和性スコア ⇒ 親和性スコアをULVSヒット分類器として評価
③ 本研究で示したこと
  • Boltz-2親和性スコアは ULVS チャレンジング集合で Gnina/Vina/Glide/Uni-Dock を大きく超えるROC-AUC・EF1%を達成
  • 化学的類似性バイアスなし:多様なケミカルスペースで頑健
  • ポーズRMSDとスコアの相関は弱い(≒物理ポーズ非依存)
  • 主要結合残基のAla変異体でもスコアが殆ど変化しない
  • 標的を入れ替えても化合物のスコア順位が保存される傾向あり
  • → 「結合の物理」より「薬物様性/学習データ分布」を見ている疑い
④ ベンチマーク分類性能
ULVSチャレンジング集合 ROC-AUC 0.50 0.65 0.75 0.85 Random ~0.50 Vina ~0.55 Glide ~0.59 Gnina ~0.62 Uni-Dock ~0.60 Boltz-2 ~0.82 ROC-AUC

Boltz-2はEF1%でも既存全SFを上回り、デコイ識別力が際立つ。物理ベース勢は AUC 0.55–0.62 帯に密集。

④ ポーズRMSD vs スコア相関
予測ポーズRMSD vs Boltz-2スコア 0 2 4 6 8 Å ポーズRMSD(結晶構造比) 親和性スコア low high 弱い相関 (|r|≪0.3) スコアはポーズ品質にほぼ依存しない
④ Ala変異体・標的交換の鈍感さ
条件別 Boltz-2 スコア分布(中央値±IQR) low mid high WT 標的 活性化合物 主要残基→Ala変異 同じ化合物 別標的に差替 同じ化合物 Δ ≈ 数% Δ ≈ 数% → 標的依存性が極めて弱い
④ 主要数値サマリ
項目値・所見
ベンチマークULVSチャレンジング集合 (活性 + propmatched decoy)
Boltz-2 ROC-AUC全SF中で最高、Gnina/Vina/Glide/Uni-Dockを大幅超過
Boltz-2 EF1%最高濃縮率を記録
化学的類似性バイアス有意な偏りなし(多様なケミカルスペースで頑健)
ポーズRMSDとスコア相関弱い(物理ポーズに依存していない)
Ala変異体分類性能ほぼ不変(標的特異性に鈍感)
標的スワップ化合物スコア順位が保存されるケースあり
計算コスト1化合物あたり数分(10⁹級ULVSには非現実的)
高AUCの裏で「薬物様性スコア化」している可能性 → 機構解釈に要注意
⑤ テイクホームメッセージ
分類精度は本物
ULVSヒット分類でBoltz-2は既存スコアリング関数を圧倒。リランキング層として直ちに使う価値あり。
ただし「結合の物理」とは限らない
Ala変異・標的交換に鈍感 = 学習分布の薬物様性/化合物プライアを見ている疑い。
使いどころを選ぶ
多様なターゲットの一次絞込には強い。変異選択性(KRAS G12C vs G12D 等)は物理ベース併用が必須。
運用上のボトルネック
1化合物 数分 × 10⁶以上 = 現実的にはドッキング上位の二段リランキング向け。
応用:lib/dockingへの組込み
  • Boltz2Rescorer を ProLIFCalculator/UniDockRunner の後段に挿入
  • UniDock top-N(N=1k〜10k)→ Boltz-2 で再評価 → 最終 hit list
  • 標的依存性のサニティチェッカー:Alaスキャン・off-target スワップを自動実施
  • Δ(score) しきい値で「薬物様性駆動」flag を付与し、選択性が必要な案件で警告
  • キャッシュ:構造ハッシュ+標的ハッシュで再計算回避(実時間短縮)
インパクト
  • 共フォールディング由来のスコアが古典SFを実用ベンチで明確に超えた初の体系的検証
  • 「機能的にAlphaFold3代替」のオープンモデルがVS実務に投入可能であると示した
  • 同時に「ML親和性予測の機構透明性」という次の研究課題を浮上させた