Assessing Boltz-2 Performance for the Binding Classification of Docking Hits

J. Chem. Inf. Model. 2026, 66, 1511-1521 | DOI: 10.1021/acs.jcim.5c02630 | Bret, Sindt, Rognan (Strasbourg)

共フォールディングモデルBoltz-2をULVSドッキングヒット分類で初の体系評価。既存スコアリング関数を圧倒する一方、標的・変異への鈍感さから「物理ではなく薬物様性」を学習している懸念を提起

① 背景と課題

ウルトララージバーチャルスクリーニング（ULVS）は10億化合物オーダーの探索を可能にしたが、ドッキングのスコアリング関数は依然として偽陽性に弱い。物理ベースの力場や経験則ベースのスコア（Vina、Glide等）はULVS特化のチャレンジングなベンチマーク（プロパティマッチドデコイ）でROC-AUCが低下しがち。一方Boltz-2はAlphaFold3代替のオープンソース共フォールディングモデルとして公開され、構造予測と親和性予測を同時に行える点で注目を集めている。

既存SF：物理近似が粗く、デコイがリガンド類似だとAUCが0.55近辺まで落ちる

Boltz-2のVS適用評価が未検証：信頼度スコアが本当にbindingを見ているか不明

→ Boltz-2の親和性スコアをULVS分類器として体系的にベンチマークし、予測機構を相関分析で解剖する

② 手法の概要

シーケンス + SMILES のみ入力 → Boltz-2が複合体構造と親和性スコアを生成
ULVSベンチマーク：実験活性化合物 + プロパティマッチドデコイ
分類指標：ROC-AUC, EF1%（top 1%濃縮率）
機構プローブ：ポーズRMSD vs スコア相関、主要残基Ala変異体、標的スワップ

③ 本研究で示したこと

Boltz-2親和性スコアは ULVS チャレンジング集合で Gnina/Vina/Glide/Uni-Dock を大きく超えるROC-AUC・EF1%を達成
化学的類似性バイアスなし：多様なケミカルスペースで頑健
ポーズRMSDとスコアの相関は弱い（≒物理ポーズ非依存）
主要結合残基のAla変異体でもスコアが殆ど変化しない
標的を入れ替えても化合物のスコア順位が保存される傾向あり
→ 「結合の物理」より「薬物様性／学習データ分布」を見ている疑い

④ ベンチマーク分類性能

Boltz-2はEF1%でも既存全SFを上回り、デコイ識別力が際立つ。物理ベース勢は AUC 0.55–0.62 帯に密集。

④ ポーズRMSD vs スコア相関

④ Ala変異体・標的交換の鈍感さ

④ 主要数値サマリ

項目	値・所見
ベンチマーク	ULVSチャレンジング集合 (活性 + propmatched decoy)
Boltz-2 ROC-AUC	全SF中で最高、Gnina/Vina/Glide/Uni-Dockを大幅超過
Boltz-2 EF1%	最高濃縮率を記録
化学的類似性バイアス	有意な偏りなし（多様なケミカルスペースで頑健）
ポーズRMSDとスコア	相関弱い（物理ポーズに依存していない）
Ala変異体	分類性能ほぼ不変（標的特異性に鈍感）
標的スワップ	化合物スコア順位が保存されるケースあり
計算コスト	1化合物あたり数分（10⁹級ULVSには非現実的）

高AUCの裏で「薬物様性スコア化」している可能性 → 機構解釈に要注意

⑤ テイクホームメッセージ

分類精度は本物

ULVSヒット分類でBoltz-2は既存スコアリング関数を圧倒。リランキング層として直ちに使う価値あり。

ただし「結合の物理」とは限らない

Ala変異・標的交換に鈍感 = 学習分布の薬物様性／化合物プライアを見ている疑い。

使いどころを選ぶ

多様なターゲットの一次絞込には強い。変異選択性（KRAS G12C vs G12D 等）は物理ベース併用が必須。

運用上のボトルネック

1化合物数分 × 10⁶以上 = 現実的にはドッキング上位の二段リランキング向け。

応用：lib/dockingへの組込み

Boltz2Rescorer を ProLIFCalculator/UniDockRunner の後段に挿入
UniDock top-N（N=1k〜10k）→ Boltz-2 で再評価 → 最終 hit list
標的依存性のサニティチェッカー：Alaスキャン・off-target スワップを自動実施
Δ(score) しきい値で「薬物様性駆動」flag を付与し、選択性が必要な案件で警告
キャッシュ：構造ハッシュ＋標的ハッシュで再計算回避（実時間短縮）

インパクト

共フォールディング由来のスコアが古典SFを実用ベンチで明確に超えた初の体系的検証
「機能的にAlphaFold3代替」のオープンモデルがVS実務に投入可能であると示した
同時に「ML親和性予測の機構透明性」という次の研究課題を浮上させた