Boltz-2 Independent Benchmark on ChEMBL

Independent Benchmarking of Boltzmann-Based Structure Prediction (Boltz-2) on ChEMBL-Derived Protein-Ligand Complexes

DOI: 10.1273/cbij.26.11 ｜ Chem-Bio Informatics Journal Vol.26 (2026) ｜ Category: machine_learning ｜ Shimizu et al. (RIKEN)

Boltz-2をChEMBL 356標的・1万件で独立ベンチマーク。MAE≈0.9 pChEMBL、NIMで推論60〜90%高速化。創薬VSのリランキング用途で有望だがターゲット依存性に注意。 #StructurePrediction #Cheminformatics

① 背景と課題

2024年にAlphaFold3がタンパク質-小分子複合体構造予測で大きな注目を集めたが、提供形態は学術用クローズドWebAPIに限られ、大規模VS（バーチャルスクリーニング）や商用利用には適さない。完全オープンソース版として登場した Boltz-2 は、ローカル実行・商用利用が可能で同等性能を謳うが、独立した第三者ベンチマークがほぼ存在せず、実創薬シナリオでの精度・速度が不明であった。

研究ギャップ: 著者ら内部のベンチマーク以外にBoltz-2の性能を ChEMBL 規模の外部データで定量評価した報告がなく、ターゲット依存性・絶対精度・速度トレードオフが不可視。

本研究は ChEMBL 356 ターゲット・10,933 化合物という独立ホールドアウトを構築し、配列のみからの apo 構造予測スコアと実測 pChEMBL の相関を初めて系統評価した。

356

benchmark targets

10,933

compounds (ChEMBL)

2026

CBIJ Vol.26

② 手法の概要

入力は UniProt 配列＋SMILES のみ（既知ホロ構造を使わない apo 推論）。出力ポーズと内部スコアを実測 pChEMBL と相関させ、ターゲット横断 MAE / Pearson r と ターゲット内 Spearman ρ を算出。NIM（Normal Inference Mode）でサンプリングを削減し速度を計測。

③ 本研究で示したこと

356 標的・10,933 化合物のChEMBL由来独立ベンチで Boltz-2 を初めて系統評価
全体 MAE ≈ 0.9 pChEMBL（およそ10倍の親和性誤差）、Pearson r ≈ 0.45 の中程度相関
キナーゼ・GPCR の一部で ρ > 0.6、フレキシブル系では ρ < 0.2 とターゲット依存性が大
NIMモードで推論時間を 60〜90% 削減しつつ精度劣化は限定的
VSのリランキング用途では現実的に使えるが、絶対親和性予測としては未だ実用域外

④-a 全体精度（MAE / r / ρ）

全体 MAE 0.9 はおよそ 10× の親和性誤差。Pearson r 0.45 は中程度の相関で、ランキング指標(ρ) の方が用途に直結する。

④-b 検証セットアップと検証方法

データ汚染の最小化: Boltz-2の学習カットオフ以降の活性データを優先的に収集し、リーク混入を低減。

評価軸の二本立て:

ターゲット横断: 全 10,933 化合物で MAE / Pearson r → 絶対精度を測る
ターゲット内: 各標的ごとに Spearman ρ → 化合物ランキング精度を測る

入力統一: UniProt 配列 + SMILES のみ。結晶構造を使わない apo 推論として評価することで、ホロ構造に依存する従来ドッキング (UniDock 等) との差異を明確化。

スコア定義

Boltz-2 内部スコア（自由エネルギー代替値）vs 実測 pChEMBL を 1 ペア = 1 化合物として相関化

④-c NIM による推論高速化

NIM はサンプリングステップ削減で 60〜90% の時間短縮。精度劣化は限定的で、数万件規模ライブラリのリランキングが現実的な計算時間に収まる。

④-d 限界点・注意事項

絶対精度は実用未到達: MAE 0.9 pChEMBL ≈ 10× 誤差で結合親和性のpoint予測には不向き
ターゲット依存性が大: ρ > 0.6 から ρ < 0.2 まで標的でばらつく（フレキシブルループ・複数サイトで悪化）
事前予測法が未確立: 「どの標的でBoltz-2が当たるか」を事前に判定する指標は本論文では提供されない
apo vs ホロの不公平性: 配列のみ入力のため、既知ホロ構造を使うドッキング/FEPと直接比較するには注意
データノイズの影響: ChEMBLのアッセイ条件不均一が真の予測誤差と分離しにくい

⑤ テイクホームメッセージ

① オープンな第三者ベンチが必須
自称ベンチマークと独立ベンチマークでは結果が乖離しうる。Boltz-2のような新基盤モデルは外部 ChEMBL レベルで検証してから採用すべき。

② ランキング用途で有望
絶対値ではなく VS リランキング・FEP プレフィルタとして導入すれば、MAE 0.9 でも十分価値を生み出せる。

③ ターゲット選定が肝
キナーゼ・GPCR 一部は ρ>0.6 と高精度。標的ごとに既知活性での事前リコール検証を行ってから実運用へ。

④ NIM で大規模化が可能
60〜90%の高速化により、数万件規模の VS ライブラリのリランキングが現実的なGPU時間で完結する。

ケムインフォマティクス応用

適用先モジュール	ユースケース	期待効果
lib/docking	UniDockRunner 上位ポーズの Boltz-2 リランキング (NIM)	ヒット率向上
lib/fep	FEP/MM-GBSA 対象の事前カスケードフィルタ	計算コスト低減

運用時は標的ごとに既知 active/inactive で Spearman ρ を事前計測し、ρ > 0.5 を採用基準とすることで失敗標的を避けられる。

実装スケッチ

scores = Boltz2NIM().rerank(top_k_poses, mode="fast")
final = consensus(scores, unidock_scores)

本研究のインパクト

AlphaFold3 クローズドAPI時代に、Boltz-2の独立評価結果を初めて公開し業界の意思決定基準を提供
NIM 60〜90% 高速化を定量化、大規模VSのリランキングインフラとして位置づけを明確化
ターゲット依存性データを通じ「どの標的で構造予測モデルを使うか」を考える診断フレームを確立