ROSHAMBO2: GPU-Accelerated 3D Shape+Color Alignment for Ultralarge VS
J. Chem. Inf. Model. 2025, 65, 9842 — Atwi, Farr, Wang, Antoszewski, Sciabola (Biogen)
🎯 Open-source で十億化合物 LBVS を可能にする 200倍高速 3D shape+color エンジン
① 背景と課題

3D shape/color similarity は ROCS など商用ツールが事実上の標準だが、ライセンスコストとブラックボックス性により再現研究や billion-scale LBVS の民主化を阻んでいる。原版 ROSHAMBO (MIT) は OSS の道を拓いたものの PAPER バックエンド由来の GPU 効率の限界と、color (薬理団) を post-hoc にしか評価しない設計上の制約により、Enamine REAL/WuXi GalaXi 規模の VS には届いていなかった。

原版 ROSHAMBO は shape 最適化後に color スコアリング (post-hoc)
SDF テキスト I/O が律速で、2000万 conformer の処理にスケールしない
商用 ROCS は性能十分だが OSS ではなく、academic/SME での導入障壁

→ C++/CUDA エンジン全面リライト + HDF5 padded array + in-memory server モードで 200倍高速化、shape+color 統合最適化を実現

② 手法: 3つのコア改善
  • C++/CUDA エンジン
    各 atom-pair overlap を 1 GPU thread に割当 (massive parallelism)
  • Color = ダミー原子
    Gaussian overlap 関数に直接統合
    combined = λ·shape + (1-λ)·color
  • HDF5 padded array
    固定サイズで GPU バッチ転送効率 10倍
  • In-memory server
    GPU 常駐 + RPC で I/O 律速を排除
📦 SDF → HDF5 prep → GPU scoring → tanimoto_combo
③ アライメント目的関数
Pairwise Gaussian overlap (Grant et al.)
V_ij = p·(π/(a_i+a_j))^{3/2}·K_ij
K_ij = exp(-a_i·a_j·R_ij²/(a_i+a_j))
Combined optimization (NEW)
obj = λ·V_shape + (1-λ)·V_color
default λ=0.5, color = ダミー原子

原子半径は炭素で固定 (元素別 radius は将来予定)

④ DUDE-Z (43 ターゲット)
ModeMean EF1%勝ち target
shape-only (旧)6.310/43
combined (新)9.130/43
同等3/43

HDAC8/NRAM/ANDR/MAPK2 で EF1% > 20。イオン性 pharmacophore が active set に偏在するターゲットで特に効果が顕著。

⑤ LIT-PCBA (15 ターゲット)
ModeMeanMedian
shape-only2.881.65
color-only2.360.99
combined3.82.3

3D-favorable 8 ターゲット中 7 で combined が最高。MTORC1 のみ ROCS 優位、FEN1/VDR は ROSHAMBO2 優位。

⑥ Runtime ベンチ (LIT-PCBA 2000万 conformer)
SetupGPUTime
NFS, on-demand1× Titan V1 hr (I/O 16m + scoring 44m)
SSD, on-demand1× RTX 40905m 30s
SSD, on-demand2× RTX 40903m 30s
SSD, on-demand4× RTX 40902m 48s
in-memory servermulti-GPU原版 比 200倍超
⑦ 限界・課題
原子半径=炭素 固定 (ハロゲン/硫黄で過大評価リスク)
color SMARTS は default 固定 — metal/halogen bond は手動 JSON
target-dependent な λ チューニングを著者推奨
局所解に陥りやすく初期姿勢依存性は残る
active learning や iterative VS の評価は未実施
⑧ パイプラインへの統合方針
  • lib/docking/lbvs/roshambo2_runner.py として API/CLI ラッパーを追加
  • HDF5 prep ユーティリティを共通の conformer ライブラリ管理層へ統合
  • ProLIFCalculator (PLIF) と組合わせて pose 検証 + LBVS の二段階パイプライン化
  • tanimoto_combo を MMGBSAEngine の事前フィルタとして利用
⑨ Impact / 公開情報
  • 商用 ROCS と同等の 3D shape+color 性能を MIT で提供
  • 200倍高速化により Enamine REAL (60億) 級 VS が現実的に
  • HDF5 + server 設計はチーム間でライブラリ共有を促進
  • GitHub: molecularinformatics/roshambo2
  • License: MIT
  • 依存: RDKit, h5py, CUDA