BIOPTIC B1: Ultra-High-Throughput Virtual Screening Discovers LRRK2 Ligands in Vast Chemical Space
Vinogradov et al. (Optic Inc.) | J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c00743
🎯 RoBERTa transformer(8.7M)と60次元埋め込みを用いた SSD 検索で 40 億化合物を 2 分で LBVS、LRRK2 で Kd=110 nM ヒットを取得。
① 背景と課題

EnamineREAL Space は 40〜70 億化合物。ドッキングや Chemprop 推論コストが律速で、LBVS でも全件評価は困難。SmallWorld/FastROCS/SpaceLight は速いが生物活性データを使わない化学類似性のみに依存する。

既存高速 LBVS は化学類似性のみで生物活性を捉えない
大型 ML モデルは推論・ストレージともに 40B では現実的でない

→ 小型 transformer × コンパクト埋め込み × SSD インデックスで「2分で 40 億」を実現。

② 手法の概要: モデル設計
  • RoBERTa: 6層、隠れ次元384、8ヘッド、中間層1024
  • 総パラメータ 8.7M(意図的に小型化)
  • BPE vocab 500、SMILES 1D 入力
  • 事前学習: PubChem 1.15億 + Enamine REAL 4800万 = 1.6億
  • Fine-tune: BindingDB ~6700 標的、マルチプール 60 次元
② 手法の概要: 検索インフラ
  • 40B × 60次元 (float16) → 約 5TB
  • 27ノード × 270 SSD (各 21GB, 1Gbps)
  • C++ SIMD でブルートフォースコサイン類似度
  • PostgreSQL で top-k 集約
  • Tanimoto < 0.4 (ECFP4) フィルタでスキャフォールドホッピング
③ 本研究で示したこと
  • Chemprop と同等の精度で数億倍速いスループット
  • 40B 化合物を約 2 分で全件検索
  • LRRK2 Kd=110 nM のサブマイクロモーラルヒット 3 件取得
  • 合計ヒット率 10.4% (14/134)、野生型・G2019S 変異体ともに結合
④ 主な結果 (a) スループット比較
時間 (40B 化合物処理, log scale) 数日 Chemprop 数時間 FastROCS 2分 BIOPTIC B1
④ 主な結果 (b) LRRK2 ヒット展開
SPR Hit Rate (LRRK2) 4.6% 初期 87化合物 4/87 10/10 類縁体上位10 100% 合計 10.4% 14/134
④ 主な結果 (c) 既存手法との比較
手法生物活性学習速度
SmallWorld×速い
FastROCS×速い
SpaceLight×速い
Chemprop遅い
BIOPTIC B1★最速
④ 主な結果 (d) 取得ヒット効力
110 nM 最良 Kd(サブマイクロモーラル)
3 件のサブマイクロモーラルヒット
G2019S 変異体にも結合確認

パーキンソン病関連変異への有効性を示唆

⑤ テイクホームメッセージ
小さいモデルが正解
8.7M で精度を維持しスループット最大化。
60 次元埋め込みが鍵
SSD ストレージ・SIMD コサインに最適化。
BindingDB fine-tune
化学類似性でなく生物活性類似性で検索。
2分で 40B
LBVS パラダイムを「レコメンド」へ転換。
lib/molgen + lib/docking 応用

JobManager のフィルタとして埋め込み類似度検索を導入。FAISS 互換の小規模再現実装が可能。

  • RoBERTa fine-tune スクリプト
  • FAISS で類似度検索
  • Tanimoto<0.4 のホッピングフィルタ
本研究のインパクト
  • 40B 化合物 LBVS を 2 分で実行できる現実解
  • レコメンドシステム的アプローチを創薬に適用
  • サブナノモーラル LRRK2 ヒット獲得で実用性実証