PoE CLM: Navigating Ultralarge (~10B) Virtual Chemical Spaces
J. Chem. Inf. Model. 2024, 64, 7873 — Nakata, Mori, Tanaka (Science Tokyo) — DOI 10.1021/acs.jcim.4c01214
🎯 100億規模の合成可能化学空間を
合成可能性保証 × 多目的同時最適化で探索する言語モデル
① 背景と課題

Enamine REALのような100億規模の仮想化学空間は、全化合物のドッキングが非現実的(コストが空間サイズに線形比例)。Deep生成モデルは空間を直接サンプリングできるが、合成可能性の保証が困難。特に目標最適化時に合成可能性が損なわれることが知られていた(Gao & Coley)。

全スクリーニング: 100億化合物は計算コスト不可
既存CLM: 最適化すると合成可能性が低下
合成制約型生成: 異化学空間への知識転移が困難

→ PoE CLM: 空間priorを学習して合成可能性を担保 + α係数で多目的制御

② PoE定式化
PoE logits = z_prior
 + Σ αᵢ × (z_expert_i − z_anti_expert_i)
  • prior: 目標化学空間のサブセット16Mで事前学習
  • expert: 望ましい性質(高DRD2スコア等)でFT
  • anti-expert: 望ましくない性質でFT
  • α係数: 訓練後に後処理で調整可能

expertとanti-expertの共有バイアスが相殺 → 化学空間逸脱リスク低減

③ 化学空間の定義
~10B
化合物数(Enamine BB × 56反応)
180,576
ビルディングブロック(Enamine BB USストック)
  • 56の二成分反応スキームで組み合わせ
  • 16M化合物サブセットでprior訓練(薬物様性フィルタ適用)
  • SpaceLightで生成物の空間内存在確認(FN率: 2/10,000)
④ DRD2最適化結果(単目的)
モデルDRD2+(all)DRD2+(in)↑
prior (85M)1.42%1.08%
expert only45.1%1.03%
PoE α=1.08.62%4.83%
PoE α=2.019.7%7.69%
PoE α=2.525.2%7.38%

expert単独では空間内率=1.03%と壊滅的。PoE α=2.0が最良バランス。

⑤ 多目的最適化結果(DRD2+BBB)
条件三条件同時満足(in)
prior only0.07%
PoE DRD2のみ0.55%
PoE +QED0.96%
PoE +BBB0.74%
PoE DRD2+QED+BBB1.88%

三条件(DRD2+・QED+・BBB+)を同時に満たす空間内化合物が最大1.88%。

⑥ 限界・課題
「空間内」はEnamine BBカタログ依存 — 一般的合成可能性は別途確認が必要
α=2.5ではvalidity=66% — α=1.5〜2.0が実用的な上限
3成分以上の反応スキームへの拡張は未検討
SpaceLightの利用が必須(外部ツール依存)
⑦ パイプライン統合方針
  • lib/molgen統合
    JobManagerバックエンドとしてPoE CLMを追加
  • ドッキングスコアをexpert訓練シグナルに
    UniDockRunner → expert FT → 空間内候補生成
  • MMGBSAとの組み合わせ
    結合自由エネルギーを多目的αに統合
SBVSヒット → PoE expert訓練 → 空間内類縁化合物生成 → 再スクリーニング
⑧ Impact / 公開情報
  • 100億規模の化学空間を合成可能性保証で探索
  • α後処理調整で多目的最適化バランスを柔軟制御
  • expert/anti-expertのバイアス相殺で副作用抑制
  • GitHub: github.com/shuyana/poeclm(MIT)
  • モデルサイズ: 6M / 25M / 85M パラメータ
  • ケーススタディ: DRD2 + BBB + QED