PoE CLM — Navigating Ultralarge Virtual Chemical Spaces

PoE CLM: Navigating Ultralarge (~10B) Virtual Chemical Spaces

J. Chem. Inf. Model. 2024, 64, 7873 — Nakata, Mori, Tanaka (Science Tokyo) — DOI 10.1021/acs.jcim.4c01214

🎯 100億規模の合成可能化学空間を
合成可能性保証 × 多目的同時最適化で探索する言語モデル

① 背景と課題

Enamine REALのような100億規模の仮想化学空間は、全化合物のドッキングが非現実的（コストが空間サイズに線形比例）。Deep生成モデルは空間を直接サンプリングできるが、合成可能性の保証が困難。特に目標最適化時に合成可能性が損なわれることが知られていた（Gao & Coley）。

全スクリーニング: 100億化合物は計算コスト不可

既存CLM: 最適化すると合成可能性が低下

合成制約型生成: 異化学空間への知識転移が困難

→ PoE CLM: 空間priorを学習して合成可能性を担保 + α係数で多目的制御

② PoE定式化

PoE logits = z_prior
　+ Σ αᵢ × (z_expert_i − z_anti_expert_i)

expertとanti-expertの共有バイアスが相殺 → 化学空間逸脱リスク低減

③ 化学空間の定義

~10B

化合物数（Enamine BB × 56反応）

180,576

ビルディングブロック（Enamine BB USストック）

④ DRD2最適化結果（単目的）

expert単独では空間内率=1.03%と壊滅的。PoE α=2.0が最良バランス。

⑤ 多目的最適化結果（DRD2+BBB）

三条件（DRD2+・QED+・BBB+）を同時に満たす空間内化合物が最大1.88%。

⑥ 限界・課題

「空間内」はEnamine BBカタログ依存 — 一般的合成可能性は別途確認が必要

α=2.5ではvalidity=66% — α=1.5〜2.0が実用的な上限

3成分以上の反応スキームへの拡張は未検討

SpaceLightの利用が必須（外部ツール依存）

⑦ パイプライン統合方針

SBVSヒット → PoE expert訓練 → 空間内類縁化合物生成 → 再スクリーニング

⑧ Impact / 公開情報