1背景と課題
VAE / GAN / Transformer 系の ML 生成モデルはブラックボックス的で、生成分子の統計分布と多様性を制御しづらい。
- 合成可能性の定量指標を欠く
- 反応点(接続ベクター)の制御が困難
- 特定スキャフォールド中心のリード最適化に不向き
- 生成分子の「希少性」をスコアリングできない
2手法の概要
ユーザー提供 SMILES DB を SMARTS 接続ベクターで断片化 → 出現頻度から確率的フラグメント組合せルールを自動導出 → 指定スキャフォールド周辺で組合せ生成。
- ① DB → フラグメント分解(SMARTS)
- ② 出現頻度・組合せ確率の集計
- ③ ベクター位置でフラグメント連結
- ④ Build Probability Score 付与
3本研究で示したこと
BRD4 インヒビター(3,5-dimethyl-4-phenylisoxazole コア)を題材に、DB の統計分布に整合したアナログ群を生成。Build Probability Score が ML では得られない合成容易性 / 希少性指標として機能。
- QED / SA が DB 分布と一致
- 低 Build Prob 分子 = 希少 / 多様性高
- 制御可能な生成方向(vector制約)
4主な結果(4 panels)
a. BAR
DB分布との一致度(QED / SA / MW)
DB群と生成群の主要記述子は近接 → 統計分布の一致を確認
b. SCATTER
Build Probability vs Tanimoto novelty
Build Prob ↓ ⇒ DB 内希少度 ↑ ⇒ 多様性スコアとして利用可
c. FLOW
PyMolGen 生成パイプライン
明示的 4 段階。各ステップが介入可能でブラックボックス回避
d. CASE
BRD4: isoxazole 周辺アナログ生成
3,5-dimethyl-4-phenylisoxazole コアを保持し R1/R2/R3 を DB ルールで多様化
5
テイクホーム:
DB由来のフラグメント組合せルール + Build Probability Score により、制御可能・解釈可能な分子生成を実現。lib/molgen の MolgenYaml に組み込み、UniDockRunner / MMGBSAEngine とマルチスコアランキングしてリード最適化を加速できる。ML 生成(潜在空間)とルールベース生成(PyMolGen)の並列実行で候補プール拡大が実用的。