PyMolGen: Database-Driven Molecular Generation of Drug-Like Compounds

DOI: 10.26434/chemrxiv.15000550  |  Category: machine_learning  |  ChemRxiv 2026/03  |  Falcone et al. (Nottingham / Strathclyde / GSK)
🎯 ゴール: DB由来ルールで制御可能なアナログ生成 + Build Probability Score

1背景と課題

VAE / GAN / Transformer 系の ML 生成モデルはブラックボックス的で、生成分子の統計分布多様性を制御しづらい。

2手法の概要

ユーザー提供 SMILES DB を SMARTS 接続ベクターで断片化 → 出現頻度から確率的フラグメント組合せルールを自動導出 → 指定スキャフォールド周辺で組合せ生成。

3本研究で示したこと

BRD4 インヒビター(3,5-dimethyl-4-phenylisoxazole コア)を題材に、DB の統計分布に整合したアナログ群を生成。Build Probability Score が ML では得られない合成容易性 / 希少性指標として機能。

4主な結果(4 panels)

a. BAR
DB分布との一致度(QED / SA / MW)
1.0 0.5 0.0 QED 0.82 0.79 SA 2.6 2.7 MW 412 405 DB Generated
DB群と生成群の主要記述子は近接 → 統計分布の一致を確認
b. SCATTER
Build Probability vs Tanimoto novelty
1.0 0.5 0.0 0 Build Prob 1 Novelty rare / novel common
Build Prob ↓ ⇒ DB 内希少度 ↑ ⇒ 多様性スコアとして利用可
c. FLOW
PyMolGen 生成パイプライン
DB SMILES Fragment (SMARTS) Rule prob table Vector attach New SMILES generated Build Probability Score DB → fragment → rule → attach → score
明示的 4 段階。各ステップが介入可能でブラックボックス回避
d. CASE
BRD4: isoxazole 周辺アナログ生成
Ph isox R1 R2 R3 ≈ 10⁴ candidates per scaffold ranked by Build Prob × external scorer
3,5-dimethyl-4-phenylisoxazole コアを保持し R1/R2/R3 を DB ルールで多様化
5

テイクホーム:

DB由来のフラグメント組合せルール + Build Probability Score により、制御可能・解釈可能な分子生成を実現。lib/molgen の MolgenYaml に組み込み、UniDockRunner / MMGBSAEngine とマルチスコアランキングしてリード最適化を加速できる。ML 生成(潜在空間)とルールベース生成(PyMolGen)の並列実行で候補プール拡大が実用的。