PyMolGen Poster

1背景と課題

VAE / GAN / Transformer 系の ML 生成モデルはブラックボックス的で、生成分子の統計分布と多様性を制御しづらい。

合成可能性の定量指標を欠く
反応点（接続ベクター）の制御が困難
特定スキャフォールド中心のリード最適化に不向き
生成分子の「希少性」をスコアリングできない

2手法の概要

ユーザー提供 SMILES DB を SMARTS 接続ベクターで断片化 → 出現頻度から確率的フラグメント組合せルールを自動導出 → 指定スキャフォールド周辺で組合せ生成。

① DB → フラグメント分解（SMARTS）
② 出現頻度・組合せ確率の集計
③ ベクター位置でフラグメント連結
④ Build Probability Score 付与

3本研究で示したこと

BRD4 インヒビター（3,5-dimethyl-4-phenylisoxazole コア）を題材に、DB の統計分布に整合したアナログ群を生成。Build Probability Score が ML では得られない合成容易性 / 希少性指標として機能。

QED / SA が DB 分布と一致
低 Build Prob 分子 = 希少 / 多様性高
制御可能な生成方向（vector制約）

4主な結果（4 panels）

a. BAR

DB分布との一致度（QED / SA / MW）

DB群と生成群の主要記述子は近接 → 統計分布の一致を確認

b. SCATTER

Build Probability vs Tanimoto novelty

Build Prob ↓ ⇒ DB 内希少度 ↑ ⇒ 多様性スコアとして利用可

c. FLOW

PyMolGen 生成パイプライン

明示的 4 段階。各ステップが介入可能でブラックボックス回避

d. CASE

BRD4: isoxazole 周辺アナログ生成

3,5-dimethyl-4-phenylisoxazole コアを保持し R1/R2/R3 を DB ルールで多様化

テイクホーム:

DB由来のフラグメント組合せルール + Build Probability Score により、制御可能・解釈可能な分子生成を実現。lib/molgen の MolgenYaml に組み込み、UniDockRunner / MMGBSAEngine とマルチスコアランキングしてリード最適化を加速できる。ML 生成（潜在空間）とルールベース生成（PyMolGen）の並列実行で候補プール拡大が実用的。

PyMolGen: Database-Driven Molecular Generation of Drug-Like Compounds

1背景と課題

2手法の概要

3本研究で示したこと

4主な結果（4 panels）

テイクホーム: