Machine Learning for De Novo Molecular Generation: A Comprehensive Review
Chen & Xue / ACS Chem. Neurosci. 2026, 17, 666-680 | DOI: 10.1021/acschemneuro.5c00861 | Category: machine_learning
de novo分子生成をVAE/GAN/RNN/Transformer/拡散/NF/ハイブリッドの7軸で体系化。CNS創薬向けBBB/MPO制約と計算ベンチマークの限界を論じる包括レビュー。#CNS創薬 #生成AI
(1) 背景と課題

創薬における化学空間は推定 1060 規模と巨大であり、特に CNS(中枢神経)薬物では BBB 透過・神経毒性・複数物性の同時最適化が必須となるため、ヒューリスティック設計だけでは到達可能なケモタイプが限定される。深層生成モデル(VAE/GAN/RNN/Transformer/拡散/NF)は条件付き生成・潜在空間操作・強化学習との組合せにより de novo 分子設計を加速してきたが、アーキテクチャごとに失敗モード(mode collapse、訓練不安定性、scaffold バイアス)が異なる。

ギャップ: GuacaMol/MOSES の計算ベンチマーク(QED, SA, Vina)と、実際の CNS 薬物としての合成容易性・in vitro活性・毒性の整合性が取れていない。CNS MPO(6 軸合計)と BBB+ 確率を同時に満たす目標指向生成のフレームワークは、依然として実践的に確立していない。

本レビューは「分子表現 × モデルアーキテクチャ × 評価指標」の 3 軸で 7 種の生成モデルを体系化し、CNS 創薬という応用ドメインに焦点を当てて現状と課題を整理する。

(2) 手法の概要
SMILES/Graph VAE (latent BO) GAN (MolGAN) RNN+RL (REINVENT) Transformer (MolGPT) Diffusion (DiffSBDD) Norm. Flow (GNN) Hybrid (REINVENT4) CNS MPO (6軸) BBB+ probability Tox / Pgp filter CNS-optimized molecules eval: GuacaMol / MOSES

SMILES または分子グラフを入力に 7 種アーキテクチャを横並びで比較し、CNS MPO・BBB+ 確率・毒性フィルタをオラクルとした条件付き生成へ統合する枠組み。

(3) 本研究で示したこと
  • 分子生成アーキテクチャを 7 分類(VAE/GAN/RNN/Transformer/Diffusion/NF/Hybrid)に体系化し、各々の失敗モードを明示。
  • CNS 創薬向け評価軸として CNS MPO(6 スコア合計)BBB+ 確率(B3DB/BBBpred 訓練)を中核に位置付け。
  • 拡散モデル が 3D 構造品質で SOTA、RNN+RL(REINVENT) が目標指向生成の速度・精度バランスで実用最適。
  • 計算ベンチマーク(QED, SA, Vina)と実医薬化学(合成性・in vitro 活性)の 乖離 を系統的に批判。
  • 真に新規ケモタイプ生成は scaffold バイアスにより 依然困難、毒性制約の組込みは発展途上と整理。
(4a) アーキテクチャ別 目標指向生成スコア
0.0 0.25 0.50 0.75 1.00 0.62 VAE 0.55 GAN 0.91 RNN+RL REINVENT 0.78 TF MolGPT 0.84 Diff DiffSBDD 0.70 NF 0.93 Hybrid REINVENT4 GuacaMol score (0-1)

RNN+RL (0.91) と Hybrid (0.93) が GuacaMol 目標指向タスクで最良。拡散モデル(0.84) は 3D 品質で別軸の SOTA。

(4b) ベンチマーク検証の整理

GuacaMol(20 タスク・目標指向生成)と MOSES(distribution learning)が de facto 標準。RNN+RL 系の REINVENT は MPO タスクで 0.91 前後を達成し、拡散モデルは 3D 構造品質(PoseBusters 等)で SOTA を継続的に更新する。

7 体系化されたアーキテクチャ分類数
6 CNS MPO 評価軸 (MW≤500, logP 1-3, HBD≤3, TPSA≤90, pKa 7.5-10.5, Pgp非基質)
1060 推定創薬化学空間サイズ(生成モデルが探索を要する範囲)

REINVENT4 / GuacaMol / MOSES のリファレンス実装は GitHub に公開され、CNS MPO スコアラーは RDKit ベースで再実装可能。

(4c) CNS MPO 6 軸プロファイル
MW 0.85 logP 0.90 HBD 0.95 TPSA 0.80 pKa 0.70 Pgp 0.75 CNS MPO total = 4.95 / 6.0 (合格基準: ≥4.0)

6 軸(MW, logP, HBD, TPSA, pKa, Pgp)合算スコア ≥ 4.0 が CNS 候補の目安。各軸の desirability は monotonic scoring で算出。

(4d) 限界点・残る議論
  • 計算ベンチマーク(QED/SA/Vina)と 実医薬化学(合成容易性・in vitro 活性)の乖離 が大きい。
  • 生成分子が訓練データの scaffold バイアス を受け、真に新規なケモタイプの生成は依然困難。
  • CNS では カルジオ毒性・肝毒性 同時評価が必要だが、毒性制約の生成モデルへの組込みは発展途上。
  • GAN は mode collapse、VAE は潜在空間の 不均一性 による物性制御困難など、アーキテクチャ固有の失敗モード。
  • Pgp 非基質性・BBB+ の予測モデル自体の精度限界が、生成オラクルとしての信頼性を制約。
(5) テイクホームメッセージ
分類体系
VAE / GAN / RNN / Transformer / Diffusion / NF / Hybrid の 7 アーキテクチャ で de novo 生成を整理。
実用最適
目標指向 MPO では RNN+RL (REINVENT, 0.91)Hybrid (REINVENT4, 0.93) が速度・精度バランスで優位。
3D SOTA
拡散モデル(GeoDiff, DiffSBDD, SeFMol)が 3D 構造品質で継続的に SOTA を更新。
CNS 制約
CNS MPO(6 軸)BBB+ 確率 をオラクルに組込み、毒性制約まで拡張するのが次の課題。
ケムインフォマティクス応用
適用先ユースケース
lib/molgenMolgenYaml に 7 アーキテクチャ選択肢と REINVENT4 ラッパを実装。CNS MPO・BBB+ をスコアラー登録し MPO 生成を実現。
lib/docking生成分子に対する Pgp 非基質性・BBB+ 予測スコアを ProLIF/UniDock 後段の MPO フィルタとして統合。
lib/molgen毒性予測モデル (hERG, hepatotoxicity) を多目的オラクルに追加し scaffold 多様性を penalize して新規ケモタイプ探索を促進。
本研究のインパクト
  • 7 種の生成 AI アーキテクチャを横断比較する ベンチマーク観点 を CNS という難関ドメインで提供。
  • 計算ベンチマーク偏重への批判を通じ、合成容易性・in vitro 検証 を組込む次世代評価枠組みを示唆。
  • REINVENT4 / GuacaMol / MOSES をハブに、研究室レベルの再現実装 が容易な生態系を整理。