AI-Driven Molecular Design: Synergizing Deep Generative Models with Evolutionary Optimization
Abbad Houda et al. — Djillali Liabes University | EPSTEM Vol.38, pp.512-524 | IConTES 2025, Antalya
🎯 深層生成モデル×進化的最適化の融合で de novo 分子設計を加速する
① 課題: 単独手法の限界
手法強み弱点
RNN/LSTMSMILES生成の長距離依存構文エラー感受性・多様性限界
VAE連続潜在空間・勾配最適化後崩壊・再構成精度低
GAN/ORGAN多様スキャフォード生成訓練不安定・モード崩壊
GNN/GATグラフ直接生成・高多様性計算コスト高
GA/EA大域探索・多目的最適化初期集団依存・生成多様性低
単独モデルでは複数創薬基準(QED・SA・活性・毒性回避)の同時最適化が困難
② ハイブリッドフレームワークのシナジー
深層生成モデル(VAE/GAN/GAT)
↓ 多様な分子スキャフォードを提案(イノベーション)
↓ ───────────────────────────
↓ 生成候補を個体集団として GA/MOEA に渡す
↓ Crossover × Mutation(化学的に有効なフラグメント操作)
↓ 多目的評価(QED・SA・ドッキング・MMGBSA)→ NSGA-II / MOEA/D 選択
↓ ───────────────────────────
↓ 生成モデルへフィードバック(潜在空間ファインチューニング)
✅ パレート最適解の分子集団を出力

Colibriアルゴリズム + フラグメントベースcrossover + 動的多目的ペナルティが著者独自実装の核心

③ 主要アーキテクチャ詳細

VAE ハイブリッド: 潜在空間をGAで探索。Gómez-Bombarelli型エンコーダ + BRICSフラグメントcrossover

ORGAN (GAN+RL): 生物活性報酬でジェネレータを誘導。多目的報酬 = QED + SA + ドッキングスコアの重み付き和

GAT + MOEA/D: グラフアテンションで分子グラフ直接生成。MOEA/D重みベクトル分解でパレートフロントを効率サンプリング

1060
化学空間の推定サイズ(ハイブリッド手法が必要な理由)
④ 化学的に有効なGAオペレータ
  • BRICSフラグメントcrossover: RDKitで分解・再結合(有効SMILES保証)
  • 原子交換mutation: 既知bioisostere置換(H→F, OH→NH₂等)
  • リング操作: 環拡張・縮小・スキャフォードホッピング
  • 側鎖付加: R基ライブラリからのランダム追加
  • 合成アクセス制約: SA score > 閾値の個体のみ次世代に進出
Colibriアルゴリズムの詳細は未公開(独自実装)
⑤ 評価指標・ベンチマーク

GuacaMol / MOSESが標準ベンチマーク:

  • Validity: 有効SMILES率 > 95% 目標
  • Uniqueness: 重複排除率 > 90%
  • Novelty: 訓練データ外の新規分子率
  • FCD: Fréchet ChemNet Distance(分布類似性)
  • Pareto HV: 多目的最適化のハイパーボリューム
⑥ lib/molgen への統合提案
🔄 JobManager → GA世代ループ
既存JobManagerをGA進化ループのオーケストレータとして転用。MolgenYamlのscorerをGA評価関数にマッピング。バッチ評価・並列世代処理を既存インフラで実現。
🎯 UniDockRunner → フィットネス評価
生成分子候補をリアルタイムドッキングスコアリングするGA閉ループ。ランダム生成→事後フィルタの非効率を排除してヒット率を大幅改善。
⚗️ MMGBSAEngine → 物理ベース誘導
MOEA/D目的関数にMMGBSAスコアを統合。QED・SA・結合自由エネルギーのパレート最適解を系統探索。計算コストに応じてTier 1(QED)→Tier 2(Docking)→Tier 3(MMGBSA)の段階評価も有効。
🧩 フラグメントcrossover追加
RDKit BRICS decompositionを使ったcrossoverオペレータをJobManagerに実装。既存MolgenYamlのmutation_settingsにfragment_crossoverオプションを追加。
⑦ 限界・今後
独自フレームワーク(Colibri+VA+GA)の実証データが本論文では未公開
SA scoreの計算値と実際の合成難易度の乖離問題への言及不足
GPU大規模リソース依存:中小規模研究者への実用性が課題

💡 実装優先度: pymoo(NSGA-II) + BRICS crossover + JobManager統合が最速の実現経路