MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization
Chen et al., Hong Kong University of Science and Technology | arXiv:2603.24382 | March 2026
🎯 LLMが化学変換ルール(RDKit実行可能関数)を自律生成・MCTSで探索・進化させる。Activity cliffへの対応と人間可読な最適化経路が特徴のケミスト説明可能なリード最適化フレームワーク。
① 背景と課題

GNNベース・BRICS・遺伝的アルゴリズム・強化学習など既存の分子最適化手法は全て「類似性原理」(近傍の化学空間を探索)に依存する。このためactivity cliff(微小な構造変化で活性が大幅変化するケース)を処理できず、最適化過程も不透明でケミストへの説明が困難という根本的限界があった。

既存手法は類似性原理依存 → Activity cliffで局所最適に陥る
最適化過程がブラックボックス — ケミストへの説明・根拠提示が不可能

→ LLMが化学的根拠に基づいた変換ルールを生成しMCTSで探索・進化させる

② 手法の概要: MolEvolveパイプライン
MolEvolveフロー ① Cold Start LLM→変換ルールライブラリ生成 ② MCTS探索 分子=状態・操作=行動・UCB ③ ライブラリ進化 LLMが低効果削除・高効果追加 フィードバック ループ オラクル評価 QED/DRD2/docking
② 手法の概要: 化学変換ルールとRDKit連携

LLMが自然言語で説明可能な化学変換ルールをRDKitコードとして表現した実行可能関数として生成。各変換操作はRDKitで実行時に化学的妥当性を自動検証。操作例:「フェニルをピリジルに置換しHBD能力向上」「CF₃基の追加で代謝安定性改善」等。

RDKit依存のみで再現可能
合成可能性: RDKitテンプレートで保証
最適化経路: human-readable化学変換系列
③ 本研究で示したこと(要点)
  • Activity cliff付近での局所最適回避でGNNベースラインを大幅に超える性能
  • TDCベンチマーク(QED・JNK3・GSK3β)でTop-10スコアが主要ベースラインを上回る
  • 最適化過程が人間可読な化学変換系列として出力 — 専門家によるPost-hoc解釈が可能
  • 操作ライブラリがMCTS結果を元に動的進化する「操作の学習」は従来にない新機構
④ 主な結果 (a) TDC Top-10スコア比較
TDCベンチマーク Top-10 スコア QED 0.912 0.936✓ JNK3 0.785 0.832✓ GSK3β 0.805 0.847✓ Best Baseline MolEvolve 全TDCタスクでSOTA
④ 主な結果 (b) Activity Cliff 耐性
Activity Cliff 近傍での最適化成功率 GNN RL-based MolEvolve 38% 45% 71%✓ Activity cliff近傍で+26pt優位
④ 主な結果 (c) 解釈可能な最適化経路例
例: JNK3活性最適化経路
① フェニル → ピリジル(HBD能力向上)
② メチル基追加(疎水性ポケット充填)
③ NH₂ → NHAc(代謝安定性改善)
→ スコア 0.42 → 0.83

各変換ステップが自然言語で説明されケミストが直接検討できる。ブラックボックス最適化との根本的違い。

④ 主な結果 (d) 操作ライブラリの進化効果
操作ライブラリ進化: スコア推移 MCTSイテレーション → 進化ライブラリ 固定ライブラリ イテレーション毎の進化で継続的性能向上
⑤ テイクホームメッセージ
Activity cliff問題を初めて正面から解決
類似性原理に依存しない変換ルール×MCTS探索により局所最適を脱出。JNK3等の難しい分子最適化で+26pt向上
説明可能な最適化
全最適化ステップが人間可読な化学変換として出力。「なぜこの修飾か」をケミストと共有できる唯一の最適化フレームワーク
MolgenYaml統合で説明可能SBDD
UniDockRunnerをオラクルとしてSBDD特化版MolEvolveを構築。docking score+化学根拠で創薬チームとの対話型最適化を実現
操作ライブラリの継続的学習
MCTSフィードバックでライブラリが自己改善する「操作の学習」という新パラダイム。特定ターゲットへの特化が可能
先行手法との比較
手法Activity Cliff説明可能進化的学習
GNN/VAE
RL-based
LLM直接
DrugR
MolEvolve強✓
本研究のインパクト
  • Activity cliffという分子最適化の根本的課題を説明可能な形で解決する初の手法
  • MolgenYaml + UniDockRunner + MolEvolveで創薬チームと対話しながらのリード最適化が実現
  • RDKit依存のみで再現可能。コード公開後に即座にlib/molgenへ統合可能な設計