MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

Chen et al., Hong Kong University of Science and Technology | arXiv:2603.24382 | March 2026

🎯 LLMが化学変換ルール（RDKit実行可能関数）を自律生成・MCTSで探索・進化させる。Activity cliffへの対応と人間可読な最適化経路が特徴のケミスト説明可能なリード最適化フレームワーク。

① 背景と課題

GNNベース・BRICS・遺伝的アルゴリズム・強化学習など既存の分子最適化手法は全て「類似性原理」（近傍の化学空間を探索）に依存する。このためactivity cliff（微小な構造変化で活性が大幅変化するケース）を処理できず、最適化過程も不透明でケミストへの説明が困難という根本的限界があった。

既存手法は類似性原理依存 → Activity cliffで局所最適に陥る

最適化過程がブラックボックス — ケミストへの説明・根拠提示が不可能

→ LLMが化学的根拠に基づいた変換ルールを生成しMCTSで探索・進化させる

② 手法の概要: MolEvolveパイプライン

② 手法の概要: 化学変換ルールとRDKit連携

LLMが自然言語で説明可能な化学変換ルールをRDKitコードとして表現した実行可能関数として生成。各変換操作はRDKitで実行時に化学的妥当性を自動検証。操作例：「フェニルをピリジルに置換しHBD能力向上」「CF₃基の追加で代謝安定性改善」等。

RDKit依存のみで再現可能
合成可能性: RDKitテンプレートで保証
最適化経路: human-readable化学変換系列

③ 本研究で示したこと（要点）

④ 主な結果 (a) TDC Top-10スコア比較

④ 主な結果 (b) Activity Cliff 耐性

④ 主な結果 (c) 解釈可能な最適化経路例

例: JNK3活性最適化経路
① フェニル → ピリジル（HBD能力向上）
② メチル基追加（疎水性ポケット充填）
③ NH₂ → NHAc（代謝安定性改善）
→ スコア 0.42 → 0.83

各変換ステップが自然言語で説明されケミストが直接検討できる。ブラックボックス最適化との根本的違い。

④ 主な結果 (d) 操作ライブラリの進化効果

⑤ テイクホームメッセージ

Activity cliff問題を初めて正面から解決
類似性原理に依存しない変換ルール×MCTS探索により局所最適を脱出。JNK3等の難しい分子最適化で+26pt向上

説明可能な最適化
全最適化ステップが人間可読な化学変換として出力。「なぜこの修飾か」をケミストと共有できる唯一の最適化フレームワーク

MolgenYaml統合で説明可能SBDD
UniDockRunnerをオラクルとしてSBDD特化版MolEvolveを構築。docking score+化学根拠で創薬チームとの対話型最適化を実現

操作ライブラリの継続的学習
MCTSフィードバックでライブラリが自己改善する「操作の学習」という新パラダイム。特定ターゲットへの特化が可能

先行手法との比較

手法	Activity Cliff	説明可能	進化的学習
GNN/VAE	弱	✗	✗
RL-based	中	✗	✗
LLM直接	中	△	✗
DrugR	中	○	✗
MolEvolve	強✓	✓	✓

本研究のインパクト