Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

Li, Yang et al. (Emory University) | arXiv:2604.07669 | 2026年4月

🎯 反応テンプレートをアクション空間とするRL+LLMで、全提案分子に合成経路付きのリード最適化を実現する「MolReAct」フレームワーク

① 背景と課題

リード最適化において合成可能性は必須要件だが、既存のRL手法は合成可能性を事後ペナルティとして扱うか反応ネットワークを広範に列挙することで対応しており、設計レベルでの保証がない。

REINVENT+SynthAI等：合成可能性ペナルティを事後付加するため探索全体の効率が低下

大規模反応テンプレートライブラリ（USPTO等）への自律的なスケールアウトが困難

→ アクション空間自体を反応テンプレートで定義し、全ステップを原理的に合成可能にする

② アクション空間設計

USPTO/AKCOSのReactionSMARTSテンプレートをアクション空間として使用。LLMエージェントが入力分子の反応サイトを解析し、マッチするテンプレートのみを動的に絞り込む。

② GRPOポリシーとSMILESキャッシュ

GRPOで訓練されたLM（Mistral/LLaMA系）がTDCオラクルスコアを最大化するアクションを選択する。SMILESキャッシュで既計算の「分子＋反応→生成物」マッピングを再利用。

43%削減

SMILESキャッシュによるLLM呼び出しコスト削減率

全出力分子が反応テンプレートに基づくため合成経路が自動付与

③ 本研究で示したこと（要点）

④ 主な結果 (a) TDCベンチマーク性能

④ 主な結果 (b) 合成可能性考慮ベースライン比較

全提案分子に合成経路が自動付与される

④ 主な結果 (c) コンポーネント寄与（アブレーション）

④ 主な結果 (d) lib/molgen統合シナリオ

MolgenYaml

MolReActを最適化バックエンドとして統合 → 合成経路付きリード提案

UniDockRunner

ドッキングスコアをオラクルとしたSBDD最適化ループ

RDKit ReactionSMARTS + GRPO (trl) で再現可能なアーキテクチャ

⑤ テイクホームメッセージ

設計レベルの合成保証
アクション空間 = 反応テンプレートにより全探索ステップが原理的に合成可能

LLM+GRPOの相補性
反応サイト解析LLMとGRPOポリシーは独立に機能し、組み合わせで最高性能

SBDDでの高い改善幅
ドッキングをオラクルとしたタスクで特に大きな改善 → UniDockRunner連携が最有望

内製実装の実現性
公開待ちだがRDKit+GRPO(trl)で再現可能。lib/molgen最優先統合候補

技術スタック

コンポーネント	実装
反応テンプレート	USPTO / AKCOS (ReactionSMARTS)
反応サイト解析	tool-augmented LLM (Mistral/LLaMA)
ポリシー訓練	GRPO (trl)
オラクル	TDCスコア + ドッキング
キャッシュ	SMILES→生成物マッピング

本研究のインパクト