Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization
Li, Yang et al. (Emory University) | arXiv:2604.07669 | 2026年4月
🎯 反応テンプレートをアクション空間とするRL+LLMで、全提案分子に合成経路付きのリード最適化を実現する「MolReAct」フレームワーク
① 背景と課題

リード最適化において合成可能性は必須要件だが、既存のRL手法は合成可能性を事後ペナルティとして扱うか反応ネットワークを広範に列挙することで対応しており、設計レベルでの保証がない。

REINVENT+SynthAI等:合成可能性ペナルティを事後付加するため探索全体の効率が低下
大規模反応テンプレートライブラリ(USPTO等)への自律的なスケールアウトが困難

→ アクション空間自体を反応テンプレートで定義し、全ステップを原理的に合成可能にする

② アクション空間設計

USPTO/AKCOSのReactionSMARTSテンプレートをアクション空間として使用。LLMエージェントが入力分子の反応サイトを解析し、マッチするテンプレートのみを動的に絞り込む。

入力分子 mt (SMILES) LLMエージェント: 反応サイト解析 → テンプレート絞込 Template A Template B... GRPOポリシーがアクション選択
② GRPOポリシーとSMILESキャッシュ

GRPOで訓練されたLM(Mistral/LLaMA系)がTDCオラクルスコアを最大化するアクションを選択する。SMILESキャッシュで既計算の「分子+反応→生成物」マッピングを再利用。

43%削減
SMILESキャッシュによるLLM呼び出しコスト削減率

全出力分子が反応テンプレートに基づくため合成経路が自動付与

③ 本研究で示したこと(要点)
  • アクション空間を反応テンプレートで定義 → 全ステップ合成可能保証
  • TDC 14タスク中10タスクでサンプル効率1位を達成
  • 最強の合成可能性考慮ベースラインを10.4%相対改善
  • SBDDタスク(ドッキングオラクル)で特に高い改善幅を実証
④ 主な結果 (a) TDCベンチマーク性能
サンプル効率ランキング (14タスク中) 既存ベスト ベースライン MolReAct 14タスク 一部 10/14 1位
④ 主な結果 (b) 合成可能性考慮ベースライン比較
手法合成保証改善率
REINVENT+SynthAI事後ペナルティbaseline
ASKCOS連携ネットワーク列挙baseline
MolReAct設計レベル+10.4%

全提案分子に合成経路が自動付与される

④ 主な結果 (c) コンポーネント寄与(アブレーション)
各コンポーネントの相補的貢献 ベースのみ +GRPO +LLM+GRPO 最高性能 両者が相補的に寄与
④ 主な結果 (d) lib/molgen統合シナリオ
MolgenYaml
MolReActを最適化バックエンドとして統合 → 合成経路付きリード提案
UniDockRunner
ドッキングスコアをオラクルとしたSBDD最適化ループ

RDKit ReactionSMARTS + GRPO (trl) で再現可能なアーキテクチャ

⑤ テイクホームメッセージ
設計レベルの合成保証
アクション空間 = 反応テンプレートにより全探索ステップが原理的に合成可能
LLM+GRPOの相補性
反応サイト解析LLMとGRPOポリシーは独立に機能し、組み合わせで最高性能
SBDDでの高い改善幅
ドッキングをオラクルとしたタスクで特に大きな改善 → UniDockRunner連携が最有望
内製実装の実現性
公開待ちだがRDKit+GRPO(trl)で再現可能。lib/molgen最優先統合候補
技術スタック
コンポーネント実装
反応テンプレートUSPTO / AKCOS (ReactionSMARTS)
反応サイト解析tool-augmented LLM (Mistral/LLaMA)
ポリシー訓練GRPO (trl)
オラクルTDCスコア + ドッキング
キャッシュSMILES→生成物マッピング
本研究のインパクト
  • 合成可能性保証型リード最適化の新標準を確立(TDC 10/14タスク1位)
  • ドッキングオラクルとの統合でSBDD創薬の実務ニーズに直結
  • lib/molgenへの統合で合成経路付きリード提案パイプラインが実現