MolAct: An Agentic RL Framework for Molecular Editing and Property Optimization
LLMエージェント × 化学ツール × 2段階GRPOカリキュラム(arXiv:2512.20135, Yang & Li et al., 2025)
🎯 分子設計をAgentic RL問題として定式化し、ツールフィードバックによる逐次編集→プロパティ最適化を実現
① 背景と課題

既存のLLMベース分子設計は「1ショット生成」または「指示チューニング」パラダイムに留まり、化学ツールフィードバックを逐次反映する仕組みを持たない。グラフ生成モデルは特定プロパティには強いが、自然言語指示への対応と汎用官能基操作の柔軟性に欠ける。

ツールなしのLLM直接生成は化学的妥当性が低く(65-75%)、無効なSMILESを多産する
1段階RL最適化ではLogP以外の目標でSR%≈0%:ツール使用ポリシーと終了判断の学習が困難

→ 分子設計をMDPとして定式化し、編集スキル習得→プロパティ最適化の2段階カリキュラムで解決

② フレームワーク概要
状態 s = SMILES文字列
↓ 方策 π(at|st)がアクション選択
↓ [Edit: Add/Delete/Sub FG]
↓ [Tool Call: validity/similarity/property]
↓ [Terminate]
↓ GRPO報酬更新(エージェントtokenのみ)

K並列ロールアウトのGroup Relative Policy Optimization(GRPO)でベースライン分散を低減。max_turns=16の予算内で完走。

③ 2段階カリキュラム訓練
  • Stage 1 — MolEditAgent: Add/Delete/Substituteの編集正確性+化学的妥当性報酬で編集スキルを習得
  • Stage 2 — MolOptAgent: Stage 1の重みから初期化し、prop_gain+Murckoスキャフォールド保持報酬でプロパティ最適化を学習
  • Stage 1なしの1段階RL:QED以外の目標でSR%=0%(アブレーション実証)
④ 主要結果 (a) 分子編集 (ChemCoTBench)
モデルAdd %Delete %Sub %
Gemini-2.5-pro-think1008581.7
DeepSeek-R1707068.3
GPT-4o (W/o Think)808065.0
MolEditAgent-7B908078.3
MolEditAgent-3B807016.7

妥当性: 7B=95-100%(ベース比+25-35pt)

④ 主要結果 (b) 分子最適化 LogP・溶解度
モデルLogP ΔSR%Sol ΔSR%
Gemini-2.5-pro-think-0.28811.9192
Claude3.7-sonnet-think0.41810.5977
DeepSeek-R10.36741.4897
MolOptAgent-7B0.89921.4284
④ 主要結果 (c) 生体活性最適化
目標MolOptAgent-7B ΔSR%
QED0.0435
DRD20.0238
GSK-3β0.0436
JNK3-0.0414

JNK3は汎用LLMでは特殊ドメイン知識が不足

⑤ アブレーション(1段階 vs 2段階)
訓練方式LogP SR%Sol SR%QED SR%
1段階(最適化のみ)7B0012
1段階(最適化のみ)3B000
2段階(MolOptAgent)7B928435
2段階(MolOptAgent)3B1285
⑥ テイクホームメッセージ
🤖 分子設計のAgentic RL定式化(初)
LLMエージェントがツールを多ターン呼び出して逐次編集→最適化を実行。1ショット生成の限界を突破。
📚 カリキュラムが決定的
編集スキル先行学習なしでは最適化SR%≈0%。ツール使用ポリシーと終了判断の基盤が必須。
🧪 LogP最適化でClaude 3.7超え
SR% 92%はW/Thinking最高モデル群を上回る。コンパクト7Bでフロンティア閉鎖モデルに対抗。
実行能力 ≠ 報酬収束
3Bモデルは報酬収束するがSR%は3-12%。容量がツールシーケンシングの実行可能性を決める。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenMolgenYamlスコアラーをGRPO報酬に接続したリード最適化エージェント
lib/dockingUniDockスコアをrewardにしたSBDD反復編集ループ
lib/fepMMGBSAのΔΔGをStage 2報酬にしたFEP誘導最適化

GitHub公開コードを起点にスコアラーアダプタを実装するだけで既存パイプラインに統合可能

本研究のインパクト
  • 分子設計をMDPとして形式化した初のAgentic RLフレームワーク
  • 7Bモデルがフロンティア閉鎖LLMを上回るLogP最適化性能を達成
  • 2段階カリキュラム設計の原則はlib/molgenへの直接移植可能性が高い