MolAct: Agentic RL for Molecular Editing and Optimization

MolAct: An Agentic RL Framework for Molecular Editing and Property Optimization

LLMエージェント × 化学ツール × 2段階GRPOカリキュラム（arXiv:2512.20135, Yang & Li et al., 2025）

🎯 分子設計をAgentic RL問題として定式化し、ツールフィードバックによる逐次編集→プロパティ最適化を実現

① 背景と課題

既存のLLMベース分子設計は「1ショット生成」または「指示チューニング」パラダイムに留まり、化学ツールフィードバックを逐次反映する仕組みを持たない。グラフ生成モデルは特定プロパティには強いが、自然言語指示への対応と汎用官能基操作の柔軟性に欠ける。

ツールなしのLLM直接生成は化学的妥当性が低く（65-75%）、無効なSMILESを多産する

1段階RL最適化ではLogP以外の目標でSR%≈0%：ツール使用ポリシーと終了判断の学習が困難

→ 分子設計をMDPとして定式化し、編集スキル習得→プロパティ最適化の2段階カリキュラムで解決

② フレームワーク概要

状態 s = SMILES文字列
↓ 方策 π(at|st)がアクション選択
↓ [Edit: Add/Delete/Sub FG]
↓ [Tool Call: validity/similarity/property]
↓ [Terminate]
↓ GRPO報酬更新（エージェントtokenのみ）

K並列ロールアウトのGroup Relative Policy Optimization（GRPO）でベースライン分散を低減。max_turns=16の予算内で完走。

③ 2段階カリキュラム訓練

Stage 1 — MolEditAgent: Add/Delete/Substituteの編集正確性＋化学的妥当性報酬で編集スキルを習得
Stage 2 — MolOptAgent: Stage 1の重みから初期化し、prop_gain＋Murckoスキャフォールド保持報酬でプロパティ最適化を学習
Stage 1なしの1段階RL：QED以外の目標でSR%=0%（アブレーション実証）

④ 主要結果 (a) 分子編集 (ChemCoTBench)

モデル	Add %	Delete %	Sub %
Gemini-2.5-pro-think	100	85	81.7
DeepSeek-R1	70	70	68.3
GPT-4o (W/o Think)	80	80	65.0
MolEditAgent-7B	90	80	78.3
MolEditAgent-3B	80	70	16.7

妥当性: 7B=95-100%（ベース比+25-35pt）

④ 主要結果 (b) 分子最適化 LogP・溶解度

モデル	LogP Δ	SR%	Sol Δ	SR%
Gemini-2.5-pro-think	-0.28	81	1.91	92
Claude3.7-sonnet-think	0.41	81	0.59	77
DeepSeek-R1	0.36	74	1.48	97
MolOptAgent-7B	0.89	92	1.42	84

④ 主要結果 (c) 生体活性最適化

目標	MolOptAgent-7B Δ	SR%
QED	0.04	35
DRD2	0.02	38
GSK-3β	0.04	36
JNK3	-0.04	14

JNK3は汎用LLMでは特殊ドメイン知識が不足

⑤ アブレーション（1段階 vs 2段階）

訓練方式	LogP SR%	Sol SR%	QED SR%
1段階（最適化のみ）7B	0	0	12
1段階（最適化のみ）3B	0	0	0
2段階（MolOptAgent）7B	92	84	35
2段階（MolOptAgent）3B	12	8	5

⑥ テイクホームメッセージ

🤖 分子設計のAgentic RL定式化（初）
LLMエージェントがツールを多ターン呼び出して逐次編集→最適化を実行。1ショット生成の限界を突破。

📚 カリキュラムが決定的
編集スキル先行学習なしでは最適化SR%≈0%。ツール使用ポリシーと終了判断の基盤が必須。

🧪 LogP最適化でClaude 3.7超え
SR% 92%はW/Thinking最高モデル群を上回る。コンパクト7Bでフロンティア閉鎖モデルに対抗。

⚡ 実行能力 ≠ 報酬収束
3Bモデルは報酬収束するがSR%は3-12%。容量がツールシーケンシングの実行可能性を決める。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	MolgenYamlスコアラーをGRPO報酬に接続したリード最適化エージェント
lib/docking	UniDockスコアをrewardにしたSBDD反復編集ループ
lib/fep	MMGBSAのΔΔGをStage 2報酬にしたFEP誘導最適化

GitHub公開コードを起点にスコアラーアダプタを実装するだけで既存パイプラインに統合可能

本研究のインパクト

分子設計をMDPとして形式化した初のAgentic RLフレームワーク
7Bモデルがフロンティア閉鎖LLMを上回るLogP最適化性能を達成
2段階カリキュラム設計の原則はlib/molgenへの直接移植可能性が高い