既存のLLMベース分子設計は「1ショット生成」または「指示チューニング」パラダイムに留まり、化学ツールフィードバックを逐次反映する仕組みを持たない。グラフ生成モデルは特定プロパティには強いが、自然言語指示への対応と汎用官能基操作の柔軟性に欠ける。
→ 分子設計をMDPとして定式化し、編集スキル習得→プロパティ最適化の2段階カリキュラムで解決
K並列ロールアウトのGroup Relative Policy Optimization(GRPO)でベースライン分散を低減。max_turns=16の予算内で完走。
| モデル | Add % | Delete % | Sub % |
|---|---|---|---|
| Gemini-2.5-pro-think | 100 | 85 | 81.7 |
| DeepSeek-R1 | 70 | 70 | 68.3 |
| GPT-4o (W/o Think) | 80 | 80 | 65.0 |
| MolEditAgent-7B | 90 | 80 | 78.3 |
| MolEditAgent-3B | 80 | 70 | 16.7 |
妥当性: 7B=95-100%(ベース比+25-35pt)
| モデル | LogP Δ | SR% | Sol Δ | SR% |
|---|---|---|---|---|
| Gemini-2.5-pro-think | -0.28 | 81 | 1.91 | 92 |
| Claude3.7-sonnet-think | 0.41 | 81 | 0.59 | 77 |
| DeepSeek-R1 | 0.36 | 74 | 1.48 | 97 |
| MolOptAgent-7B | 0.89 | 92 | 1.42 | 84 |
| 目標 | MolOptAgent-7B Δ | SR% |
|---|---|---|
| QED | 0.04 | 35 |
| DRD2 | 0.02 | 38 |
| GSK-3β | 0.04 | 36 |
| JNK3 | -0.04 | 14 |
JNK3は汎用LLMでは特殊ドメイン知識が不足
| 訓練方式 | LogP SR% | Sol SR% | QED SR% |
|---|---|---|---|
| 1段階(最適化のみ)7B | 0 | 0 | 12 |
| 1段階(最適化のみ)3B | 0 | 0 | 0 |
| 2段階(MolOptAgent)7B | 92 | 84 | 35 |
| 2段階(MolOptAgent)3B | 12 | 8 | 5 |
| 適用先 | ユースケース |
|---|---|
| lib/molgen | MolgenYamlスコアラーをGRPO報酬に接続したリード最適化エージェント |
| lib/docking | UniDockスコアをrewardにしたSBDD反復編集ループ |
| lib/fep | MMGBSAのΔΔGをStage 2報酬にしたFEP誘導最適化 |
GitHub公開コードを起点にスコアラーアダプタを実装するだけで既存パイプラインに統合可能