リード最適化において合成可能性は必須要件だが、既存のRL手法は合成可能性を事後ペナルティとして扱うか反応ネットワークを広範に列挙することで対応しており、設計レベルでの保証がない。
→ アクション空間自体を反応テンプレートで定義し、全ステップを原理的に合成可能にする
USPTO/AKCOSのReactionSMARTSテンプレートをアクション空間として使用。LLMエージェントが入力分子の反応サイトを解析し、マッチするテンプレートのみを動的に絞り込む。
GRPOで訓練されたLM(Mistral/LLaMA系)がTDCオラクルスコアを最大化するアクションを選択する。SMILESキャッシュで既計算の「分子+反応→生成物」マッピングを再利用。
全出力分子が反応テンプレートに基づくため合成経路が自動付与
| 手法 | 合成保証 | 改善率 |
|---|---|---|
| REINVENT+SynthAI | 事後ペナルティ | baseline |
| ASKCOS連携 | ネットワーク列挙 | baseline |
| MolReAct | 設計レベル | +10.4% |
全提案分子に合成経路が自動付与される
RDKit ReactionSMARTS + GRPO (trl) で再現可能なアーキテクチャ
| コンポーネント | 実装 |
|---|---|
| 反応テンプレート | USPTO / AKCOS (ReactionSMARTS) |
| 反応サイト解析 | tool-augmented LLM (Mistral/LLaMA) |
| ポリシー訓練 | GRPO (trl) |
| オラクル | TDCスコア + ドッキング |
| キャッシュ | SMILES→生成物マッピング |