LLMを活用した分子最適化手法(LMPO・MolReAct・RePO等)は性能向上に注力するが、「なぜその修飾が望ましいか」という薬理的根拠の提供は実現できていなかった。ADMET複数特性を同時に最適化しながら構造類似性と結合親和性を維持することも既存手法では困難だった。
→ 推論過程の明示化と逆データエンジニアリングによるSFT訓練データ生成で解決
化学論文・PubChem・ADMETデータセットを混合したコーパスでベースLLMを継続訓練し、薬理化学知識を埋め込む。LoRA/QLoRAで計算コストを抑制しながら薬理的推論能力を獲得。
既存最適化ペアからGPT-4等で推論チェーンを逆生成してSFT訓練データを作成(逆データエンジニアリング)。自己均衡型マルチグラニュラーRL:粗粒度(ADMET全体)と細粒度(官能基変化)の2レベル報酬を動的重み付けで学習。
| 手法 | 推論説明 | ADMET同時 | RL有無 |
|---|---|---|---|
| GPT-4直接 | ✗ | △ | ✗ |
| LMPO | ✗ | △ | ○ |
| MolReAct | △ | △ | ✗ |
| RePO | △ | △ | ○ |
| DrugR | ✓ | ✓ | ✓ |