instruction-based分子最適化におけるLLM訓練の2大問題:(1)SFT-only(answer-only設定)では推論過程が崩壊し、正しい答えに至る論理が失われる「推論崩壊」。(2)RLVR-only(GRPO)では類似度制約下で有効な探索が得られず希薄報酬問題が発生し収束が遅い。
→ 参照分子への教師あり誘導とRL探索の動的重み付き和で両問題を同時解消
訓練データ:instruction-based最適化ペア(「このSMILESを最適化してDRD2活性を上げろ」+目標分子)。参照分子(訓練ペアの目標分子)のanswer部分のみをSFTターゲットとして使用。軌道データ生成不要で低コスト。
| 設定 | Success% | Sim≥0.4 | Score積 |
|---|---|---|---|
| RL項のみ | 52% | 78% | 0.41 |
| 参照誘導のみ | 48% | 85% | 0.41 |
| RePO (両方) | 65% | 88% | 0.57 |
RL項(探索促進)と参照誘導項(収束安定化)が補完的に寄与。片方では達成不可能
| 手法 | 推論崩壊 | 希薄報酬 | 実装公開 |
|---|---|---|---|
| SFT-only | あり⚠ | — | ○ |
| GRPO | — | あり⚠ | ○ |
| DrugR | 軽減 | 軽減 | ○ |
| RePO | 解消✓ | 解消✓ | ○✓ |