MMLU・GPT-4評価等の既存LLMベンチマークは知識問答・論理推論に特化しており、「条件制約下での創造的探索」という科学的設計タスクは対象外だった。また、RLHFは人間フィードバックに依存するため科学精度の保証が困難で、分子設計・材料設計タスクへの適用に課題があった。
→ 科学シミュレーター(ドッキング・DFT・MD)からのフィードバックで直接LLMをRLチューニング
科学的シミュレーター(分子ドッキングスコア・DFT計算・MD)からの定量的フィードバックを報酬信号としてLLMをPPOファインチューニング。シミュレーターAPIとLLM生成ループを接続する設計。
| モデル | 化学ベース | ツール+ | 多段階 |
|---|---|---|---|
| GPT-4o | 58% | 48% | 32% |
| Claude 3.5 S | 55% | 51% | 30% |
| Llama-3.1 | 44% | 38% | 22% |
| RLSF+Llama | 72%✓ | 62% | 45% |
| 人間専門家 | 82% | 88% | 75% |
シミュレーター精度にRLSF効果が依存するため、バイアスのある力場では過学習リスクあり