分子設計では膨大な化学空間の探索に高価な物理シミュレータ(xTB・DFT・ドッキング)が必要だが、これらを無制限に呼び出すと計算コストが爆発する。既存の分子生成モデル(MolGPT・GFlowNet・MolDQN)はサロゲート報酬に依存し、物理的制約を明示的に考慮しない。ChemCrowのような大規模LLMエージェントは計算コスト管理機構を持たない。
→ PhysPref: DPO整合+バジェット制御でコスト効率の高い物理ベース分子設計を実現
コスト: xTB=1, Dock=1, DFT=5 単位。超過プランは truncate。
Gemma-3 270MをLoRA (rank=16) でファインチューニングし、生のシミュレータログを構造化JSONに変換する。
ツール呼び出し列生成をDPOで物理スコア+コストに整合させる。
スコア関数:
DPO: 同一分子への異なるtool planペア比較で学習
| 手法 | 総コスト | Dock (kcal/mol↓) | Top-10 gap↑ |
|---|---|---|---|
| PhysPref (BA) | 17±3 | -9.3±0.2 | 0.42±0.05 |
| PhysPref (Greedy) | 19±3 | -9.1±0.2 | 0.35±0.06 |
| MolDQN | 20±4 | -8.7±0.3 | 0.28±0.07 |
| Random | 20±4 | -8.2±0.4 | 0.20±0.08 |