PhysPref: Physics–Preference Aligned Tool-Using LLM for Molecular Design
Gemma-3 270M + DPO整合 + 計算バジェット制御(NeurIPS 2025 ML4PS Workshop, Li 2025)
🎯 固定計算バジェット内で量子・ドッキング・溶解度を多目的最適化する軽量LLMエージェント
① 背景・課題

分子設計では膨大な化学空間の探索に高価な物理シミュレータ(xTB・DFT・ドッキング)が必要だが、これらを無制限に呼び出すと計算コストが爆発する。既存の分子生成モデル(MolGPT・GFlowNet・MolDQN)はサロゲート報酬に依存し、物理的制約を明示的に考慮しない。ChemCrowのような大規模LLMエージェントは計算コスト管理機構を持たない。

サロゲート報酬のみでは物理的妥当性が保証されず、設計品質が低下するリスクがある
シミュレータ呼び出しの計算コストと設計品質のトレードオフが未解決

→ PhysPref: DPO整合+バジェット制御でコスト効率の高い物理ベース分子設計を実現

② アーキテクチャ概要
シミュレータログ(xTB/Vina/DFT)
↓ Reporter (Gemma-3 270M LoRA)
標準化JSON(型・単位付き)
↓ Planner (DPO整合 Gemma-3 270M)
ツール呼び出し列
↓ Budget Controller (B=25)
最終分子・スコア

コスト: xTB=1, Dock=1, DFT=5 単位。超過プランは truncate。

③ Reporter モジュール

Gemma-3 270MをLoRA (rank=16) でファインチューニングし、生のシミュレータログを構造化JSONに変換する。

  • 訓練データ: 〜3万例(xTB/Vina/DFTログ+合成摂動)
  • JSON有効率: 99.6%(ホールドアウト評価)
  • 対応形式: xTB stdout, AutoDock/Vina, GAMESS-style
  • 型・単位・必須フィールドの完全性を保証
④ Planner + DPO整合

ツール呼び出し列生成をDPOで物理スコア+コストに整合させる。

スコア関数:

score = w₁·gap_z + w₂·dock_z + w₃·sol_z − λ·cost

DPO: 同一分子への異なるtool planペア比較で学習

  • 事前学習: lr=2e-4, 50kステップ(合成トレース)
  • DPO: lr=1e-5, 〜2万pairs/iter, KL target=0.05
⑤ 実験結果
手法総コストDock (kcal/mol↓)Top-10 gap↑
PhysPref (BA)17±3-9.3±0.20.42±0.05
PhysPref (Greedy)19±3-9.1±0.20.35±0.06
MolDQN20±4-8.7±0.30.28±0.07
Random20±4-8.2±0.40.20±0.08
0.715
AqSolDB AUC(compute-gain curve)— Greedy: 0.673
⑥ 計算化学パイプラインへの応用
lib/molgen
MolgenYamlの最適化ループにPhysPref型バジェット制御を追加。xTB+Vina多目的最適化エージェント構築
lib/docking
UniDockRunnerをツールとして組み込み、LLMプランナーが呼び出しタイミングを自動判断
lib/fep
MM-GBSA/FEP+コスト見積もりをbudget controllerに統合し、高コスト計算の優先順位を自動化
Reporter活用
RMSDAnalyzer・HBondAnalyzerの出力を構造化JSONに変換するアダプタとして転用可能
⑦ 限界・次のステップ
対象PDBbindサンプルは1000タンパク質に限定(特定ファミリーへの汎化未示)
DPO preference pairs収集に事前計算コストを要する
ワークショップ論文のため実験規模・再現性検証が限定的
公開実装なし(査読付き論文での展開が期待される)
  • 270M パラメータ→ローカルGPU環境での運用が現実的
  • LoRAファインチューニングは少量GPUで実施可能
  • 既存計算結果からpreference pairsを自動生成するスクリプト開発が先決