PhysPref — Physics-Preference Aligned LLM for Molecular Design

PhysPref: Physics–Preference Aligned Tool-Using LLM for Molecular Design

Gemma-3 270M + DPO整合 + 計算バジェット制御（NeurIPS 2025 ML4PS Workshop, Li 2025）

🎯 固定計算バジェット内で量子・ドッキング・溶解度を多目的最適化する軽量LLMエージェント

① 背景・課題

分子設計では膨大な化学空間の探索に高価な物理シミュレータ（xTB・DFT・ドッキング）が必要だが、これらを無制限に呼び出すと計算コストが爆発する。既存の分子生成モデル（MolGPT・GFlowNet・MolDQN）はサロゲート報酬に依存し、物理的制約を明示的に考慮しない。ChemCrowのような大規模LLMエージェントは計算コスト管理機構を持たない。

サロゲート報酬のみでは物理的妥当性が保証されず、設計品質が低下するリスクがある

シミュレータ呼び出しの計算コストと設計品質のトレードオフが未解決

→ PhysPref: DPO整合＋バジェット制御でコスト効率の高い物理ベース分子設計を実現

② アーキテクチャ概要

シミュレータログ（xTB/Vina/DFT）
↓ Reporter (Gemma-3 270M LoRA)
標準化JSON（型・単位付き）
↓ Planner (DPO整合 Gemma-3 270M)
ツール呼び出し列
↓ Budget Controller (B=25)
最終分子・スコア

コスト: xTB=1, Dock=1, DFT=5 単位。超過プランは truncate。

③ Reporter モジュール

Gemma-3 270MをLoRA (rank=16) でファインチューニングし、生のシミュレータログを構造化JSONに変換する。

訓練データ: 〜3万例（xTB/Vina/DFTログ+合成摂動）
JSON有効率: 99.6%（ホールドアウト評価）
対応形式: xTB stdout, AutoDock/Vina, GAMESS-style
型・単位・必須フィールドの完全性を保証

④ Planner + DPO整合

ツール呼び出し列生成をDPOで物理スコア+コストに整合させる。

スコア関数:

score = w₁·gap_z + w₂·dock_z + w₃·sol_z − λ·cost

DPO: 同一分子への異なるtool planペア比較で学習

事前学習: lr=2e-4, 50kステップ（合成トレース）
DPO: lr=1e-5, 〜2万pairs/iter, KL target=0.05

⑤ 実験結果

手法	総コスト	Dock (kcal/mol↓)	Top-10 gap↑
PhysPref (BA)	17±3	-9.3±0.2	0.42±0.05
PhysPref (Greedy)	19±3	-9.1±0.2	0.35±0.06
MolDQN	20±4	-8.7±0.3	0.28±0.07
Random	20±4	-8.2±0.4	0.20±0.08

0.715

AqSolDB AUC（compute-gain curve）— Greedy: 0.673

⑥ 計算化学パイプラインへの応用

lib/molgen
MolgenYamlの最適化ループにPhysPref型バジェット制御を追加。xTB+Vina多目的最適化エージェント構築

lib/docking
UniDockRunnerをツールとして組み込み、LLMプランナーが呼び出しタイミングを自動判断

lib/fep
MM-GBSA/FEP+コスト見積もりをbudget controllerに統合し、高コスト計算の優先順位を自動化

Reporter活用
RMSDAnalyzer・HBondAnalyzerの出力を構造化JSONに変換するアダプタとして転用可能

⑦ 限界・次のステップ

対象PDBbindサンプルは1000タンパク質に限定（特定ファミリーへの汎化未示）

DPO preference pairs収集に事前計算コストを要する

ワークショップ論文のため実験規模・再現性検証が限定的

公開実装なし（査読付き論文での展開が期待される）

270M パラメータ→ローカルGPU環境での運用が現実的
LoRAファインチューニングは少量GPUで実施可能
既存計算結果からpreference pairsを自動生成するスクリプト開発が先決