AMLP — LLM-Assisted Automated MLIP Pipeline

AMLP: LLM-Assisted Automated Data Set Generation for Machine-Learned Interatomic Potentials

LLMマルチエージェント + MACE基盤モデルで、DFTデータ生成からMLIPトレーニングまでを全自動化（J. Chem. Theory Comput. 2025, Lahouari & Tuckerman et al.）

🎯 非専門家でも高品質MLIPを構築可能に — 構造入力からMD検証まで一気通貫

① 背景と課題

MLIPはDFTに近い精度でMDを実行できる強力な手法だが、開発には高品質なAIMDデータセット生成・適切なDFT汎関数の選択・複雑なトレーニングワークフローが必要で、専門家でないと構築が困難。

DFTパラメータ（汎関数・分散補正・基底関数）の選択に深い専門知識が必要

VASP/CP2K/Gaussianなど複数コードへの手作業対応は煩雑で再現性が低い

古典FFはポリモルフのkJ/mol精度のエネルギー差を再現できない

→ LLMエージェントが文献知識でDFTパラメータを推薦 + 5段階パイプラインを全自動化

② AMLPの5段階ワークフロー

① LLMマルチエージェント: 系に適したDFT手法を提案
（PBE-D4, VASP, 850 eV カットオフを推薦）
↓
② 構造最適化入力自動生成 → DFT実行
↓
③ AIMD入力生成（300–800 K, NVT, 1fs×10000）
↓
④ .json整理 → HDF5変換（力フィルタ >8 eV/Å除外）
↓
⑤ MACE fine-tuning → コミッティ検証（NVT/NVE MD）

② MACE Fine-tuning 戦略

基盤モデル（mace-mpa-0-medium）からの2段階ファインチューニング

ステージ	エポック	重み比率（E:F）
Stage 1	250	1:1（均等）
Stage 2	100	1:10（力重視）

カットオフ: 6 Å / バッチ: 4 / コミッティ: 3モデル（異なるseed）

③ 主な成果

エネルギーMAE ~2 meV/atom（ケミカルアキュラシー以下）
力MAE ~7 meV/Å（相対誤差 ~0.97%）
格子定数をDFT参照値とsub-Å精度で再現
NVT/NVE MDで安定動作を確認

④ コミッティモデル精度

モデル	Energy MAE (meV/atom)	Force MAE (meV/Å)
MACE-A	~2	~7
MACE-B	~2	~7
MACE-C	~2	~7
Chem. Accuracy	43.36 meV（1 kcal/mol）

3コミッティすべてがケミカルアキュラシーを大幅に下回る

④ データセット構築統計

8,208

AIMD由来のアクリジン多形体配置数（7多形体×300-800 K）

8,108

力フィルタ後の訓練可能構造数（除外: 100配置）

58ディレクトリのVASP入力を自動生成（8多形体 × 7温度）

④ DFTパラメータの採否（アクリジン）

パラメータ	LLM推薦	実際の採用
汎関数	PBE	PBE ✓
基底関数	平面波	VASP 850 eV ✓
分散補正	D3(BJ)以上	D4（より高精度）✓
収束閾値	10⁻⁶ eV	10⁻⁶ eV ✓

④ 限界点

単一系（アクリジン多形体）でのみ検証、生体系への汎化性不明

MACEハイパーパラメータ（カットオフ等）はまだユーザー手動設定

LLM推薦が特殊系（金属タンパク質等）で不適切になるリスク

DFTエネルギー差 ≤ 7.3 kJ/molの多形体安定性はDFT誤差内

⑤ テイクホームメッセージ

🤖 LLMがDFT専門知識を民主化
文献知識ベースのパラメータ推薦で非専門家でも適切な量子化学計算設定が可能に。

⚙️ 58ディレクトリを自動生成
8多形体×7温度のAIMD環境を手動介入なしに一括生成、研究者の時間を大幅削減。

🎯 ケミカルアキュラシーをクリア
MACE基盤モデルのファインチューニングで ~2 meV/atom（1 kcal/molを20倍以下）を達成。

🔄 アクティブラーニングに対応
低コスト法→高精度DFT計算への反復的データ強化ループのフレームワークを提供。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/md	MLIP（MACE）をFF代替として統合、分子結晶・柔軟リガンドMDの精度向上
lib/fep	MLIPエネルギーでハイブリッドFEP計算（共有結合阻害剤対応）
lib/docking	MLIP最適化構造をドッキングのレセプター準備に使用

コード: github.com/ACEsuit/mace（MACE）

本研究のインパクト

MLIP開発の民主化：LLMアシストで専門知識なく高品質MLIP構築可能
ポリモルフ安定性評価でDFTを代替するMLIPパイプラインの確立
lib/mdのFF精度ボトルネックを解消するMLIP統合への道筋を提示