AMLP: LLM-Assisted Automated Data Set Generation for Machine-Learned Interatomic Potentials
LLMマルチエージェント + MACE基盤モデルで、DFTデータ生成からMLIPトレーニングまでを全自動化(J. Chem. Theory Comput. 2025, Lahouari & Tuckerman et al.)
🎯 非専門家でも高品質MLIPを構築可能に — 構造入力からMD検証まで一気通貫
① 背景と課題

MLIPはDFTに近い精度でMDを実行できる強力な手法だが、開発には高品質なAIMDデータセット生成・適切なDFT汎関数の選択・複雑なトレーニングワークフローが必要で、専門家でないと構築が困難。

DFTパラメータ(汎関数・分散補正・基底関数)の選択に深い専門知識が必要
VASP/CP2K/Gaussianなど複数コードへの手作業対応は煩雑で再現性が低い
古典FFはポリモルフのkJ/mol精度のエネルギー差を再現できない

→ LLMエージェントが文献知識でDFTパラメータを推薦 + 5段階パイプラインを全自動化

② AMLPの5段階ワークフロー
① LLMマルチエージェント: 系に適したDFT手法を提案
(PBE-D4, VASP, 850 eV カットオフを推薦)

② 構造最適化入力自動生成 → DFT実行

③ AIMD入力生成(300–800 K, NVT, 1fs×10000)

④ .json整理 → HDF5変換(力フィルタ >8 eV/Å除外)

⑤ MACE fine-tuning → コミッティ検証(NVT/NVE MD)
② MACE Fine-tuning 戦略

基盤モデル(mace-mpa-0-medium)からの2段階ファインチューニング

ステージエポック重み比率(E:F)
Stage 12501:1(均等)
Stage 21001:10(力重視)

カットオフ: 6 Å / バッチ: 4 / コミッティ: 3モデル(異なるseed)

③ 主な成果
  • エネルギーMAE ~2 meV/atom(ケミカルアキュラシー以下)
  • 力MAE ~7 meV/Å(相対誤差 ~0.97%)
  • 格子定数をDFT参照値とsub-Å精度で再現
  • NVT/NVE MDで安定動作を確認
④ コミッティモデル精度
モデルEnergy MAE (meV/atom)Force MAE (meV/Å)
MACE-A~2~7
MACE-B~2~7
MACE-C~2~7
Chem. Accuracy43.36 meV(1 kcal/mol)

3コミッティすべてがケミカルアキュラシーを大幅に下回る

④ データセット構築統計
8,208
AIMD由来のアクリジン多形体配置数(7多形体×300-800 K)
8,108
力フィルタ後の訓練可能構造数(除外: 100配置)

58ディレクトリのVASP入力を自動生成(8多形体 × 7温度)

④ DFTパラメータの採否(アクリジン)
パラメータLLM推薦実際の採用
汎関数PBEPBE ✓
基底関数平面波VASP 850 eV ✓
分散補正D3(BJ)以上D4(より高精度)✓
収束閾値10⁻⁶ eV10⁻⁶ eV ✓
④ 限界点
単一系(アクリジン多形体)でのみ検証、生体系への汎化性不明
MACEハイパーパラメータ(カットオフ等)はまだユーザー手動設定
LLM推薦が特殊系(金属タンパク質等)で不適切になるリスク
DFTエネルギー差 ≤ 7.3 kJ/molの多形体安定性はDFT誤差内
⑤ テイクホームメッセージ
🤖 LLMがDFT専門知識を民主化
文献知識ベースのパラメータ推薦で非専門家でも適切な量子化学計算設定が可能に。
⚙️ 58ディレクトリを自動生成
8多形体×7温度のAIMD環境を手動介入なしに一括生成、研究者の時間を大幅削減。
🎯 ケミカルアキュラシーをクリア
MACE基盤モデルのファインチューニングで ~2 meV/atom(1 kcal/molを20倍以下)を達成。
🔄 アクティブラーニングに対応
低コスト法→高精度DFT計算への反復的データ強化ループのフレームワークを提供。
ケムインフォマティクスへの応用
適用先ユースケース
lib/mdMLIP(MACE)をFF代替として統合、分子結晶・柔軟リガンドMDの精度向上
lib/fepMLIPエネルギーでハイブリッドFEP計算(共有結合阻害剤対応)
lib/dockingMLIP最適化構造をドッキングのレセプター準備に使用

コード: github.com/ACEsuit/mace(MACE)

本研究のインパクト
  • MLIP開発の民主化:LLMアシストで専門知識なく高品質MLIP構築可能
  • ポリモルフ安定性評価でDFTを代替するMLIPパイプラインの確立
  • lib/mdのFF精度ボトルネックを解消するMLIP統合への道筋を提示