LAMMPSスクリプト作成には高度な専門知識と多くの手作業が必要。汎用LLMはMDドメイン知識が不足し、1ショット生成では実行不能コードを多産する。先行MDAgentはSFTのみで実行フィードバックRLを欠いており、ExecSucc@3が14.23%に留まっていた。
→ CPT+SFT+MD-GRPO の3段階訓練 + MDAgent2-RUNTIMEマルチエージェントシステムで解決
LAMMPS専用ツールが実行エラーと物理量収束を評価し、自己修正のフィードバック信号を生成
| モデル | サイズ | Overall Avg |
|---|---|---|
| Qwen3-max | Large/閉 | 82.49 |
| Qwen3-32b | 32B | 77.34 |
| MD-Instruct-8B | 8B | 74.67 |
| Qwen-flash | Large/閉 | 73.47 |
| Qwen3-14b | 14B | 72.91 |
| Qwen3-8b (base) | 8B | 70.50 |
8Bで14Bとflashを超過:CPT+SFTの効果
| 設定 | ExecSucc@3 | Code Score |
|---|---|---|
| Direct Prompt (MD-Code-8B) | 14.23% | 9.29 |
| MDAgent framework | 〜20% | 〜9.20 |
| MDAgent2-RUNTIME | 37.95% | 9.32 |
| サブセット | 問題数 | 評価観点 |
|---|---|---|
| MD-KnowledgeEval | 336問 | MD基礎理論・熱力学 |
| LAMMPS-SyntaxEval | 333問 | コマンド・文法理解 |
| LAMMPS-CodeGenEval | - | コード生成品質 |
単択・多択・穴埋め・記述の4形式。ExecSucc@k + Code-Score-Human(0-10)で評価
| 適用先 | ユースケース |
|---|---|
| lib/md | GROMACS入力ファイル自動生成 + 自己修正ループ |
| lib/md | MD-EvalBenchをGROMACS向けに転用したベンチマーク構築 |
| lib/fep | Alchemd入力自動生成にMD-GRPO閉ループ訓練を適用 |
LAMMPS→GROMACSの差分はCodeRunnerの出力パーサ入替えのみで多くが再利用可能