従来の化学AI評価(ChemBenchmark・MoleculeNet等)は個別予測タスクに特化しており、複数ツールを組み合わせたエージェント的タスク遂行の評価フレームワークが存在しなかった。現実の創薬・研究では「分子理解→DFT計算→文献検索→実験設計」という複合ステップが必要であり、このような能力評価が緊急課題だった。
→ 6次元能力マトリクスと3レベル難易度調整タスクで包括的評価を実現
各次元を3レベル(ベース/ツール有/多段階計画)で難易度調整して評価。
RDKit・DFTシミュレーター・PubChem API・Reaxysを統合した化学エージェント評価環境を構築。評価対象はGPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Pro・ChemCrow・ReAct+Chemistry等の主要エージェントシステム。
ドメイン特化型エージェント設計が汎用LLMを上回る。化学AIシステムには専門化が有効。
| モデル | 総合スコア | ツール統合 | 多段階計画 |
|---|---|---|---|
| GPT-4o | 72% | 56% | 28% |
| Claude 3.5 S | 68% | 61% | 26% |
| Gemini 1.5 | 64% | 48% | 20% |
| ChemCrow | 74% | 68% | 32% |
| ReAct+Chem | 55% | 44% | 18% |