Beyond SMILES: Evaluating Agentic AI Systems for Chemistry
arXiv:2602.10163 | February 2026
🎯 SMILES生成・性質予測を超え、ツール利用・多段階計画・実験設計という複合的化学タスクをエージェントAIが実行できるかを6次元の能力マトリクスで体系評価する。
① 背景と課題

従来の化学AI評価(ChemBenchmark・MoleculeNet等)は個別予測タスクに特化しており、複数ツールを組み合わせたエージェント的タスク遂行の評価フレームワークが存在しなかった。現実の創薬・研究では「分子理解→DFT計算→文献検索→実験設計」という複合ステップが必要であり、このような能力評価が緊急課題だった。

既存ベンチマークは単一タスク評価に限定、複合エージェント能力を評価不可
ツール選択の適切さ・計画の論理的一貫性・エラー回復能力が評価されていない

→ 6次元能力マトリクスと3レベル難易度調整タスクで包括的評価を実現

② 手法の概要: 6次元能力マトリクス
①分子理解
②反応予測
③物性計算
④文献検索
⑤実験設計
⑥ツール統合

各次元を3レベル(ベース/ツール有/多段階計画)で難易度調整して評価。

② 手法の概要: 評価インフラ

RDKit・DFTシミュレーター・PubChem API・Reaxysを統合した化学エージェント評価環境を構築。評価対象はGPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Pro・ChemCrow・ReAct+Chemistry等の主要エージェントシステム。

評価軸の拡張:
精度 + ツール選択適切さ + 計画論理性 + エラー回復能力
③ 本研究で示したこと(要点)
  • GPT-4oが大多数の評価軸で最高性能。ツール統合・複数ステップ計画ではClaude優位
  • 不斉合成立体選択性予測・多段階合成経路設計で全モデルが低スコア
  • ChemCrow(化学特化型)が汎用LLMより平均スコアで優位—ドメイン特化設計の有効性
  • 化学AIの能力上限と残課題を体系的にマッピング。今後の研究方向を明確化
④ 主な結果 (a) モデル別スコア比較(レーダー)
6次元能力スコア(概略) 分子理解 78 反応予測 65 物性計算 70 文献検索 74 実験設計 42 ツール統合 56 ChemCrow GPT-4o
④ 主な結果 (b) 難易度レベル別スコア推移
難易度別平均スコア(全モデル平均) 基礎 ツール有 多段階計画 72% 47% 22% 多段階計画で大幅低下 → 化学専門家推論に未到達
④ 主な結果 (c) ChemCrow vs 汎用LLM
+12%
ChemCrow vs GPT-4o(全タスク平均スコア差)
+18%
ツール統合タスクでのChemCrow優位幅

ドメイン特化型エージェント設計が汎用LLMを上回る。化学AIシステムには専門化が有効。

④ 主な結果 (d) 低スコア課題領域
不斉合成 立体選択性予測: 全モデル平均スコア 18%。化学専門家推論に遠く及ばない
多段階合成経路設計: 全モデル平均 22%。逐次論理推論が苦手
ツール統合の一貫性: DFT計算コールでAPIエラー多発。エラー回復能力が弱い
⑤ テイクホームメッセージ
GPT-4o最強だが限界あり
大多数の軸でトップだが多段階計画・不斉合成では人間専門家水準に届かない
ドメイン特化が鍵
ChemCrowが汎用LLMを平均+12%上回る。ケムインフォ向けエージェント特化設計の有望性を示す
評価インフラの標準化
6次元能力マトリクスはパイプライン評価フレームワークとして直接活用できる設計思想
lib/* ツール公開の設計指針
UniDockRunner・MMGBSAEngine等をLLMエージェントに公開する際の評価基準として本フレームワークが参照可能
モデル別評価サマリー
モデル総合スコアツール統合多段階計画
GPT-4o72%56%28%
Claude 3.5 S68%61%26%
Gemini 1.564%48%20%
ChemCrow74%68%32%
ReAct+Chem55%44%18%
本研究のインパクト
  • 化学エージェントAIの能力と限界を初めて体系的にマッピング
  • lib/md・lib/fep・lib/docking をLLMに公開する際のエージェント評価基準として活用可能
  • 複合タスク(ターゲット解析→ドッキング→FEP→報告書)の自律実行パイプライン設計の参考指針