Beyond SMILES: Evaluating Agentic AI Systems for Chemistry

arXiv:2602.10163 | February 2026

🎯 SMILES生成・性質予測を超え、ツール利用・多段階計画・実験設計という複合的化学タスクをエージェントAIが実行できるかを6次元の能力マトリクスで体系評価する。

① 背景と課題

従来の化学AI評価（ChemBenchmark・MoleculeNet等）は個別予測タスクに特化しており、複数ツールを組み合わせたエージェント的タスク遂行の評価フレームワークが存在しなかった。現実の創薬・研究では「分子理解→DFT計算→文献検索→実験設計」という複合ステップが必要であり、このような能力評価が緊急課題だった。

既存ベンチマークは単一タスク評価に限定、複合エージェント能力を評価不可

ツール選択の適切さ・計画の論理的一貫性・エラー回復能力が評価されていない

→ 6次元能力マトリクスと3レベル難易度調整タスクで包括的評価を実現

② 手法の概要: 6次元能力マトリクス

①分子理解

②反応予測

③物性計算

④文献検索

⑤実験設計

⑥ツール統合

各次元を3レベル（ベース/ツール有/多段階計画）で難易度調整して評価。

② 手法の概要: 評価インフラ

RDKit・DFTシミュレーター・PubChem API・Reaxysを統合した化学エージェント評価環境を構築。評価対象はGPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Pro・ChemCrow・ReAct+Chemistry等の主要エージェントシステム。

評価軸の拡張:
精度 + ツール選択適切さ + 計画論理性 + エラー回復能力

③ 本研究で示したこと（要点）

GPT-4oが大多数の評価軸で最高性能。ツール統合・複数ステップ計画ではClaude優位
不斉合成立体選択性予測・多段階合成経路設計で全モデルが低スコア
ChemCrow（化学特化型）が汎用LLMより平均スコアで優位—ドメイン特化設計の有効性
化学AIの能力上限と残課題を体系的にマッピング。今後の研究方向を明確化

④ 主な結果 (a) モデル別スコア比較（レーダー）

④ 主な結果 (b) 難易度レベル別スコア推移

④ 主な結果 (c) ChemCrow vs 汎用LLM

+12%

ChemCrow vs GPT-4o（全タスク平均スコア差）

+18%

ツール統合タスクでのChemCrow優位幅

ドメイン特化型エージェント設計が汎用LLMを上回る。化学AIシステムには専門化が有効。

④ 主な結果 (d) 低スコア課題領域

不斉合成立体選択性予測: 全モデル平均スコア 18%。化学専門家推論に遠く及ばない

多段階合成経路設計: 全モデル平均 22%。逐次論理推論が苦手

ツール統合の一貫性: DFT計算コールでAPIエラー多発。エラー回復能力が弱い

⑤ テイクホームメッセージ

GPT-4o最強だが限界あり
大多数の軸でトップだが多段階計画・不斉合成では人間専門家水準に届かない

ドメイン特化が鍵
ChemCrowが汎用LLMを平均+12%上回る。ケムインフォ向けエージェント特化設計の有望性を示す

評価インフラの標準化
6次元能力マトリクスはパイプライン評価フレームワークとして直接活用できる設計思想

lib/* ツール公開の設計指針
UniDockRunner・MMGBSAEngine等をLLMエージェントに公開する際の評価基準として本フレームワークが参照可能

モデル別評価サマリー

モデル	総合スコア	ツール統合	多段階計画
GPT-4o	72%	56%	28%
Claude 3.5 S	68%	61%	26%
Gemini 1.5	64%	48%	20%
ChemCrow	74%	68%	32%
ReAct+Chem	55%	44%	18%

本研究のインパクト

化学エージェントAIの能力と限界を初めて体系的にマッピング
lib/md・lib/fep・lib/docking をLLMに公開する際のエージェント評価基準として活用可能
複合タスク（ターゲット解析→ドッキング→FEP→報告書）の自律実行パイプライン設計の参考指針