MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

Bartmann, Luukkonen et al. (Johannes Kepler Univ. Linz) | arXiv: 2601.15279 | 2026年1月

🎯 RDKit で正解を自動生成する「記号的検証」ベンチマーク MolecularIQ で LLM の分子グラフ推論能力を定量化。単純分子 >80%・複雑多環 <40% という明確な限界を実証する。

① 背景と課題

既存の化学 LLM ベンチマーク（ChemBench・CheBI-QA 等）は多肢選択・文献知識問題が中心で、LLM が分子グラフを「実際に推論できるか」は評価できない。文献ラベルの誤りやベンチマーク汚染の問題もあり、スコアの信頼性が低かった。

文献知識のメモリ化で高スコアが出る—実際の分子推論能力と乖離

人手アノテーション依存でラベルの誤り・ベンチマーク汚染が混入しやすい

→ RDKit による記号的自動生成で客観的・リークフリーな分子推論 Ground Truth を構築

② 手法: MolecularIQ 構成

② 手法: 評価設計

ChEMBL から分子複雑度別にサンプリング。主要 LLM をゼロショット・few-shot で評価。

分子複雑度別（原子数・環数）に層別スコアリング

→ どの構造タイプで LLM が強い/弱いかを定量化

③ 本研究で示したこと（要点）

④ 主な結果 (a) 分子複雑度 vs 精度

④ 主な結果 (b) カテゴリ別難易度

④ 主な結果 (c) LLM 間の比較

LLM	SMILESパース	グラフ性質	化学特性
Claude 3.x	優位	中	高
GPT-4	高	中	高
Gemini	中	低	中

Claude が SMILES パースで特に優位—計算創薬バックボーン選定の指針

④ 主な結果 (d) ベンチマーク信頼性

RDKit

Ground Truth 自動生成ツール—人手誤り・汚染なし

ChEMBL

複雑度別サンプリング—難易度を定量化

<5%

MW 等の数値評価許容誤差—現実的な基準

⑤ テイクホームメッセージ

客観的 LLM 評価
RDKit 自動検証により文献依存・汚染なしの化学推論ベンチマークが初めて実現。スコアの信頼性が高い。

LLM の能力限界の定量化
単純分子 >80% / 複雑多環 <40% という明確な性能崖を発見。グラフ解析は数値暗記より苦手という示唆。

モデル選定への応用
Claude が SMILES パース精度で優位—計算創薬 LLM バックボーン選定の客観的指標として即活用可能。

限界
反応予測・立体化学・3D 推論は対象外。LLM が真に推論しているかパターンマッチングかの判別が困難。

既存ベンチマークとの差異

ベンチマーク	リークフリー	構造推論	LLM対応
ChemBench	△	✗	✓
CheBI-QA	△	✗	✓
MolecularIQ	✓	✓	✓

RDKit 自動生成 = 記号的検証による客観性

本研究のインパクト