MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs
Bartmann, Luukkonen et al. (Johannes Kepler Univ. Linz) | arXiv: 2601.15279 | 2026年1月
🎯 RDKit で正解を自動生成する「記号的検証」ベンチマーク MolecularIQ で LLM の分子グラフ推論能力を定量化。単純分子 >80%・複雑多環 <40% という明確な限界を実証する。
① 背景と課題

既存の化学 LLM ベンチマーク(ChemBench・CheBI-QA 等)は多肢選択・文献知識問題が中心で、LLM が分子グラフを「実際に推論できるか」は評価できない。文献ラベルの誤りやベンチマーク汚染の問題もあり、スコアの信頼性が低かった。

文献知識のメモリ化で高スコアが出る—実際の分子推論能力と乖離
人手アノテーション依存でラベルの誤り・ベンチマーク汚染が混入しやすい

→ RDKit による記号的自動生成で客観的・リークフリーな分子推論 Ground Truth を構築

② 手法: MolecularIQ 構成
3カテゴリ × RDKit 自動検証 ① SMILES パース 原子種・分子式・IUPAC 対応 — 文字列一致で検証 LLM が SMILES を正しく読めるかを直接評価 ② グラフ性質 原子数・結合次数・環数・アロマティック性 — 数値一致 LLM が分子グラフ構造を正確に解析できるかを評価 ③ 化学的性質 MW・cLogP・TPSA・SAScore — 数値範囲 (誤差<5%) で検証 計算特性の推定精度を評価 RDKit で Ground Truth を自動生成 — リークフリー
② 手法: 評価設計

ChEMBL から分子複雑度別にサンプリング。主要 LLM をゼロショット・few-shot で評価。

評価LLM評価方式
GPT-4 系0-shot / few-shot
Claude 3.x0-shot / few-shot
Gemini0-shot / few-shot

分子複雑度別(原子数・環数)に層別スコアリング

→ どの構造タイプで LLM が強い/弱いかを定量化

③ 本研究で示したこと(要点)
  • RDKit 自動生成による記号的検証でリークフリーな化学推論ベンチマークを構築
  • 単純分子(原子数<15)で >80%・複雑多環で <40% という LLM の明確な能力限界を定量化
  • グラフ性質カテゴリが化学的性質カテゴリより難しい—LLM は数値暗記が得意でグラフ解析は苦手
  • Claude 系が SMILES パース精度で特に優位な傾向を発見
④ 主な結果 (a) 分子複雑度 vs 精度
分子複雑度別 正答率 (%) >80% <40% 単純分子 (原子数<15) 複雑多環 (多環芳香族等) SOTA LLM 平均値
④ 主な結果 (b) カテゴリ別難易度
カテゴリ別 LLM 正答率傾向 高い 高い★ ①SMILES パース ②グラフ 性質(難) ③化学的 性質(暗記)
④ 主な結果 (c) LLM 間の比較
LLMSMILESパースグラフ性質化学特性
Claude 3.x優位
GPT-4
Gemini

Claude が SMILES パースで特に優位—計算創薬バックボーン選定の指針

④ 主な結果 (d) ベンチマーク信頼性
RDKit
Ground Truth 自動生成ツール—人手誤り・汚染なし
ChEMBL
複雑度別サンプリング—難易度を定量化
<5%
MW 等の数値評価許容誤差—現実的な基準
⑤ テイクホームメッセージ
客観的 LLM 評価
RDKit 自動検証により文献依存・汚染なしの化学推論ベンチマークが初めて実現。スコアの信頼性が高い。
LLM の能力限界の定量化
単純分子 >80% / 複雑多環 <40% という明確な性能崖を発見。グラフ解析は数値暗記より苦手という示唆。
モデル選定への応用
Claude が SMILES パース精度で優位—計算創薬 LLM バックボーン選定の客観的指標として即活用可能。
限界
反応予測・立体化学・3D 推論は対象外。LLM が真に推論しているかパターンマッチングかの判別が困難。
既存ベンチマークとの差異
ベンチマークリークフリー構造推論LLM対応
ChemBench
CheBI-QA
MolecularIQ

RDKit 自動生成 = 記号的検証による客観性

本研究のインパクト
  • lib/molgen の LLM バックボーン選定: SMILES パース精度で Claude を優先選定する根拠
  • MolecularIQ タスクを lib の品質テストに統合—生成 SMILES の LLM 解析精度を回帰テスト化
  • 化学 LLM の能力境界を定量化—どの分子複雑度で LLM 支援が有効かの設計指針