RxnBench: Multimodal Benchmark for Chemical Reaction Understanding

RxnBench: Multimodal Benchmark for Chemical Reaction Understanding from Scientific Literature

41 MLLMを反応スキーム理解・全文PDF推論で評価（arXiv:2512.23565, Li & Ke et al., 2025）

🎯 化学反応スキームの「動的プロセス理解」を評価。FD-QAでは全モデルが50%未満 — AIケミストへの道のりを可視化

① 背景と課題

化学論文の核心知識は反応スキームという視覚言語に凝縮されているが、既存ベンチマークは静的概念認識やテキスト問題に偏っており、動的反応プロセスや論文全文横断推論の評価ができない。

反応スキームは単純画像認識ではなく、反応物・中間体・生成物の役割を「動的に推論」する必要がある

PDF論文の非構造性：反応スキームが本文・テーブルと空間的に分離し、cross-modal統合が必要

立体化学の精度要求：wedge/dashの方向一つで鏡像体が変わる — ハルシネーション許容ゼロ

② RxnBench の2層構成

【Layer 1】Single-Figure QA (SF-QA)
1,525問 / 305反応スキーム画像
6カテゴリ：Fact / Reagent / Mechanism / Comparative / Global / Structure
↓
【Layer 2】Full-Document QA (FD-QA)
108論文PDF全文
4択+None of the Above
本文・スキーム・テーブルを横断した多段階推論

③ SF-QA カテゴリ分布

カテゴリ	問数	割合
Fact Extraction	568	37.2%
Mechanism & Process	296	19.4%
Reagent Roles	252	16.5%
Comparative Analysis	216	14.2%
Structure Recognition	134	8.8%
Global Understanding	59	3.9%

62.8%が化学知識・推論を要求

④ SF-QA モデル性能比較

モデル	Think	Mean%
Gemini-3-Flash-preview	✓	96.23
Seed1.8-Think	✓	93.64
Gemini-3-Pro-preview	✓	93.61
Qwen3-VL-235B-Think	✓ Open	91.77
Qwen3-VL-235B (W/o Think)	✗ Open	85.84
GPT-4o	✗	74.49
Random	-	25.00

④ 推論思考の効果

+5.93pt

Qwen3-VL-235B: Think あり vs なし

Fact Extraction：top models ≈ 96%（解決済み）
Structure Recognition：全モデルで大幅スコア低下（共通弱点）
Mechanism & Process：ThinkモデルでGemini-3-Flash 97.64%

FD-QA：全41モデルが50%未満 — PDF全文推論はまだ未解決領域

⑤ データ構築パイプライン

Uni-Parser: PDF→反応スキーム画像自動抽出
↓ o4-mini: QA候補生成（5問/スキーム）
↓ PhD専門家: Adversarial Editing
（鏡像体・ジアステレオマー・位置異性体でHard Negative作成）
↓ 最終QAデータセット（1,525問）

FD-QA：108論文×5問を専門家が文書横断的に設計

⑥ FD-QA の独自設計

4択（A-D）＋None of the Above（E）でハルシネーション対策
選択肢3形式：text / structure image / mixed
Image-based Distractors：高類似構造の「plausible but incorrect」選択肢
全誤答選択肢は論文内容から派生（未知情報を選択肢に含めない）

⑦ テイクホームメッセージ

🔬 反応プロセス理解の初ベンチマーク
静的概念認識を超えた動的化学反応理解を評価。FD-QAは論文全文PDF入力で業界初。

🧠 推論思考（Think）が決定的
同モデルでもThinkあり/なしで最大6pt差。複雑化学推論には内部chain-of-thoughtが必須。

⚠️ Structure Recognitionが共通弱点
SMILES精確抽出は全モデルでスコア低下。ドメイン専用視覚エンコーダの必要性を示唆。

📄 FD-QA 50%未満の壁
論文全文横断推論は依然未解決。自律的AIケミスト実現には大きな能力ギャップが残る。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	Gemini-3-Flash活用の文献PDF→反応条件自動抽出
lib/docking	Structure Recognitionで論文→SMILES→UniDock入力自動化
lib/molgen	FD-QA型SAR推論でMolgenYamlに文献SAR知識を統合

Adversarial Editing設計 + RDKit立体異性体列挙で内製QCベンチマークも構築可能

本研究のインパクト

化学反応の動的プロセス理解を評価する初の多段階マルチモーダルベンチマーク
41モデルの能力マップを提供し、ドメイン専用視覚エンコーダ開発への指針を示す
文献PDF→SMILES・SAR自動抽出パイプラインの実用性評価ツールとして活用可能