RxnBench: Multimodal Benchmark for Chemical Reaction Understanding from Scientific Literature
41 MLLMを反応スキーム理解・全文PDF推論で評価(arXiv:2512.23565, Li & Ke et al., 2025)
🎯 化学反応スキームの「動的プロセス理解」を評価。FD-QAでは全モデルが50%未満 — AIケミストへの道のりを可視化
① 背景と課題

化学論文の核心知識は反応スキームという視覚言語に凝縮されているが、既存ベンチマークは静的概念認識やテキスト問題に偏っており、動的反応プロセスや論文全文横断推論の評価ができない。

反応スキームは単純画像認識ではなく、反応物・中間体・生成物の役割を「動的に推論」する必要がある
PDF論文の非構造性:反応スキームが本文・テーブルと空間的に分離し、cross-modal統合が必要
立体化学の精度要求:wedge/dashの方向一つで鏡像体が変わる — ハルシネーション許容ゼロ
② RxnBench の2層構成
【Layer 1】Single-Figure QA (SF-QA)
1,525問 / 305反応スキーム画像
6カテゴリ:Fact / Reagent / Mechanism / Comparative / Global / Structure

【Layer 2】Full-Document QA (FD-QA)
108論文PDF全文
4択+None of the Above
本文・スキーム・テーブルを横断した多段階推論
③ SF-QA カテゴリ分布
カテゴリ問数割合
Fact Extraction56837.2%
Mechanism & Process29619.4%
Reagent Roles25216.5%
Comparative Analysis21614.2%
Structure Recognition1348.8%
Global Understanding593.9%

62.8%が化学知識・推論を要求

④ SF-QA モデル性能比較
モデルThinkMean%
Gemini-3-Flash-preview96.23
Seed1.8-Think93.64
Gemini-3-Pro-preview93.61
Qwen3-VL-235B-Think✓ Open91.77
Qwen3-VL-235B (W/o Think)✗ Open85.84
GPT-4o74.49
Random-25.00
④ 推論思考の効果
+5.93pt
Qwen3-VL-235B: Think あり vs なし
  • Fact Extraction:top models ≈ 96%(解決済み)
  • Structure Recognition:全モデルで大幅スコア低下(共通弱点)
  • Mechanism & Process:ThinkモデルでGemini-3-Flash 97.64%
FD-QA:全41モデルが50%未満 — PDF全文推論はまだ未解決領域
⑤ データ構築パイプライン
Uni-Parser: PDF→反応スキーム画像自動抽出
↓ o4-mini: QA候補生成(5問/スキーム)
↓ PhD専門家: Adversarial Editing
(鏡像体・ジアステレオマー・位置異性体でHard Negative作成)
↓ 最終QAデータセット(1,525問)

FD-QA:108論文×5問を専門家が文書横断的に設計

⑥ FD-QA の独自設計
  • 4択(A-D)+None of the Above(E)でハルシネーション対策
  • 選択肢3形式:text / structure image / mixed
  • Image-based Distractors:高類似構造の「plausible but incorrect」選択肢
  • 全誤答選択肢は論文内容から派生(未知情報を選択肢に含めない)
⑦ テイクホームメッセージ
🔬 反応プロセス理解の初ベンチマーク
静的概念認識を超えた動的化学反応理解を評価。FD-QAは論文全文PDF入力で業界初。
🧠 推論思考(Think)が決定的
同モデルでもThinkあり/なしで最大6pt差。複雑化学推論には内部chain-of-thoughtが必須。
⚠️ Structure Recognitionが共通弱点
SMILES精確抽出は全モデルでスコア低下。ドメイン専用視覚エンコーダの必要性を示唆。
📄 FD-QA 50%未満の壁
論文全文横断推論は依然未解決。自律的AIケミスト実現には大きな能力ギャップが残る。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenGemini-3-Flash活用の文献PDF→反応条件自動抽出
lib/dockingStructure Recognitionで論文→SMILES→UniDock入力自動化
lib/molgenFD-QA型SAR推論でMolgenYamlに文献SAR知識を統合

Adversarial Editing設計 + RDKit立体異性体列挙で内製QCベンチマークも構築可能

本研究のインパクト
  • 化学反応の動的プロセス理解を評価する初の多段階マルチモーダルベンチマーク
  • 41モデルの能力マップを提供し、ドメイン専用視覚エンコーダ開発への指針を示す
  • 文献PDF→SMILES・SAR自動抽出パイプラインの実用性評価ツールとして活用可能