化学論文の核心知識は反応スキームという視覚言語に凝縮されているが、既存ベンチマークは静的概念認識やテキスト問題に偏っており、動的反応プロセスや論文全文横断推論の評価ができない。
| カテゴリ | 問数 | 割合 |
|---|---|---|
| Fact Extraction | 568 | 37.2% |
| Mechanism & Process | 296 | 19.4% |
| Reagent Roles | 252 | 16.5% |
| Comparative Analysis | 216 | 14.2% |
| Structure Recognition | 134 | 8.8% |
| Global Understanding | 59 | 3.9% |
62.8%が化学知識・推論を要求
| モデル | Think | Mean% |
|---|---|---|
| Gemini-3-Flash-preview | ✓ | 96.23 |
| Seed1.8-Think | ✓ | 93.64 |
| Gemini-3-Pro-preview | ✓ | 93.61 |
| Qwen3-VL-235B-Think | ✓ Open | 91.77 |
| Qwen3-VL-235B (W/o Think) | ✗ Open | 85.84 |
| GPT-4o | ✗ | 74.49 |
| Random | - | 25.00 |
FD-QA:108論文×5問を専門家が文書横断的に設計
| 適用先 | ユースケース |
|---|---|
| lib/molgen | Gemini-3-Flash活用の文献PDF→反応条件自動抽出 |
| lib/docking | Structure Recognitionで論文→SMILES→UniDock入力自動化 |
| lib/molgen | FD-QA型SAR推論でMolgenYamlに文献SAR知識を統合 |
Adversarial Editing設計 + RDKit立体異性体列挙で内製QCベンチマークも構築可能