既存の化学 LLM ベンチマーク(ChemBench・CheBI-QA 等)は多肢選択・文献知識問題が中心で、LLM が分子グラフを「実際に推論できるか」は評価できない。文献ラベルの誤りやベンチマーク汚染の問題もあり、スコアの信頼性が低かった。
→ RDKit による記号的自動生成で客観的・リークフリーな分子推論 Ground Truth を構築
ChEMBL から分子複雑度別にサンプリング。主要 LLM をゼロショット・few-shot で評価。
| 評価LLM | 評価方式 |
|---|---|
| GPT-4 系 | 0-shot / few-shot |
| Claude 3.x | 0-shot / few-shot |
| Gemini | 0-shot / few-shot |
分子複雑度別(原子数・環数)に層別スコアリング
→ どの構造タイプで LLM が強い/弱いかを定量化
| LLM | SMILESパース | グラフ性質 | 化学特性 |
|---|---|---|---|
| Claude 3.x | 優位 | 中 | 高 |
| GPT-4 | 高 | 中 | 高 |
| Gemini | 中 | 低 | 中 |
Claude が SMILES パースで特に優位—計算創薬バックボーン選定の指針
| ベンチマーク | リークフリー | 構造推論 | LLM対応 |
|---|---|---|---|
| ChemBench | △ | ✗ | ✓ |
| CheBI-QA | △ | ✗ | ✓ |
| MolecularIQ | ✓ | ✓ | ✓ |
RDKit 自動生成 = 記号的検証による客観性