LLMは多様な情報源を横断して推論できる汎用性から創薬加速への応用が期待されているが、実際の業務シナリオを反映した評価基準が乏しく実用性が不明確だった。既存のベンチマーク(MoleculeNet等)は標準的なML評価として設計されLLMの実際の苦手点を見逃す。
→ 評価と後学習を同一RL環境で統一し、能力評価と能力向上の両方を一貫して扱う
| # | タスクカテゴリ | 難易度 |
|---|---|---|
| ① | RDKit物性予測(MW等) | 低 |
| ② | 実験的物性予測(IC50等、in-context) | 高 |
| ③ | 多肢選択(最高活性分子の識別) | 中 |
| ④ | SMILES変換(正規化・互変異性体) | 中 |
| ⑤ | 制約付き分子生成 | 高 |
HDBSCANクラスタリング+MCS Dice類似度で化学的に関連するin-contextサンプルを構成
Qwen3-30B-A3B-Thinking(MoEアーキテクチャ、総10エキスパート×3B)をSFTなしでGRPOトレーナー+DAPO lossを適用してRL後学習。
| タスク | RL後学習効果 |
|---|---|
| MW等のRDKit物性 | ◎ 即時改善 |
| SMILES変換 | ○ シグモイド型急改善 |
| 制約付き分子生成 | ○ 改善(~300kプロンプト) |
| 実験的物性予測(IC50等) | △ RL後学習では不十分 |
難しいタスクにはミッドトレーニング(ドメイン適応事前学習)が必要
Anthropicモデルが化学タスクで顕著に進歩 → Claude系API活用の実用性を裏付け
| モデル | 化学タスク世代改善 | 実験的活性 |
|---|---|---|
| Anthropic (Claude) | 顕著 | 中 |
| OpenAI (GPT) | 有意差なし | 中 |
| Aspen (Qwen3 RL) | フロンティア競合 | △ |