Evaluating the Progression of Large Language Model Capabilities for Small-Molecule Drug Design

Evaluating the Progression of LLM Capabilities for Small-Molecule Drug Design + Aspen

Chennakesavalu et al. (Genentech / Prescient Design) | arXiv:2604.16279 | 2026年4月

🎯 6カテゴリの創薬タスクをRL環境として統一定式化し、LLMの能力進化を系統評価。RL後学習済みQwen3-30B「Aspen」がフロンティアモデルと互角に到達

① 背景と課題

LLMは多様な情報源を横断して推論できる汎用性から創薬加速への応用が期待されているが、実際の業務シナリオを反映した評価基準が乏しく実用性が不明確だった。既存のベンチマーク（MoleculeNet等）は標準的なML評価として設計されLLMの実際の苦手点を見逃す。

ChemCrow等の先行エージェント：限定的なデモにとどまり、ベースLLMの能力がボトルネック

既存ベンチマーク：少量データでのin-context活性予測など実務シナリオを反映せず

→ 評価と後学習を同一RL環境で統一し、能力評価と能力向上の両方を一貫して扱う

② 6タスクカテゴリ評価設計

HDBSCANクラスタリング+MCS Dice類似度で化学的に関連するin-contextサンプルを構成

② Aspen後学習設計

Qwen3-30B-A3B-Thinking（MoEアーキテクチャ、総10エキスパート×3B）をSFTなしでGRPOトレーナー+DAPO lossを適用してRL後学習。

300k

制約付き生成タスクのプロンプト数（他タスクは最大20k — 意図的タスク不均衡）

Aspen

30B MoE後学習済みモデル。フロンティアモデル（Claude/GPT-4）と競合

③ 本研究で示したこと（要点）

④ 主な結果 (a) LLMファミリー間の化学能力比較

④ 主な結果 (b) RL学習曲線のパターン

④ 主な結果 (c) タスク難易度とRL効果

難しいタスクにはミッドトレーニング（ドメイン適応事前学習）が必要

④ 主な結果 (d) lib/molgen応用シナリオ

制約付き生成

MolgenYamlの制約をプロンプト化してAspen相当LLMに渡し、SMILESを生成

in-context活性予測

MCS同一クラスタ内の既知分子を参照してUniDockRunner前段で候補絞り込み

Anthropicモデルが化学タスクで顕著に進歩 → Claude系API活用の実用性を裏付け

⑤ テイクホームメッセージ

評価とRL後学習の統一
タスクをRL環境として定式化することで評価と能力向上を同一フレームワークで実施

Anthropicモデルの化学的進化
Claude系が世代間で顕著に改善 → 現在のAPI活用型ケムインフォエージェント構築を後押し

タスク別後学習戦略
簡単なタスク（RDKit物性）はRL即効、難しいタスク（IC50等）はミッドトレーニングが必要

30B小型モデルの可能性
Aspenが示すようにRL後学習で小型オープンウェイトモデルがフロンティアと競合可能

LLMファミリー比較

本研究のインパクト