Evaluating the Progression of LLM Capabilities for Small-Molecule Drug Design + Aspen
Chennakesavalu et al. (Genentech / Prescient Design) | arXiv:2604.16279 | 2026年4月
🎯 6カテゴリの創薬タスクをRL環境として統一定式化し、LLMの能力進化を系統評価。RL後学習済みQwen3-30B「Aspen」がフロンティアモデルと互角に到達
① 背景と課題

LLMは多様な情報源を横断して推論できる汎用性から創薬加速への応用が期待されているが、実際の業務シナリオを反映した評価基準が乏しく実用性が不明確だった。既存のベンチマーク(MoleculeNet等)は標準的なML評価として設計されLLMの実際の苦手点を見逃す。

ChemCrow等の先行エージェント:限定的なデモにとどまり、ベースLLMの能力がボトルネック
既存ベンチマーク:少量データでのin-context活性予測など実務シナリオを反映せず

→ 評価と後学習を同一RL環境で統一し、能力評価と能力向上の両方を一貫して扱う

② 6タスクカテゴリ評価設計
#タスクカテゴリ難易度
RDKit物性予測(MW等)
実験的物性予測(IC50等、in-context)
多肢選択(最高活性分子の識別)
SMILES変換(正規化・互変異性体)
制約付き分子生成

HDBSCANクラスタリング+MCS Dice類似度で化学的に関連するin-contextサンプルを構成

② Aspen後学習設計

Qwen3-30B-A3B-Thinking(MoEアーキテクチャ、総10エキスパート×3B)をSFTなしでGRPOトレーナー+DAPO lossを適用してRL後学習。

300k
制約付き生成タスクのプロンプト数(他タスクは最大20k — 意図的タスク不均衡)
Aspen
30B MoE後学習済みモデル。フロンティアモデル(Claude/GPT-4)と競合
③ 本研究で示したこと(要点)
  • Anthropicファミリー(Claude系)が化学タスクで世代間の顕著な改善を実証
  • RL後学習でQwen3-30BがフロンティアモデルLLMと競合できるレベルに到達
  • SMILES変換でシグモイド型学習曲線(急速改善)を観測
  • 実験的物性予測はRL後学習だけでは不十分→ミッドトレーニングが必要
④ 主な結果 (a) LLMファミリー間の化学能力比較
世代間改善率(化学タスク) Anthropic OpenAI Aspen 顕著な改善 有意差なし フロンティア競合
④ 主な結果 (b) RL学習曲線のパターン
タスク別RL学習曲線 MW予測 SMILES変換 学習ステップ → 報酬 全体報酬は単調増加 → プラトーへ
④ 主な結果 (c) タスク難易度とRL効果
タスクRL後学習効果
MW等のRDKit物性◎ 即時改善
SMILES変換○ シグモイド型急改善
制約付き分子生成○ 改善(~300kプロンプト)
実験的物性予測(IC50等)△ RL後学習では不十分

難しいタスクにはミッドトレーニング(ドメイン適応事前学習)が必要

④ 主な結果 (d) lib/molgen応用シナリオ
制約付き生成
MolgenYamlの制約をプロンプト化してAspen相当LLMに渡し、SMILESを生成
in-context活性予測
MCS同一クラスタ内の既知分子を参照してUniDockRunner前段で候補絞り込み

Anthropicモデルが化学タスクで顕著に進歩 → Claude系API活用の実用性を裏付け

⑤ テイクホームメッセージ
評価とRL後学習の統一
タスクをRL環境として定式化することで評価と能力向上を同一フレームワークで実施
Anthropicモデルの化学的進化
Claude系が世代間で顕著に改善 → 現在のAPI活用型ケムインフォエージェント構築を後押し
タスク別後学習戦略
簡単なタスク(RDKit物性)はRL即効、難しいタスク(IC50等)はミッドトレーニングが必要
30B小型モデルの可能性
Aspenが示すようにRL後学習で小型オープンウェイトモデルがフロンティアと競合可能
LLMファミリー比較
モデル化学タスク世代改善実験的活性
Anthropic (Claude)顕著
OpenAI (GPT)有意差なし
Aspen (Qwen3 RL)フロンティア競合
本研究のインパクト
  • 「LLMの創薬能力をRL環境で評価+後学習」という新しい研究方向を開拓
  • Anthropicモデルの化学的進化という実用的知見がClaude API活用の根拠に
  • lib/molgenのLLMバックエンドとしてAspen相当モデルを組み込む設計指針を提供