DESRO: Scientific Reasoning from Outcomes via Large Language Models
Liu, Xia et al. | 2026
🎯 2.3M件の実験記録でLLMを訓練し「実験結果から次の最優先実験を推薦」する科学推論エンジン。18タスク・既存15SOTAを超える性能を達成
① 背景と課題

従来の科学的LLM(Galactica・ChemBERTa・SciBERT等)は論文テキストから事前学習された「知識検索型」であり、実験結果からのリアルタイム推論は弱かった。限られた実験データ(n=10〜50)から次の最優先実験を推薦する能力が特に不足していた。

既存SOTA(ベイズ最適化・Active Learning):実験結果の連鎖的な文脈を統合した推論が苦手
科学的LLM:論文知識を持つが「次の実験デザイン」という動的意思決定には特化していない

→ (実験条件 → 結果 → 次の実験デザイン)のトリプレット形式で実験者の動的推論を学習

② DESROのデータとアーキテクチャ

2.3M件の実験記録(化学・生物学・材料科学)を標準化し、Llama 3.1 / Mistral-7BベースのLLMをファインチューニング。

実験データ 2.3M件 化学(合成) 生物学(ゲノム) 材料科学(HTE) トリプレット形式 条件 → 結果 → 次の実験 SFT + CoT + RLHF DESRO Llama 3.1/ Mistral-7B FT済み Chain-of-Thought(CoT)+ RLHF で推論品質向上 出力: 推論過程 + 推奨次実験
② Active Learning との対比

DESROの「次実験推薦」はBayesian最適化・Active Learningと同じ問題設定だが、実験記録の文脈的連鎖をLLMが統合的に解釈する点が根本的に異なる。

手法文脈統合少量データ
Bayesian最適化△(定量モデル)
Active Learning△(不確実性)
DESRO◎(LLM推論)◎ n=10〜50

特に限られた実験データ(n=10〜50)での推薦タスクでベイズ最適化を大幅に上回った

③ 本研究で示したこと(要点)
  • 18タスク中14タスクで既存15SOTAの最高性能を超える
  • 少量データ(n=10〜50)での次実験推薦でベイズ最適化を大幅に上回る
  • 化学・生物学・材料科学の3ドメインにまたがる汎用的科学推論を実証
  • lib/molgenのJobManagerにDESRO的LLM推論を統合するBayesian-LLMハイブリッドが構築可能
④ 主な結果 (a) 18タスクでのSOTA超え率
18タスク中のSOTA超え数 既存SOTA DESRO 4/18 14/18 18タスク中14タスクで 既存15SOTA手法を超える
④ 主な結果 (b) 少量データでの次実験推薦
n=10〜50での次実験推薦精度 BO Active L. DESRO 中程度 大幅超過 少量データシナリオで特に顕著
④ 主な結果 (c) 訓練データ規模
2.3M件
実験記録数(化学合成・ゲノムスクリーニング・HTE等)
18タスク
有機合成・タンパク質変異・新材料組成探索など独立した評価タスク

各記録: (実験条件→観測結果→次実験デザイン)のトリプレット形式で標準化

④ 主な結果 (d) lib/molgen統合シナリオ
JobManager
ドッキング・MMGBSA結果を受け取りDESRO的LLM推論で次の候補を決定
Bayesian-LLM
ハイブリッドスキャフォールド: BO優先度 × LLM推論を組み合わせた能動的学習ループ
⑤ テイクホームメッセージ
実験者のような動的推論
論文知識だけでなく実験記録の連鎖からリアルタイムに推論するLLMの新しい使い方
少量データで最も輝く
n=10〜50という実際のプロジェクト初期フェーズで最も有効。ベイズ最適化を上回る
3ドメイン汎用性
化学・生物学・材料科学にまたがる18タスクで実証。ケムインフォmaティクス全体に適用可能
能動学習ループへの統合
lib/molgenのJobManagerにフィードバックループを追加してDESRO的推論で候補決定
評価タスク例
タスクドメイン
有機合成の最適条件探索化学
タンパク質変異の効果予測生物学
新材料組成探索材料科学
次の最優先実験推薦(n=10〜50)全ドメイン
本研究のインパクト
  • 「実験結果から科学的推論→次実験推薦」という新しいLLM活用パターンを確立
  • lib/molgenへの統合でドッキング/MMGBSA後の次候補選定を自動化
  • 18タスク14SOTA超えという明確な実証が多目的な応用への信頼性を高める