DESRO: Scientific Reasoning from Outcomes via Large Language Models

Liu, Xia et al. | 2026

🎯 2.3M件の実験記録でLLMを訓練し「実験結果から次の最優先実験を推薦」する科学推論エンジン。18タスク・既存15SOTAを超える性能を達成

① 背景と課題

従来の科学的LLM（Galactica・ChemBERTa・SciBERT等）は論文テキストから事前学習された「知識検索型」であり、実験結果からのリアルタイム推論は弱かった。限られた実験データ（n=10〜50）から次の最優先実験を推薦する能力が特に不足していた。

既存SOTA（ベイズ最適化・Active Learning）：実験結果の連鎖的な文脈を統合した推論が苦手

科学的LLM：論文知識を持つが「次の実験デザイン」という動的意思決定には特化していない

→ （実験条件 → 結果 → 次の実験デザイン）のトリプレット形式で実験者の動的推論を学習

② DESROのデータとアーキテクチャ

2.3M件の実験記録（化学・生物学・材料科学）を標準化し、Llama 3.1 / Mistral-7BベースのLLMをファインチューニング。

② Active Learning との対比

DESROの「次実験推薦」はBayesian最適化・Active Learningと同じ問題設定だが、実験記録の文脈的連鎖をLLMが統合的に解釈する点が根本的に異なる。

特に限られた実験データ（n=10〜50）での推薦タスクでベイズ最適化を大幅に上回った

③ 本研究で示したこと（要点）

④ 主な結果 (a) 18タスクでのSOTA超え率

④ 主な結果 (b) 少量データでの次実験推薦

④ 主な結果 (c) 訓練データ規模

2.3M件

実験記録数（化学合成・ゲノムスクリーニング・HTE等）

18タスク

有機合成・タンパク質変異・新材料組成探索など独立した評価タスク

各記録: （実験条件→観測結果→次実験デザイン）のトリプレット形式で標準化

④ 主な結果 (d) lib/molgen統合シナリオ

JobManager

ドッキング・MMGBSA結果を受け取りDESRO的LLM推論で次の候補を決定

Bayesian-LLM

ハイブリッドスキャフォールド: BO優先度 × LLM推論を組み合わせた能動的学習ループ

⑤ テイクホームメッセージ

実験者のような動的推論
論文知識だけでなく実験記録の連鎖からリアルタイムに推論するLLMの新しい使い方

少量データで最も輝く
n=10〜50という実際のプロジェクト初期フェーズで最も有効。ベイズ最適化を上回る

3ドメイン汎用性
化学・生物学・材料科学にまたがる18タスクで実証。ケムインフォmaティクス全体に適用可能

能動学習ループへの統合
lib/molgenのJobManagerにフィードバックループを追加してDESRO的推論で候補決定

評価タスク例

本研究のインパクト