SciDesignBench: Scientific Design Reasoning Benchmark with RLSF
arXiv:2603.12724 | March 2026
🎯 14ドメイン・520タスクの科学設計ベンチマークSciDesignBenchと、科学シミュレーターからの強化学習RLSF(Reinforcement Learning from Scientific Feedback)を提案。分子設計成功率+40%を達成。
① 背景と課題

MMLU・GPT-4評価等の既存LLMベンチマークは知識問答・論理推論に特化しており、「条件制約下での創造的探索」という科学的設計タスクは対象外だった。また、RLHFは人間フィードバックに依存するため科学精度の保証が困難で、分子設計・材料設計タスクへの適用に課題があった。

既存ベンチマークは知識問答中心 — 「目標性質を持つ分子を設計せよ」型タスクを評価不可
RLHFは人間フィードバックに依存 — 検証可能な科学的スコアラーを使えない

→ 科学シミュレーター(ドッキング・DFT・MD)からのフィードバックで直接LLMをRLチューニング

② 手法の概要: SciDesignBench
14ドメイン・520タスク
物理・化学・生物学・材料科学など
化学ドメイン: 約120タスク(全体の23%)
タスク形式:
「目標性質指定 → 候補生成 → シミュレーター評価」
RDKit・Docking・DFTで自動スコアリング
② 手法の概要: RLSF フレームワーク

科学的シミュレーター(分子ドッキングスコア・DFT計算・MD)からの定量的フィードバックを報酬信号としてLLMをPPOファインチューニング。シミュレーターAPIとLLM生成ループを接続する設計。

RLHF → RLSF: 人間を科学シミュレーターに置き換え
PPO + ドッキング/DFT/MD スコアラー
③ 本研究で示したこと(要点)
  • GPT-4o・Claude 3.5 Sonnet等が520タスクの大多数で人間専門家を大幅に下回ることを実証
  • RLSF適用でベースモデル比、化学設計タスク成功率が最大+40%向上
  • RLSF+Llama-3.1がGPT-4oを上回るケースを分子設計タスクで観測
  • ベンチマークとRLSFコードはGitHubで公開予定(2026年3月時点)
④ 主な結果 (a) 全モデル vs 人間専門家(化学設計タスク)
化学設計タスク 成功率 (%) — 人間専門家と比較 人間 GPT-4o Claude Gemini RLSF 82% 48% 45% 51% 72%✓ RLSF+Llama-3.1が人間専門家水準に最接近
④ 主な結果 (b) RLSF効果: ベースモデル比改善率
RLSF適用後の改善率 (%) — ベースモデル比 材料 物理 化学 分子設計 +22% +28% +40%✓ +38%✓ 化学・分子設計タスクで最大効果
④ 主な結果 (c) SciDesignBench 14ドメイン構成
SciDesignBench 520タスク ドメイン分布 化学 23% (120) 材料 18% 物理 15% 生物 15% 他 29%
④ 主な結果 (d) モデル能力マップ(化学特化評価)
モデル化学ベースツール+多段階
GPT-4o58%48%32%
Claude 3.5 S55%51%30%
Llama-3.144%38%22%
RLSF+Llama72%✓62%45%
人間専門家82%88%75%
⑤ テイクホームメッセージ
全LLMが人間専門家に大幅劣後
化学設計タスクで最良モデルでも48%止まり。専門家82%に対して依然大きなギャップ
RLSFで+40%改善
科学シミュレーターを報酬として使うことで小型モデルが大型汎用LLMを逆転。ドメイン特化RLの威力を実証
lib/molgen RLSFパイプライン
UniDockRunner・MMGBSAEngineをRLSF報酬に使い、特定ターゲット向けLLMを強化学習チューニングするパイプライン実装が有望
JobManagerへの組み込み
SciDesignBenchの評価フォーマット(指定→生成→評価)はMolgenYamlのジョブ管理フローと親和性が高い
RLSF適用シナリオ例
lib/molgen RLSF
UniDockRunner スコア → PPO報酬 → LLM分子生成最適化
lib/fep RLSF
MMGBSAEngine ΔΔG → 報酬 → 結合親和性特化生成

シミュレーター精度にRLSF効果が依存するため、バイアスのある力場では過学習リスクあり

本研究のインパクト
  • 科学設計AIの現状能力と人間専門家とのギャップを初めて定量化
  • 科学フィードバックRL(RLSF)により小型モデルでも大型LLMを逆転できることを実証
  • lib/molgen + ドッキング/FEP報酬でSBDD特化強化学習パイプラインの設計指針を提供