SciDesignBench: Benchmark for Scientific Design Reasoning with RLSF

SciDesignBench: Scientific Design Reasoning Benchmark with RLSF

arXiv:2603.12724 | March 2026

🎯 14ドメイン・520タスクの科学設計ベンチマークSciDesignBenchと、科学シミュレーターからの強化学習RLSF（Reinforcement Learning from Scientific Feedback）を提案。分子設計成功率+40%を達成。

① 背景と課題

MMLU・GPT-4評価等の既存LLMベンチマークは知識問答・論理推論に特化しており、「条件制約下での創造的探索」という科学的設計タスクは対象外だった。また、RLHFは人間フィードバックに依存するため科学精度の保証が困難で、分子設計・材料設計タスクへの適用に課題があった。

既存ベンチマークは知識問答中心 — 「目標性質を持つ分子を設計せよ」型タスクを評価不可

RLHFは人間フィードバックに依存 — 検証可能な科学的スコアラーを使えない

→ 科学シミュレーター（ドッキング・DFT・MD）からのフィードバックで直接LLMをRLチューニング

② 手法の概要: SciDesignBench

14ドメイン・520タスク
物理・化学・生物学・材料科学など
化学ドメイン: 約120タスク（全体の23%）

タスク形式:
「目標性質指定 → 候補生成 → シミュレーター評価」
RDKit・Docking・DFTで自動スコアリング

② 手法の概要: RLSF フレームワーク

科学的シミュレーター（分子ドッキングスコア・DFT計算・MD）からの定量的フィードバックを報酬信号としてLLMをPPOファインチューニング。シミュレーターAPIとLLM生成ループを接続する設計。

RLHF → RLSF: 人間を科学シミュレーターに置き換え
PPO + ドッキング/DFT/MD スコアラー

③ 本研究で示したこと（要点）

④ 主な結果 (a) 全モデル vs 人間専門家（化学設計タスク）

④ 主な結果 (b) RLSF効果: ベースモデル比改善率

④ 主な結果 (c) SciDesignBench 14ドメイン構成

④ 主な結果 (d) モデル能力マップ（化学特化評価）

モデル	化学ベース	ツール+	多段階
GPT-4o	58%	48%	32%
Claude 3.5 S	55%	51%	30%
Llama-3.1	44%	38%	22%
RLSF+Llama	72%✓	62%	45%
人間専門家	82%	88%	75%

⑤ テイクホームメッセージ

全LLMが人間専門家に大幅劣後
化学設計タスクで最良モデルでも48%止まり。専門家82%に対して依然大きなギャップ

RLSFで+40%改善
科学シミュレーターを報酬として使うことで小型モデルが大型汎用LLMを逆転。ドメイン特化RLの威力を実証

lib/molgen RLSFパイプライン
UniDockRunner・MMGBSAEngineをRLSF報酬に使い、特定ターゲット向けLLMを強化学習チューニングするパイプライン実装が有望

JobManagerへの組み込み
SciDesignBenchの評価フォーマット（指定→生成→評価）はMolgenYamlのジョブ管理フローと親和性が高い

RLSF適用シナリオ例

lib/molgen RLSF

UniDockRunner スコア → PPO報酬 → LLM分子生成最適化

lib/fep RLSF

MMGBSAEngine ΔΔG → 報酬 → 結合親和性特化生成

シミュレーター精度にRLSF効果が依存するため、バイアスのある力場では過学習リスクあり

本研究のインパクト