RePO: Reference-Guided Policy Optimization for Molecular Optimization via LLM Reasoning

Li et al., Hong Kong Baptist University | ICLR 2026 | arXiv:2603.05900

🎯 SFTの推論崩壊 × RLVRの希薄報酬という分子最適化LLMの双子の問題を、参照誘導項＋RL探索項の組み合わせ（RePO）で同時解決。ICLR 2026採択・公開実装あり。

① 背景と課題

instruction-based分子最適化におけるLLM訓練の2大問題：（1）SFT-only（answer-only設定）では推論過程が崩壊し、正しい答えに至る論理が失われる「推論崩壊」。（2）RLVR-only（GRPO）では類似度制約下で有効な探索が得られず希薄報酬問題が発生し収束が遅い。

SFT-only: answer-only設定で推論過程が崩壊 — 論理的根拠が失われる

RLVR-only: 類似度制約下での探索空間制約 → 希薄報酬・遅い収束

→ 参照分子への教師あり誘導とRL探索の動的重み付き和で両問題を同時解消

② 手法の概要: RePOアルゴリズム

② 手法の概要: 訓練データとベースLLM

訓練データ：instruction-based最適化ペア（「このSMILESを最適化してDRD2活性を上げろ」+目標分子）。参照分子（訓練ペアの目標分子）のanswer部分のみをSFTターゲットとして使用。軌道データ生成不要で低コスト。

ベースLLM: Mistral/LLaMA系オープンウェイト
訓練基盤: trl + DeepSpeed分散訓練
公開実装: github.com/tmlr-group/RePO

③ 本研究で示したこと（要点）

④ 主な結果 (a) 成功率×類似度比較

④ 主な結果 (b) タスク別成功率

④ 主な結果 (c) アブレーション: RL項 vs 参照誘導項

設定	Success%	Sim≥0.4	Score積
RL項のみ	52%	78%	0.41
参照誘導のみ	48%	85%	0.41
RePO (両方)	65%	88%	0.57

RL項（探索促進）と参照誘導項（収束安定化）が補完的に寄与。片方では達成不可能

④ 主な結果 (d) 未見instruction汎化性

⑤ テイクホームメッセージ

SFT+RLの双子問題を解決
推論崩壊（SFT問題）と希薄報酬（RLVR問題）を1つのフレームワークで同時に解消。分子最適化LLM訓練の新標準

軌道データ不要
参照分子のanswer部分だけをSFTターゲットに使用。高品質軌道データの生成コストなしに優れた性能を達成

lib/molgen統合最優先
公開実装(GitHub)+trl+DeepSpeed。ChEMBL最適化ペアを参照分子として活用するlib/molgen組み込みが実装コスト最低

ドッキング報酬への拡張
RL報酬にUniDockRunnerのスコアを追加することでSBDD特化版RePOへの拡張が容易。優先実装候補

手法比較

本研究のインパクト