RePO: Reference-Guided Policy Optimization for Molecular Optimization via LLM Reasoning
Li et al., Hong Kong Baptist University | ICLR 2026 | arXiv:2603.05900
🎯 SFTの推論崩壊 × RLVRの希薄報酬という分子最適化LLMの双子の問題を、参照誘導項+RL探索項の組み合わせ(RePO)で同時解決。ICLR 2026採択・公開実装あり。
① 背景と課題

instruction-based分子最適化におけるLLM訓練の2大問題:(1)SFT-only(answer-only設定)では推論過程が崩壊し、正しい答えに至る論理が失われる「推論崩壊」。(2)RLVR-only(GRPO)では類似度制約下で有効な探索が得られず希薄報酬問題が発生し収束が遅い。

SFT-only: answer-only設定で推論過程が崩壊 — 論理的根拠が失われる
RLVR-only: 類似度制約下での探索空間制約 → 希薄報酬・遅い収束

→ 参照分子への教師あり誘導とRL探索の動的重み付き和で両問題を同時解消

② 手法の概要: RePOアルゴリズム
RePO訓練フレームワーク RL探索項 (GRPO) n候補サンプリング 報酬: 性質×類似度 参照誘導項 (SFT) 参照分子の答えを 軌道全体+SFT α·L_RL + β·L_SFT RePO: 探索と収束を両立 軌道データ不要・参照分子のみで訓練
② 手法の概要: 訓練データとベースLLM

訓練データ:instruction-based最適化ペア(「このSMILESを最適化してDRD2活性を上げろ」+目標分子)。参照分子(訓練ペアの目標分子)のanswer部分のみをSFTターゲットとして使用。軌道データ生成不要で低コスト。

ベースLLM: Mistral/LLaMA系オープンウェイト
訓練基盤: trl + DeepSpeed分散訓練
公開実装: github.com/tmlr-group/RePO
③ 本研究で示したこと(要点)
  • SFT・RLVR(GRPO)ベースラインを全設定で一貫して上回る成功率×類似度積
  • 未見のinstruction style(訓練時と異なる言い回し)への汎化でも優位を維持
  • RL項と参照誘導項のアブレーション実験で両者の補完的寄与を確認
  • ICLR 2026採択・公開実装あり。lib/molgen統合の最有力候補
④ 主な結果 (a) 成功率×類似度 比較
Success Rate × Similarity (高いほど良い) SFT only GRPO DrugR RePO 0.31 0.41 0.48 0.61✓
④ 主な結果 (b) タスク別成功率
タスク別 Success Rate (%) DRD2 42% 65%✓ JNK3 38% 59%✓ GSK3β 45% 68%✓ 未見指示 32% 52%✓ Best Baseline RePO 全タスク・未見指示でも一貫して優位
④ 主な結果 (c) アブレーション: RL項 vs 参照誘導項
設定Success%Sim≥0.4Score積
RL項のみ52%78%0.41
参照誘導のみ48%85%0.41
RePO (両方)65%88%0.57

RL項(探索促進)と参照誘導項(収束安定化)が補完的に寄与。片方では達成不可能

④ 主な結果 (d) 未見instruction汎化性
未見指示スタイルへの汎化 (Success %) SFT GRPO DrugR RePO 28% 35% 44% 52%✓ 未見instructionへの汎化でも+8pt優位
⑤ テイクホームメッセージ
SFT+RLの双子問題を解決
推論崩壊(SFT問題)と希薄報酬(RLVR問題)を1つのフレームワークで同時に解消。分子最適化LLM訓練の新標準
軌道データ不要
参照分子のanswer部分だけをSFTターゲットに使用。高品質軌道データの生成コストなしに優れた性能を達成
lib/molgen統合最優先
公開実装(GitHub)+trl+DeepSpeed。ChEMBL最適化ペアを参照分子として活用するlib/molgen組み込みが実装コスト最低
ドッキング報酬への拡張
RL報酬にUniDockRunnerのスコアを追加することでSBDD特化版RePOへの拡張が容易。優先実装候補
手法比較
手法推論崩壊希薄報酬実装公開
SFT-onlyあり⚠
GRPOあり⚠
DrugR軽減軽減
RePO解消✓解消✓○✓
本研究のインパクト
  • 分子最適化LLM訓練の問題を系統的に分析し双方を解消する統一アルゴリズムを提示
  • ICLR 2026採択 + github.com/tmlr-group/RePO で即座に活用可能
  • lib/molgen + UniDockRunner + ChEMBLペアデータで完結するSBDD統合パイプラインへの道