REINFORCE-ING Chemical Language Models for Drug Discovery
Thomas, Bou, Gómez-Tamayo, Tresadern, Ahmad, De Fabritiis — J. Chem. Inf. Model. 2025 (DOI: 10.1021/acs.jcim.5c02053) | ACEGEN MIT
🎯 REINFORCE+CLMの各拡張コンポーネントを体系評価し、α/σ分離リワードシェーピング+Boltz2でde novo JNK3アロステリックリガンド設計を実証
① 背景と課題

CLM + RL(特に REINFORCE)は de novo 分子設計の主流だが、各 RL 拡張手法の個別貢献と最適組み合わせは不明確だった。特に REINVENT のリワードシェーピングは σ 1 つで報酬勾配スケールと prior 正則化を同時に制御するため解釈困難で fine-grained な調整ができない。

REINFORCE 基本形
↓ + MAB/LOO(分散削減)
↓ + Hill-Climbing(上位k割選択)
↓ + Experience Replay(優先度バッファ)
↓ + α/σ 分離リワードシェーピング
↓ → 統合エージェント (MolOpt SOTA)
② 新規リワードシェーピング(α/σ 分離)

提案式: R_shaped = clip(R^α + σ·log_prior, 0)

REINVENT: σ が勾配スケールと正則化を同時制御(解釈困難)

本手法: α で報酬勾配、σ で prior 正則化を独立制御

α=5 で飽和
effectiveness +12%、efficiency +9%(vs REINFORCE baseline)

σ 増大 → prior NLL 低下(prior 分布維持)、α 独立に調整可能

③ 各拡張の実験結果サマリー
手法EffectivenessEfficiencyExplore
MAB Baseline+6%+4%-3%
Hill-Climb (k=0.5)+10%+6%-4%
Exp. Replay (P-100)+10%+6%≒0
α=5 Reward Shape+12%+9%-9%
KL 正則化-small-small+12%

Experience Replay が唯一 exploration コストなし

④ Experience Replay の最適設定
Buffer 100 + Batch 20
優先度比例サンプリング (Proportional)
  • Effectiveness 最大 +10%、Efficiency +6%
  • Validity・Unique への悪影響なし
  • バッファが小さいほど効果大(500 < 100)
④ JNK3 Boltz-2 ケーススタディ

タスク: JNK3 アロステリックポケットへの de novo リガンド設計

報酬モデル: Boltz-2 構造スコア + QED + B&T-CF フィルタ

SynFlowNet を大幅超
Sample efficiency でベースラインを凌駕、ドラッグライク性維持
④ KL 発散 vs リワードシェーピング
手法ValidityDiversityEffec.
Reward Shaping+12%-20%+small
KL Divergence+18%+12%-small

多様性重視 → KL、効率重視 → リワードシェーピング

④ Hill-Climbing の top-k 効果

top_k 比率を下げるほど高性能(ただし validity/uniqueness が低下):

top-kEffectivenessEfficiency
1.0(全件)baselinebaseline
0.5+10%+6%
0.2最大最大
⑤ テイクホームメッセージ
🔧 α/σ 分離で直感的チューニング
REINVENT のブラックボックス報酬整形を解消。2パラメータで探索・最適化を独立制御できる。
📦 ER が最良コストパフォーマンス
Exploration を損なわずに Effectiveness/Efficiency を +10% 改善。バッファ 100 で十分。
🏗️ Boltz-2 × REINFORCE で構造誘導設計
フロンティア構造予測モデルを報酬に組み込み、アロステリック難ターゲットへの対応強化。
📂 全実装が ACEGEN で MIT 公開
RL 設定・事前学習モデル・スクリプトすべてを即利用可能。
ケムインフォmaticへの応用
適用先ユースケース
lib/molgenREINFORCE + MAB/HC/ER + α/σ整形 統合実装
lib/fepBoltz2スコアを前段スクリーナーに使用
lib/molgenKL正則化で多様なヒット探索を強化

ACEGEN をベースに MolgenYaml との連携インターフェースを実装するのが最速ルート

限界点
MolOpt は exploitation 偏重 — exploration 重視タスクでの評価不足
α/σ 整形は uniqueness を最大 9% 低下 — 多様性重視場面では要注意
GRU CLM のみ評価 — Transformer 系への汎化は未確認
Boltz2 スコアは ADMET・合成可能性を含まない