REINFORCE-ING Chemical Language Models for Drug Discovery

Thomas, Bou, Gómez-Tamayo, Tresadern, Ahmad, De Fabritiis — J. Chem. Inf. Model. 2025 (DOI: 10.1021/acs.jcim.5c02053) | ACEGEN MIT

🎯 REINFORCE+CLMの各拡張コンポーネントを体系評価し、α/σ分離リワードシェーピング+Boltz2でde novo JNK3アロステリックリガンド設計を実証

① 背景と課題

CLM + RL（特に REINFORCE）は de novo 分子設計の主流だが、各 RL 拡張手法の個別貢献と最適組み合わせは不明確だった。特に REINVENT のリワードシェーピングは σ 1 つで報酬勾配スケールと prior 正則化を同時に制御するため解釈困難で fine-grained な調整ができない。

REINFORCE 基本形
↓ + MAB/LOO（分散削減）
↓ + Hill-Climbing（上位k割選択）
↓ + Experience Replay（優先度バッファ）
↓ + α/σ 分離リワードシェーピング
↓ → 統合エージェント (MolOpt SOTA)

② 新規リワードシェーピング（α/σ 分離）

提案式: R_shaped = clip(R^α + σ·log_prior, 0)

REINVENT: σ が勾配スケールと正則化を同時制御（解釈困難）

本手法: α で報酬勾配、σ で prior 正則化を独立制御

α=5 で飽和

effectiveness +12%、efficiency +9%（vs REINFORCE baseline）

σ 増大 → prior NLL 低下（prior 分布維持）、α 独立に調整可能

③ 各拡張の実験結果サマリー

手法	Effectiveness	Efficiency	Explore
MAB Baseline	+6%	+4%	-3%
Hill-Climb (k=0.5)	+10%	+6%	-4%
Exp. Replay (P-100)	+10%	+6%	≒0
α=5 Reward Shape	+12%	+9%	-9%
KL 正則化	-small	-small	+12%

Experience Replay が唯一 exploration コストなし

④ Experience Replay の最適設定

Buffer 100 + Batch 20

優先度比例サンプリング (Proportional)

Effectiveness 最大 +10%、Efficiency +6%
Validity・Unique への悪影響なし
バッファが小さいほど効果大（500 < 100）

④ JNK3 Boltz-2 ケーススタディ

タスク: JNK3 アロステリックポケットへの de novo リガンド設計

報酬モデル: Boltz-2 構造スコア + QED + B&T-CF フィルタ

SynFlowNet を大幅超

Sample efficiency でベースラインを凌駕、ドラッグライク性維持

④ KL 発散 vs リワードシェーピング

手法	Validity	Diversity	Effec.
Reward Shaping	+12%	-20%	+small
KL Divergence	+18%	+12%	-small

多様性重視 → KL、効率重視 → リワードシェーピング

④ Hill-Climbing の top-k 効果

top_k 比率を下げるほど高性能（ただし validity/uniqueness が低下）：

top-k	Effectiveness	Efficiency
1.0（全件）	baseline	baseline
0.5	+10%	+6%
0.2	最大	最大

⑤ テイクホームメッセージ

🔧 α/σ 分離で直感的チューニング
REINVENT のブラックボックス報酬整形を解消。2パラメータで探索・最適化を独立制御できる。

📦 ER が最良コストパフォーマンス
Exploration を損なわずに Effectiveness/Efficiency を +10% 改善。バッファ 100 で十分。

🏗️ Boltz-2 × REINFORCE で構造誘導設計
フロンティア構造予測モデルを報酬に組み込み、アロステリック難ターゲットへの対応強化。

📂 全実装が ACEGEN で MIT 公開
RL 設定・事前学習モデル・スクリプトすべてを即利用可能。

ケムインフォmaticへの応用

適用先	ユースケース
lib/molgen	REINFORCE + MAB/HC/ER + α/σ整形統合実装
lib/fep	Boltz2スコアを前段スクリーナーに使用
lib/molgen	KL正則化で多様なヒット探索を強化

ACEGEN をベースに MolgenYaml との連携インターフェースを実装するのが最速ルート

限界点

MolOpt は exploitation 偏重 — exploration 重視タスクでの評価不足

α/σ 整形は uniqueness を最大 9% 低下 — 多様性重視場面では要注意

GRU CLM のみ評価 — Transformer 系への汎化は未確認

Boltz2 スコアは ADMET・合成可能性を含まない