CLM + RL(特に REINFORCE)は de novo 分子設計の主流だが、各 RL 拡張手法の個別貢献と最適組み合わせは不明確だった。特に REINVENT のリワードシェーピングは σ 1 つで報酬勾配スケールと prior 正則化を同時に制御するため解釈困難で fine-grained な調整ができない。
提案式: R_shaped = clip(R^α + σ·log_prior, 0)
REINVENT: σ が勾配スケールと正則化を同時制御(解釈困難)
本手法: α で報酬勾配、σ で prior 正則化を独立制御
σ 増大 → prior NLL 低下(prior 分布維持)、α 独立に調整可能
| 手法 | Effectiveness | Efficiency | Explore |
|---|---|---|---|
| MAB Baseline | +6% | +4% | -3% |
| Hill-Climb (k=0.5) | +10% | +6% | -4% |
| Exp. Replay (P-100) | +10% | +6% | ≒0 |
| α=5 Reward Shape | +12% | +9% | -9% |
| KL 正則化 | -small | -small | +12% |
Experience Replay が唯一 exploration コストなし
タスク: JNK3 アロステリックポケットへの de novo リガンド設計
報酬モデル: Boltz-2 構造スコア + QED + B&T-CF フィルタ
| 手法 | Validity | Diversity | Effec. |
|---|---|---|---|
| Reward Shaping | +12% | -20% | +small |
| KL Divergence | +18% | +12% | -small |
多様性重視 → KL、効率重視 → リワードシェーピング
top_k 比率を下げるほど高性能(ただし validity/uniqueness が低下):
| top-k | Effectiveness | Efficiency |
|---|---|---|
| 1.0(全件) | baseline | baseline |
| 0.5 | +10% | +6% |
| 0.2 | 最大 | 最大 |
| 適用先 | ユースケース |
|---|---|
| lib/molgen | REINFORCE + MAB/HC/ER + α/σ整形 統合実装 |
| lib/fep | Boltz2スコアを前段スクリーナーに使用 |
| lib/molgen | KL正則化で多様なヒット探索を強化 |
ACEGEN をベースに MolgenYaml との連携インターフェースを実装するのが最速ルート