ReACT-Drug: Reaction-Template Guided RL for de novo Drug Design

ReACT-Drug: Reaction-Template Guided Reinforcement Learning for de novo Drug Design

ESM-2類似タンパク質検索 + ChemBERTa状態表現 + 反応テンプレート動的アクション空間でターゲット非依存型ドラッグデザイン（arXiv:2512.20958, Yadunandan & Ghosh, 2025）

🎯 ターゲット特異的訓練不要。6ターゲットで有効性・新規性100%達成。KOR最良候補 -11.3 kcal/mol

① パイプライン全体設計

ターゲットタンパク質配列
↓ ESM-2埋め込み → PDB類似タンパク質検索（コサイン類似度）
↓ 類似タンパク質の既知リガンドを分解 → フラグメントプール構築
↓ フラグメントをPPO初期分子M₀として選択
↓ PPO（15ステップ）: ChemBERTa状態 × 反応テンプレートアクション
↓ リワード = Vina(×1.0) + QED(×0.1) - SA(×0.1) + 新規性(×0.35)
↓ 新規ドラッグ候補（100%有効・100%新規）

② 動的アクション空間の鍵

ChEMBL由来の反応テンプレートライブラリを使用。各ステップで現在分子に適用可能なテンプレートのみを動的に選択：

State: s_t = ChemBERTa(M_t) ∈ R^768
Actions: A(M_t) = {τ_1,...,τ_Kt} (動的)
Policy: π(a_t|s_t) = softmax(q_t · e_i)
where q_t = PolicyNet(s_t)
e_i = ChemBERTa(next_mol_i)

固定サイズ不要 → アクション空間可変でも汎化可能なpolicy

③ 主要結果（6ターゲット）

Target	Valid	Novel	QED	SA
5-HT1B	100%	100%	0.292	3.43
5-HT2B	100%	100%	0.387	3.62
M2	100%	100%	0.259	2.66
DRD2	100%	100%	0.321	2.98
KOR	100%	100%	0.251	3.12
平均	100%	100%	0.307	3.15

④ 結合親和性の競争力

-11.3 kcal/mol

KOR最良候補（最高Vina score）

-10.7 kcal/mol

DRD2最良候補（既知阻害剤平均-7.75を大幅超）

RxnFlow (-8.85 avg), TacoGFN (-8.82 med) と競争力
全ターゲット平均 -9.13 〜 -10.4 kcal/mol

⑤ ターゲット非依存性の実現

既存RL創薬モデルが抱える問題：

ターゲット特異的fine-tuning → 新規ターゲットに対して再訓練必要

ReACT-Drugの解決策：

ESM-2埋め込みで類似既知ターゲットを検索
既知リガンドをフラグメントに分解して探索空間を初期化
PPOエージェントは汎用的な「変換戦略」を学習

⑥ 制限と今後の方向性

5エピソードのみ（資源制約） → 長訓練でさらに改善見込み
QED平均0.307は中程度 → 高親和性とdrug-likenessのトレードオフ
実験的検証（アッセイ）なし

Vinaをリワードとして毎ステップ呼び出す計算コストがスケーラビリティの懸念

⑦ ベンチマーク比較

Model	Avg Vina↓	Valid	Novel
RxnFlow	-8.85	—	—
TacoGFN	-8.82(med)	—	—
ReACT-Drug	-9.13〜-10.4	100%	100%

評価プロトコル差異に注意（ターゲット別 vs 集計統計）

⑧ テイクホームメッセージ

🎯 ターゲット特異的訓練不要
ESM-2類似タンパク質検索でフラグメント初期化。汎用PPOエージェントが任意の新規ターゲットに適応。再訓練コスト0。

✅ 100%有効性・100%新規性を保証
反応テンプレートガイド動的アクション空間により、化学的に無効な分子が生成されない設計。

💊 KOR -11.3 kcal/mol達成
DRD2では既知阻害剤平均を約3 kcal/mol上回る最良候補を生成。競争力ある結合親和性。

🔗 コード公開（GitHub）
github.com/YadunandanRaman/ReACT-Drug で実装公開済み。lib/molgenのRL最適化拡張に直接利用可能。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	UniDockRunnerをリワードとしたRL最適化ループ（JobManager統合）
lib/docking	ESM-2類似タンパク質検索による初期フラグメントプール自動構築
lib/molgen	反応テンプレート動的アクション空間による合成実現可能性保証

本研究のインパクト

ターゲット特異的fine-tuning不要の汎用RL創薬フレームワークを構築
反応テンプレートにより合成実現可能な分子のみを探索（100%有効性）
ESM-2 + ChemBERTa + PPOの統合アーキテクチャがlib/molgen拡張の参照実装に