ReACT-Drug: Reaction-Template Guided Reinforcement Learning for de novo Drug Design
ESM-2類似タンパク質検索 + ChemBERTa状態表現 + 反応テンプレート動的アクション空間でターゲット非依存型ドラッグデザイン(arXiv:2512.20958, Yadunandan & Ghosh, 2025)
🎯 ターゲット特異的訓練不要。6ターゲットで有効性・新規性100%達成。KOR最良候補 -11.3 kcal/mol
① パイプライン全体設計
ターゲットタンパク質配列
↓ ESM-2埋め込み → PDB類似タンパク質検索(コサイン類似度)
↓ 類似タンパク質の既知リガンドを分解 → フラグメントプール構築
↓ フラグメントをPPO初期分子M₀として選択
↓ PPO(15ステップ): ChemBERTa状態 × 反応テンプレートアクション
↓ リワード = Vina(×1.0) + QED(×0.1) - SA(×0.1) + 新規性(×0.35)
↓ 新規ドラッグ候補(100%有効・100%新規)
② 動的アクション空間の鍵

ChEMBL由来の反応テンプレートライブラリを使用。各ステップで現在分子に適用可能なテンプレートのみを動的に選択:

State: s_t = ChemBERTa(M_t) ∈ R^768
Actions: A(M_t) = {τ_1,...,τ_Kt} (動的)
Policy: π(a_t|s_t) = softmax(q_t · e_i)
where q_t = PolicyNet(s_t)
e_i = ChemBERTa(next_mol_i)
固定サイズ不要 → アクション空間可変でも汎化可能なpolicy
③ 主要結果(6ターゲット)
TargetValidNovelQEDSA
5-HT1B100%100%0.2923.43
5-HT2B100%100%0.3873.62
M2100%100%0.2592.66
DRD2100%100%0.3212.98
KOR100%100%0.2513.12
平均100%100%0.3073.15
④ 結合親和性の競争力
-11.3 kcal/mol
KOR最良候補(最高Vina score)
-10.7 kcal/mol
DRD2最良候補(既知阻害剤平均-7.75を大幅超)
  • RxnFlow (-8.85 avg), TacoGFN (-8.82 med) と競争力
  • 全ターゲット平均 -9.13 〜 -10.4 kcal/mol
⑤ ターゲット非依存性の実現

既存RL創薬モデルが抱える問題:

ターゲット特異的fine-tuning → 新規ターゲットに対して再訓練必要

ReACT-Drugの解決策:

  • ESM-2埋め込みで類似既知ターゲットを検索
  • 既知リガンドをフラグメントに分解して探索空間を初期化
  • PPOエージェントは汎用的な「変換戦略」を学習
⑥ 制限と今後の方向性
  • 5エピソードのみ(資源制約) → 長訓練でさらに改善見込み
  • QED平均0.307は中程度 → 高親和性とdrug-likenessのトレードオフ
  • 実験的検証(アッセイ)なし
Vinaをリワードとして毎ステップ呼び出す計算コストがスケーラビリティの懸念
⑦ ベンチマーク比較
ModelAvg Vina↓ValidNovel
RxnFlow-8.85
TacoGFN-8.82(med)
ReACT-Drug-9.13〜-10.4100%100%

評価プロトコル差異に注意(ターゲット別 vs 集計統計)

⑧ テイクホームメッセージ
🎯 ターゲット特異的訓練不要
ESM-2類似タンパク質検索でフラグメント初期化。汎用PPOエージェントが任意の新規ターゲットに適応。再訓練コスト0。
100%有効性・100%新規性を保証
反応テンプレートガイド動的アクション空間により、化学的に無効な分子が生成されない設計。
💊 KOR -11.3 kcal/mol達成
DRD2では既知阻害剤平均を約3 kcal/mol上回る最良候補を生成。競争力ある結合親和性。
🔗 コード公開(GitHub)
github.com/YadunandanRaman/ReACT-Drug で実装公開済み。lib/molgenのRL最適化拡張に直接利用可能。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenUniDockRunnerをリワードとしたRL最適化ループ(JobManager統合)
lib/dockingESM-2類似タンパク質検索による初期フラグメントプール自動構築
lib/molgen反応テンプレート動的アクション空間による合成実現可能性保証
本研究のインパクト
  • ターゲット特異的fine-tuning不要の汎用RL創薬フレームワークを構築
  • 反応テンプレートにより合成実現可能な分子のみを探索(100%有効性)
  • ESM-2 + ChemBERTa + PPOの統合アーキテクチャがlib/molgen拡張の参照実装に