MolOrgGPT: De Novo Generation via Large Language Models and Reinforcement Learning
J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02400
GPT型LLMの事前学習+PPOによるドッキング報酬RLで、AChE/BACE1向けの薬物様分子をde novo生成するフレームワーク
① 背景と課題

de novo分子生成において、RNN系REINVENTやトランスフォーマー単体のMolGPTは、長距離の構造的依存関係(環システム・立体化学)の取り扱いと、標的特異的な最適化を両立しにくい。アルツハイマー病関連タンパク質(AChE、BACE1)に向けた薬物様候補をデータ駆動で網羅探索する手段が求められている。

REINVENT(RNN+RL): 長距離依存の表現が弱く複雑骨格生成に難
MolGPT単体: 生成のみで標的特異的最適化のループが無い

→ GPT規模の事前学習で広い化学空間を獲得しつつ、PPOでドッキング報酬を最大化する統合フレームワークを提案。

② MolOrgGPTのパイプライン
Pre-train → RL fine-tune → Dock ZINC + ChEMBL 数百万 SMILES GPT pre-train 自己回帰SMILES PPO RL target dock報酬 Reward = dock_score + QED_bonus − diversity_penalty (Tanimoto類似度で多様性ペナルティ) AutoDock Vina系 対 AChE / BACE1 候補分子セット 結合モード解析 PPOで生成→ドッキング→報酬ループ
③ 本研究で示したこと
  • GPT事前学習によりZINC/ChEMBL分布の広い化学空間を獲得
  • PPO報酬設計で dock × QED × diversity の3軸を同時最適化
  • AChE / BACE1標的でドッキングスコア < -9 kcal/mol級の比率が増加
  • 上位候補で活性サイトとの水素結合・疎水性相互作用を確認
  • RL後も薬物様性 (QED) と合成容易性 (SA score) を維持
④ (a) RL前後のドッキングスコア分布
Docking score 分布シフト (kcal/mol) -5 -7 -9 -11 -13 Docking score density -9 kcal/mol閾値 pre-RL (pretrain only) post-RL (PPO fine-tuned) 高活性側へ分布シフト
④ (b) 報酬3軸の評価指標
RL後の生成集合: dock × QED × SA dock<-9 高活性比率↑ QED 薬物様性維持 SA score 合成容易性OK diversity Tanimoto罰則
④ (c) 標的タンパク質と上位候補
標的疾患RL後上位スコア結合モード
AChEAD (神経伝達)< -9 kcal/mol活性サイトに H-bond + 疎水
BACE1AD (Aβ生成)< -9 kcal/mol触媒Aspと相互作用
その他AD関連有望候補多数サイト依存
PPO + dock報酬
REINVENT/MolGPT単体に対する差別化要素
④ (d) 活性サイト相互作用マップ
上位候補のドッキング相互作用 活性サイト (AChE/BACE1) Lig Ser His Trp Phe H-bond 疎水性接触 in silicoのみ (実験未)
⑤ テイクホームメッセージ
GPT × PPO の融合
自己回帰型LLMの広い事前分布と、強化学習による標的特異的最適化を1パイプラインで両立。
3軸報酬設計の実用性
dock_score + QED − Tanimotoペナルティ で、活性 / 薬物様性 / 多様性を同時に押し上げる。
AD標的での具体例提示
AChE / BACE1で −9 kcal/mol級候補が増加し、活性サイト相互作用を再現する候補が得られた。
残された宿題: ウェット検証
実験的活性確認はなく、ZINC/ChEMBL分布への過適合と他適応症への汎化が今後の検証対象。
lib/molgen への応用補足
  • JobManager の生成バックエンドとして GPT-LLM を選択肢化
  • MolgenYaml の reward に dock + QED − diversity を YAML 化
  • UniDockRunner / DockFEP をRLループの報酬計算サーバとして再利用
  • 標的差し替えで KRAS / GPCR 等への汎用パイプラインへ拡張可能
インパクト
  • de novo生成 × ドッキング報酬RLの実装テンプレートを提供
  • AD創薬で in silico ヒット集団の質を大きく押し上げる可能性
  • ライブラリの molgen / docking / fep を結ぶ統合実装の基盤候補