MolOrgGPT: De Novo Generation via LLMs and RL

MolOrgGPT: De Novo Generation via Large Language Models and Reinforcement Learning

J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02400

GPT型LLMの事前学習＋PPOによるドッキング報酬RLで、AChE/BACE1向けの薬物様分子をde novo生成するフレームワーク

① 背景と課題

de novo分子生成において、RNN系REINVENTやトランスフォーマー単体のMolGPTは、長距離の構造的依存関係（環システム・立体化学）の取り扱いと、標的特異的な最適化を両立しにくい。アルツハイマー病関連タンパク質（AChE、BACE1）に向けた薬物様候補をデータ駆動で網羅探索する手段が求められている。

REINVENT(RNN+RL): 長距離依存の表現が弱く複雑骨格生成に難

MolGPT単体: 生成のみで標的特異的最適化のループが無い

→ GPT規模の事前学習で広い化学空間を獲得しつつ、PPOでドッキング報酬を最大化する統合フレームワークを提案。

② MolOrgGPTのパイプライン

③ 本研究で示したこと

GPT事前学習によりZINC/ChEMBL分布の広い化学空間を獲得
PPO報酬設計で dock × QED × diversity の3軸を同時最適化
AChE / BACE1標的でドッキングスコア < -9 kcal/mol級の比率が増加
上位候補で活性サイトとの水素結合・疎水性相互作用を確認
RL後も薬物様性 (QED) と合成容易性 (SA score) を維持

④ (a) RL前後のドッキングスコア分布

④ (b) 報酬3軸の評価指標

④ (c) 標的タンパク質と上位候補

標的	疾患	RL後上位スコア	結合モード
AChE	AD (神経伝達)	< -9 kcal/mol	活性サイトに H-bond + 疎水
BACE1	AD (Aβ生成)	< -9 kcal/mol	触媒Aspと相互作用
その他AD関連	—	有望候補多数	サイト依存

PPO + dock報酬

REINVENT/MolGPT単体に対する差別化要素

④ (d) 活性サイト相互作用マップ

⑤ テイクホームメッセージ

GPT × PPO の融合
自己回帰型LLMの広い事前分布と、強化学習による標的特異的最適化を1パイプラインで両立。

3軸報酬設計の実用性
dock_score + QED − Tanimotoペナルティで、活性 / 薬物様性 / 多様性を同時に押し上げる。

AD標的での具体例提示
AChE / BACE1で −9 kcal/mol級候補が増加し、活性サイト相互作用を再現する候補が得られた。

残された宿題: ウェット検証
実験的活性確認はなく、ZINC/ChEMBL分布への過適合と他適応症への汎化が今後の検証対象。

lib/molgen への応用補足

JobManager の生成バックエンドとして GPT-LLM を選択肢化
MolgenYaml の reward に dock + QED − diversity を YAML 化
UniDockRunner / DockFEP をRLループの報酬計算サーバとして再利用
標的差し替えで KRAS / GPCR 等への汎用パイプラインへ拡張可能

インパクト

de novo生成 × ドッキング報酬RLの実装テンプレートを提供
AD創薬で in silico ヒット集団の質を大きく押し上げる可能性
ライブラリの molgen / docking / fep を結ぶ統合実装の基盤候補