DrugR: Optimizing Molecular Drugs through LLM-Based Explicit Reasoning
arXiv:2602.08213 | February 2026 (Preprint)
🎯 薬理学的根拠をステップバイステップで明示しながら複数ADMET特性を同時最適化するLLMフレームワーク DrugR を提案。「なぜその修飾か」を説明できる初の分子最適化手法。
① 背景と課題

LLMを活用した分子最適化手法(LMPO・MolReAct・RePO等)は性能向上に注力するが、「なぜその修飾が望ましいか」という薬理的根拠の提供は実現できていなかった。ADMET複数特性を同時に最適化しながら構造類似性と結合親和性を維持することも既存手法では困難だった。

既存LLM手法は最適化性能に注力し薬理的根拠(なぜ?)を提供できない
ADMET複数特性の同時最適化と構造類似性維持のトレードオフが未解決

→ 推論過程の明示化と逆データエンジニアリングによるSFT訓練データ生成で解決

② 手法の概要: ドメイン特化継続事前訓練

化学論文・PubChem・ADMETデータセットを混合したコーパスでベースLLMを継続訓練し、薬理化学知識を埋め込む。LoRA/QLoRAで計算コストを抑制しながら薬理的推論能力を獲得。

訓練データ構成:
化学文献 + PubChem + ADMETlab記録
→ LoRA/QLoRA継続事前訓練
② 手法の概要: 逆データエンジニアリング + マルチグラニュラーRL

既存最適化ペアからGPT-4等で推論チェーンを逆生成してSFT訓練データを作成(逆データエンジニアリング)。自己均衡型マルチグラニュラーRL:粗粒度(ADMET全体)と細粒度(官能基変化)の2レベル報酬を動的重み付けで学習。

自己均衡RL: w₁·R_coarse + w₂·R_fine
(w₁, w₂は学習で動的調整)
③ 本研究で示したこと(要点)
  • 薬理的根拠テキストを生成しながらADMET複数特性を同時改善
  • Tanimoto≥0.5の構造類似性を維持しながらHIA・BBB・毒性スコアを同時改善
  • 逆データエンジニアリングでSFT訓練データを効率的に拡充
  • 専門家評価で推論チェーンの薬理的説明精度が高評価。コード・モデル公開
④ 主な結果 (a) ADMET特性改善率比較
ADMET同時改善率 (%) — TDCベンチマーク GPT-4 SFT RL DrugR 42% 55% 62% 76%
④ 主な結果 (b) 構造類似性保持とADMET改善のトレードオフ
類似性 vs ADMET改善(散布図) Tanimoto 高類似 ADMET改善 DrugR Baseline
④ 主な結果 (c) 3段階訓練パイプライン効果
継続事前訓練
Step 1: 薬理化学知識の埋め込み(PubChem+ADMET+文献)
逆データエンジニアリングSFT
Step 2: GPT-4で推論チェーンを逆生成→SFT訓練
マルチグラニュラーRL
Step 3: 粗粒度+細粒度の自己均衡報酬で探索
④ 主な結果 (d) HIA / BBB / 毒性 同時改善
ADMET同時改善 成功率 (Tanimoto≥0.5) HIA 51% 73% BBB 46% 68% 毒性 54% 78% Baseline DrugR
⑤ テイクホームメッセージ
推論の透明性
「なぜその修飾か」を人間可読な薬理テキストで説明。ブラックボックス最適化の課題を解決
逆データエンジニアリング
既存最適化ペアからGPT-4で推論チェーンを逆生成。高品質SFT訓練データを低コストで大量生成
マルチグラニュラーRL
粗粒度・細粒度の2レベル報酬を自己均衡パラメータで動的調整。複数特性の同時改善を安定化
MolgenYaml統合候補
公開実装あり。ADMET最適化バックエンドとしてlib/molgenへの統合が優先候補。MMGBSAとの連携拡張も可
先行手法との比較
手法推論説明ADMET同時RL有無
GPT-4直接
LMPO
MolReAct
RePO
DrugR
本研究のインパクト
  • ADMET複数特性同時最適化の新SOTAを達成しながら薬理的説明を付与
  • 逆データエンジニアリングによるSFT訓練データ生成の汎用パラダイムを提示
  • MolgenYaml+MMGBSAEngine統合でADMET+結合親和性の同時最適化パイプライン実現可能