DrugR: Optimizing Molecular Drugs through LLM-Based Explicit Reasoning

arXiv:2602.08213 | February 2026 (Preprint)

🎯 薬理学的根拠をステップバイステップで明示しながら複数ADMET特性を同時最適化するLLMフレームワーク DrugR を提案。「なぜその修飾か」を説明できる初の分子最適化手法。

① 背景と課題

LLMを活用した分子最適化手法（LMPO・MolReAct・RePO等）は性能向上に注力するが、「なぜその修飾が望ましいか」という薬理的根拠の提供は実現できていなかった。ADMET複数特性を同時に最適化しながら構造類似性と結合親和性を維持することも既存手法では困難だった。

既存LLM手法は最適化性能に注力し薬理的根拠（なぜ？）を提供できない

ADMET複数特性の同時最適化と構造類似性維持のトレードオフが未解決

→ 推論過程の明示化と逆データエンジニアリングによるSFT訓練データ生成で解決

② 手法の概要: ドメイン特化継続事前訓練

化学論文・PubChem・ADMETデータセットを混合したコーパスでベースLLMを継続訓練し、薬理化学知識を埋め込む。LoRA/QLoRAで計算コストを抑制しながら薬理的推論能力を獲得。

訓練データ構成:
化学文献 + PubChem + ADMETlab記録
→ LoRA/QLoRA継続事前訓練

② 手法の概要: 逆データエンジニアリング + マルチグラニュラーRL

既存最適化ペアからGPT-4等で推論チェーンを逆生成してSFT訓練データを作成（逆データエンジニアリング）。自己均衡型マルチグラニュラーRL：粗粒度（ADMET全体）と細粒度（官能基変化）の2レベル報酬を動的重み付けで学習。

自己均衡RL: w₁·R_coarse + w₂·R_fine
（w₁, w₂は学習で動的調整）

③ 本研究で示したこと（要点）

④ 主な結果 (a) ADMET特性改善率比較

④ 主な結果 (b) 構造類似性保持とADMET改善のトレードオフ

④ 主な結果 (c) 3段階訓練パイプライン効果

継続事前訓練

Step 1: 薬理化学知識の埋め込み（PubChem+ADMET+文献）

↓

逆データエンジニアリングSFT

Step 2: GPT-4で推論チェーンを逆生成→SFT訓練

↓

マルチグラニュラーRL

Step 3: 粗粒度+細粒度の自己均衡報酬で探索

④ 主な結果 (d) HIA / BBB / 毒性同時改善

⑤ テイクホームメッセージ

推論の透明性
「なぜその修飾か」を人間可読な薬理テキストで説明。ブラックボックス最適化の課題を解決

逆データエンジニアリング
既存最適化ペアからGPT-4で推論チェーンを逆生成。高品質SFT訓練データを低コストで大量生成

マルチグラニュラーRL
粗粒度・細粒度の2レベル報酬を自己均衡パラメータで動的調整。複数特性の同時改善を安定化

MolgenYaml統合候補
公開実装あり。ADMET最適化バックエンドとしてlib/molgenへの統合が優先候補。MMGBSAとの連携拡張も可

先行手法との比較

手法	推論説明	ADMET同時	RL有無
GPT-4直接	✗	△	✗
LMPO	✗	△	○
MolReAct	△	△	✗
RePO	△	△	○
DrugR	✓	✓	✓

本研究のインパクト