Physics Beats Diffusion: Agentic AI-Driven Virtual Screening Benchmark on a GPCR Target

DOI: 10.21203/rs.3.rs-9142847 Published: 2026年3月 (Research Square) Category: computational_chemistry Target: FPR2 (GPCR)
🎯 ゴール: LLMコーディングエージェントが高レベル指示のみで仮想スクリーニングベンチマークを自律設計・実行し、Uni-Dock(物理) vs DiffDock(拡散ML) をGPCR上で公平比較できるかを検証する。

1 背景と課題

近年、DiffDock などの拡散モデル系MLドッキングが注目されているが、GPCRのような薬剤標的での実用性は未確立。さらに、専門知のあるVSプロトコル設計(プロトン化・グリッド・デコイ生成等)はヒューマンボトルネックであり、再現性が低い。

  • 物理ベース(Uni-Dock)と拡散モデル(DiffDock)のGPCR性能比較の体系的データが不足
  • VSプロトコル設計の標準化・再現性が課題
  • LLMエージェントが「科学的な意思決定」を含むパイプライン構築を自律遂行できるかは未検証

2 手法の概要

Claude Code(LLMエージェント)に高レベル指示のみを与え、データ収集→前処理→ドッキング→統計検定までを自律実装させた。

  • ChEMBL REST APIで FPR2 活性化合物 1,000件 (pChEMBL ≥ 5) を取得
  • DECOYSFINDER で性質マッチドデコイ 約10,000件を生成
  • 2プロトコル: naive(デフォルト) / expert-guided(pH7.4プロトン化・グリッド最適化・塩除去)
  • Uni-Dock と DiffDock の両方で各プロトコルを実行
  • 評価: ROC AUC, BEDROC (α=20), EF1%/5%, DeLong検定, ペアブートストラップ, 結晶リガンド再ドッキングRMSD

3 本研究で示したこと

FPR2 GPCR において、物理ベースドッキング(Uni-Dock)が拡散モデル(DiffDock)を統計的に有意に上回ることを、LLMエージェントが自律設計したベンチマークで初めて定量化。Uni-Dockは ROC AUC 0.70–0.73 に達し、DiffDockは AUC 0.54–0.56 でほぼランダム識別。エキスパートガイド設定はnaive設定よりUni-Dock AUCを +0.020 改善(DeLong p=0.003)。再ドッキングRMSDではUni-Dock crystal mode 0.22–0.39Å に対し DiffDock は 23–29Å と大きく劣化、GPCRが拡散モデルの訓練データで過小代表されることが示唆された。

4 主な結果

(a) ROC AUC: Uni-Dock vs DiffDock

0.5 0.7 0.9 ROC AUC random=0.5 0.71 Uni naive 0.73 Uni expert 0.54 Diff naive 0.56 Diff expert FPR2 retrospective screening (1k actives + 10k decoys)
物理ベースのUni-Dockが優位。DiffDockは両プロトコルともランダムに近い (AUC ≈ 0.5)。

(b) 再ドッキング RMSD (Å, log)

0.1 1 10 100 RMSD (Å) 2Å (good pose) 0.3 Vina crystal 5.5 Uni-Dock batch 26 DiffDock GPCR
DiffDockのRMSDは結晶ポーズから 23–29Å と大きく外れる。GPCR訓練データ不足の影響。

(c) Expert設定の効果

Uni-Dock: naive → expert 0.71 naive AUC +0.020 0.73 expert AUC DeLong p = 0.003 (有意)
pH7.4プロトン化・グリッド最適化・塩除去などの専門前処理で AUC が統計的有意に向上。

(d) エージェント自律ワークフロー

Claude Code (LLM agent) ChEMBL API 1k actives FPR2 DECOYSFINDER 10k decoys 2 protocols naive / expert Uni-Dock 物理ベース DiffDock 拡散モデルML ROC AUC, BEDROC, EF, DeLong, Bootstrap + 結晶ポーズ再ドッキングRMSD
エージェントが7段階すべて(データ取得→前処理→2手法ドッキング→統計検定)を自律実装。

5 テイクホームメッセージ

① 物理 > 拡散ML(GPCR)。 FPR2では Uni-Dock AUC 0.73 に対して DiffDock は AUC 0.54–0.56。GPCRが訓練データに過小代表な拡散モデルは、現時点で本番VSには不向き。
② Expertプロトコルは効く。 pH7.4プロトン化・グリッド最適化など専門処置で +0.020 AUC (p=0.003)。VSパイプライン標準化の重要性を示す。
③ LLMエージェントが自律VSを実現。 高レベル指示のみで Claude Code がデータ取得→検定までの全工程を実装。再現性の高いベンチマーク基盤として今後のVS手法評価に転用可能。