Physics Beats Diffusion: Agentic AI-Driven Virtual Screening Benchmark on a GPCR Target

DOI: 10.21203/rs.3.rs-9142847 Published: 2026年3月 (Research Square) Category: computational_chemistry Target: FPR2 (GPCR)

🎯 ゴール: LLMコーディングエージェントが高レベル指示のみで仮想スクリーニングベンチマークを自律設計・実行し、Uni-Dock(物理) vs DiffDock(拡散ML) をGPCR上で公平比較できるかを検証する。

1 背景と課題

近年、DiffDock などの拡散モデル系MLドッキングが注目されているが、GPCRのような薬剤標的での実用性は未確立。さらに、専門知のあるVSプロトコル設計（プロトン化・グリッド・デコイ生成等）はヒューマンボトルネックであり、再現性が低い。

物理ベース（Uni-Dock）と拡散モデル（DiffDock）のGPCR性能比較の体系的データが不足
VSプロトコル設計の標準化・再現性が課題
LLMエージェントが「科学的な意思決定」を含むパイプライン構築を自律遂行できるかは未検証

2 手法の概要

Claude Code（LLMエージェント）に高レベル指示のみを与え、データ収集→前処理→ドッキング→統計検定までを自律実装させた。

ChEMBL REST APIで FPR2 活性化合物 1,000件 (pChEMBL ≥ 5) を取得
DECOYSFINDER で性質マッチドデコイ約10,000件を生成
2プロトコル: naive(デフォルト) / expert-guided(pH7.4プロトン化・グリッド最適化・塩除去)
Uni-Dock と DiffDock の両方で各プロトコルを実行
評価: ROC AUC, BEDROC (α=20), EF1%/5%, DeLong検定, ペアブートストラップ, 結晶リガンド再ドッキングRMSD

3 本研究で示したこと

FPR2 GPCR において、物理ベースドッキング（Uni-Dock）が拡散モデル（DiffDock）を統計的に有意に上回ることを、LLMエージェントが自律設計したベンチマークで初めて定量化。Uni-Dockは ROC AUC 0.70–0.73 に達し、DiffDockは AUC 0.54–0.56 でほぼランダム識別。エキスパートガイド設定はnaive設定よりUni-Dock AUCを +0.020 改善（DeLong p=0.003）。再ドッキングRMSDではUni-Dock crystal mode 0.22–0.39Å に対し DiffDock は 23–29Å と大きく劣化、GPCRが拡散モデルの訓練データで過小代表されることが示唆された。

4 主な結果

(a) ROC AUC: Uni-Dock vs DiffDock

物理ベースのUni-Dockが優位。DiffDockは両プロトコルともランダムに近い (AUC ≈ 0.5)。

(b) 再ドッキング RMSD (Å, log)

DiffDockのRMSDは結晶ポーズから 23–29Å と大きく外れる。GPCR訓練データ不足の影響。

(c) Expert設定の効果

pH7.4プロトン化・グリッド最適化・塩除去などの専門前処理で AUC が統計的有意に向上。

(d) エージェント自律ワークフロー

エージェントが7段階すべて（データ取得→前処理→2手法ドッキング→統計検定）を自律実装。

5 テイクホームメッセージ

① 物理 > 拡散ML（GPCR）。 FPR2では Uni-Dock AUC 0.73 に対して DiffDock は AUC 0.54–0.56。GPCRが訓練データに過小代表な拡散モデルは、現時点で本番VSには不向き。

② Expertプロトコルは効く。 pH7.4プロトン化・グリッド最適化など専門処置で +0.020 AUC (p=0.003)。VSパイプライン標準化の重要性を示す。

③ LLMエージェントが自律VSを実現。 高レベル指示のみで Claude Code がデータ取得→検定までの全工程を実装。再現性の高いベンチマーク基盤として今後のVS手法評価に転用可能。