TEMPL: Template-Based Protein–Ligand Pose Prediction Baseline
MCS + 拘束付き3D埋め込み + 形状アライメントによるリガンドベースポーズ予測(J. Chem. Inf. Model. 2025, Fülöp, Šícho & Dehaen)
🎯 学習不要・RDKitのみで動作するポーズ予測ベースライン。DL手法のデータ漏洩問題を定量化する基準として設計
① 背景と課題

タンパク質-リガンドポーズ予測はSBDDの中核課題であり、分子ドッキングが長年使われてきたが近年はDL手法(DiffDock・AlphaFold3等)が優勢。しかしPDBBind time-splitではトレーニングと類似したタンパク質・リガンドが混入しており、DL手法の高性能の一部がデータ漏洩に由来する可能性が指摘されている。

PDBBind time-split: 2019年以前/以降で分割するが高類似ペアが混在 → DL手法の精度が過大評価される恐れ
従来のtemplate-based dockingはタンパク質3D構造が必要 → アポ構造のみの系では使いにくい

→ MCSによるテンプレート効果だけを純粋に測るリガンドベースのベースラインを設計し、他手法評価の基準を提供

② TEMPL パイプライン
ESM2 配列埋め込み (1280次元)
↓ コサイン距離で類似タンパク質 Top-100 選択
↓ Biotite Cα RMSDスーパーポジション
↓ リガンド座標変換(アライン済みリガンド群)
↓ RascalMCES で最良テンプレート選択
↓ ETKDGv3 拘束付き3D埋め込み(200コンフォマー)
↓ ComboTanimoto (Shape+Color) でランキング → 最良ポーズ出力
③ 技術詳細
  • RascalMCES: edge-based MCS、rdFMCSより大幅高速
  • ETKDGv3: MCS原子座標を拘束マップに設定して埋め込み
  • Align3D (RDKit): ガウス体積近似のShapeTanimoto + ColorTanimoto
  • sPyRMSD: 対称補正RMSD(H・結合次数非依存)で評価
  • lDDT-PLI: タンパク質-リガンド接触保存スコア
200
デフォルトコンフォマー数(5でも概ね成立、性能はほぼ横ばい)
④ Polaris競技結果(SARS-CoV-2 / MERS-CoV MPro)
手法RMSD<2Å (%)lDDT-PLI
GLIDE / FRED (blind)〜21
AutoDock Vina〜30
TEMPL (最終版)75.40.838
AlphaFold3 / Chai等>75

※ Polaris は同一リガンドシリーズ(イソキノリン系 MPro 阻害剤)が豊富なため、テンプレート効果が特に有効

④ PDBBind time-split 結果
手法Test RMSD<2Å (%)
GLIDE blind21.8
EquiBind5.5
TEMPL22.1
DiffDock38.2
高リガンド+高タンパク類似では 67.3% 達成 → DL手法の高性能がデータ漏洩に起因することを示唆
④ PoseBusters 結果(困難系)
手法RMSD<2Å (%)
EquiBind2.0
TEMPL8.9
DiffDock38
AutoDock Vina60

TEMPLポーズの 66.7% が PoseBusters-invalid(主: タンパク質-リガンド原子衝突)。外挿性は本質的に低い。

⑤ 限界と注意点
インターポレーティブタスク特化 — 新規骨格・新規タンパク質では大きく性能低下
タンパク質ポケット非認識 — ステリッククラッシュが頻発(PoseBusters不適合率66.7%)
MCSが大きいほど計算コスト増大(多数のクエリ×参照の組合せ)
実用ポーズ予測ツールではなく、ベースライン評価・データ漏洩検出が主目的
⑥ テイクホームメッセージ
🧪 学習不要のシンプルさ
RDKitのみで動作。ESM2+Biotiteによる前処理さえ済めば、任意のタンパク質-リガンドに即適用可能。
🔍 データ漏洩の可視化
PDBBind time-splitで類似度依存の成功率曲線を示し、DL手法のベンチマーク解釈を刷新。
🏆 Polaris での健闘
同一リガンドシリーズのテンプレートが豊富な現実的シナリオでは従来ドッキングを大幅に上回る。
⚙️ パイプライン統合の容易さ
lib/docking の前処理ステップとして MCS テンプレート座標を初期ポーズに利用可能。
ケムインフォパイプライン適用先
適用先ユースケース
lib/dockingUniDock 初期ポーズ生成をMCSテンプレートで代替・補完
lib/dockingRascalMCES類似度フィルターで参照リガンドDB絞り込み
lib/mdテンプレートポーズをMD開始構造として使用
lib/fepFEP相対計算の初期ポーズとしてTEMPLポーズを活用

既知リガンドが多いターゲット(キナーゼ・プロテアーゼ等)で特に有効