ProtCross: Bridging the PDB-AlphaFold Gap for Binding Site Prediction with Protein Point Clouds
J. Chem. Inf. Model. 2026, 66, 3688-3701 | DOI: 10.1021/acs.jcim.5c03224 | Category: Machine Learning
PointNet++ x ESM-C x pLDDT 重み付き敵対的ドメイン適応で、PDB 学習モデルを AF2 構造へ橋渡し。AUC 0.88 を達成(PeSTo 0.74 超え)。
(1) 背景と課題: PDB-AF2 ドメインギャップ

AlphaFold2 (AF2) のおかげで、実験構造が無い標的にも構造ベース創薬が広がった。しかし PDB 実験ホロ構造で学習されたバインディングサイト予測器(PeSTo, ScanNet, P2Rank, DeepSite 等)を AF2 予測構造へ適用すると、AUC が 0.74-0.76 程度まで大きく落ち込む。

PeSTo は原子間距離に依存し、AF2 の側鎖充填誤差に脆弱。
P2Rank の openness 記述子は AF2 のコンパクトなアポ様パッキングで機能不全。
標準 DANN では低 pLDDT の無秩序領域 (IDR) がネガティブトランスファーを引き起こす。

→ AF2 の信頼度プロファイル (pLDDT) を陽に考慮した、ドメイン適応つき予測器が必要。

(2) 手法の概要: ProtCross
  • 残基 Calpha 点群でタンパク質を表現(並進・回転不変)
  • PointNet++ で階層的に局所-大域の幾何学特徴を抽出
  • ESM-C 残基埋め込みで進化・物理化学情報を補完
  • 勾配逆転層 (GRL) + pLDDT 重み付き DANN で PDB-AF2 をアライン
ProtCross アーキテクチャ Calpha 点群 配列 (ESM-C) pLDDT PointNet++ ESM-C 埋込 Fusion Site head Domain (GRL) pLDDT で重み付け(低信頼残基を減衰) PDB ホロ構造(ソース)- AF2 予測構造(ターゲット)を陽にアライン
(3) 本研究で示したこと
  • AF2 テストセットで AUC 0.88 ± 0.00、Max F1 0.3574 ± 0.0049 を達成
  • PeSTo (AUC 0.74)、P2Rank (0.76)、ScanNet、DeepSite を一貫して上回る
  • アブレーション: pLDDT 重み付けが性能寄与の主因
  • 標準 DANN ではネガティブトランスファーが発生することを実証
  • 点群表現は AF2 側鎖充填誤差に対する頑健性を獲得
0.88
AUC on AF2 test set
5316
PDBbind v2020 Refined 構造(MMseqs2 95% / cov 90%)
(4a) AF2 上での AUC 比較
AF2 構造でのバインディングサイト予測 AUC 0.5 0.6 0.7 0.8 0.9 AUC DeepSite ~0.70 ScanNet ~0.72 PeSTo 0.74 P2Rank 0.76 ProtCross 0.88

先行 4 手法を上回り、ギャップを大幅に縮める。

(4b) アブレーション: pLDDT 重みの寄与
DANN 構成 vs ProtCross(AUC) 0.65 0.70 0.75 0.80 0.85 ~0.74 Source-only ~0.78 + Vanilla DANN 0.88 + pLDDT 重み pLDDT 重み付けが最大寄与(ネガティブトランスファー回避)
(4c) 信頼度ゾーン別の挙動
残基 pLDDT と適応損失の重み 残基 pLDDT 適応損失重み 0 50 70 100 IDR / 低信頼 中信頼 高信頼コア w(res) ~ pLDDT → IDR の影響を抑え、コア領域でのみ分布をアライン
(4d) 主要メトリクス & 設定
項目
AF2 AUC0.88 ± 0.00
Max F1 (AF2)0.3574 ± 0.0049
PeSTo (AF2)AUC 0.74
P2Rank (AF2)AUC 0.76
訓練集合PDBbind v2020 Refined (5316)
クラスタリングMMseqs2 95% / cov 90%
幾何 EncoderPointNet++ (Calpha 点群)
配列 EncoderESM-C 残基埋め込み
適応戦略pLDDT 重み付き DANN (GRL)
Max F1 ≈ 0.36 — 絶対値はまだ改善余地。誘導適合・クリプティックポケット系で頭打ち。
(5) テイクホームメッセージ
点群 x 言語モデル の補完

Calpha 点群(並進・回転不変な幾何)と ESM-C 配列埋め込みは、AF2 構造の幾何ノイズを互いに補完する強力な組み合わせ。

pLDDT は適応の制御変数

残基ごとの pLDDT を DANN 損失の重みに使うだけで、IDR のネガティブトランスファーが抑制され AUC が大きく改善。

ベンチマーク超越

同一 AF2 テストで PeSTo・P2Rank・ScanNet・DeepSite を一貫して上回る。実務導入の論拠として強い。

残る難所はコンフォメーション

クリプティックポケット・誘導適合の強い系では Max F1 の頭打ちが残る。MD・ホロ生成との併用が次の論点。

応用補足: 計算化学パイプラインへの統合
  • lib/docking: UniDockRunner の前処理として ProtCross を組み込み、AF2 構造から信頼度の高いグリッドボックスを自動定義 → 偽陽性削減
  • lib/md: 低 pLDDT 領域を陽に扱う初期構造選定 / ポジショナル拘束に再利用
  • lib/molgen: AF2 標的での SBVS スコアラーに pLDDT 重みフィルタを追加
  • 孤児受容体・病原体タンパク質・新規ファミリーなど、ホロ実験構造が無い標的でこそ威力を発揮
インパクト
  • AF2 全プロテオーム時代における site-detection のデファクトを刷新する余地
  • pLDDT 重み付き DANN は他の構造タスク(界面・PTM・変異効果)にも波及可能
  • SBVS の前処理層として実装すれば、計算創薬パイプラインの実用精度を底上げ