A QM-AI Approach for Accurate Assessments of Halogen-π Interactions by Neural Networks
Engelhardt, Mier, Zimmermann, Boeckler — J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c02136
🎯 MP2/TZVPP量子化学計算で生成した139万点データでNNを訓練し、CCSD(T)精度(R²=0.998, RMSE=0.16 kJ/mol)をMP2比 10⁸ 倍 の速度で達成
① 背景と課題

ハロゲン-π相互作用はPhe/Tyr/His/Trp残基とハロゲン化リガンドの間で生じる重要な非共有結合性相互作用だが、既存ドッキングスコアリング関数では軽視されている。高精度な量子化学評価は計算コストが高く、大規模スクリーニングに不適。

CCSD(T)/CBS: 最高精度だが計算コストO(N⁷)、数十点の計算でも数日かかる
既存ドッキング関数: halogen···π相互作用のσ穴特性を考慮したスコアラーが存在しない
先行ML研究(Shaw/Devore): 精度±2.1 kJ/mol程度、学習データが数百点と少量

→ CCSD(T)→MP2→NNの「二段ジャンプ」でCCSD(T)精度を継承しながら10¹⁰倍の速度向上を実現し、PLANTSドッキングへの統合を目指す

σ穴相互作用の仕組み
X σ穴 (+δ) −δ帯 C−X 結合 σ穴がπに向く σ穴方向がπ-systemへ向く → 安定化
② 手法の概要: データ生成
ハロゲン-π相互作用ジオメトリ(モデル系) π-system (benzene / Phe) halobenzene X (Cl/Br/I) d X···π-plane ⊥(π-plane) α 訓練ジオメトリ制約 d: 2.75〜4.50 Å α: 0〜40° σ穴相互作用に特化
② 手法の概要: 二段ジャンプ戦略
計算速度と精度のトレードオフ(二段ジャンプ) CCSD(T)/CBS 最高精度・最遅 ~10² × MP2/TZVPP ≈CCSD(T)精度 | ~10² 倍速 ~10⁸ × NN (本手法) ≈MP2精度 | ~10⁸ 倍速 合計速度向上: CCSD(T)比 ~10¹⁰ 倍 CCSD(T)精度を継承しながら超高速化を実現
③ 本研究で示したこと
  • MP2/TZVPP 139万点の計算でNNを訓練、CCSD(T)精度に近い R²=0.9979・RMSE=0.16 kJ/mol を達成
  • MP2比 ~10⁸倍の速度向上、CCSD(T)からは ~10¹⁰倍の加速
  • PDB 239,149構造をスキャン、1,112タンパク質-リガンド実複合体で予測検証
  • Mahalanobis距離で適用域外(格子外ジオメトリ)を定量的に検出
139.7万点
MP2/TZVPP (TURBOMOLE) 単点計算 — Cl/Br/I × 3種 × 格子ジオメトリ
④ 主な結果 (a) 算出 vs 予測 エネルギー散布図
算出エネルギー vs 予測エネルギー(テストセット) 算出エネルギー [kJ/mol] 予測エネルギー [kJ/mol] -20 -10 8 R² = 0.9979 RMSE = 0.159 kJ/mol Cl Br I

テストセット(27.9万点)。赤破線=完全相関。各点はCl(緑)/Br(赤)/I(紫)別に色分け。格子内ジオメトリでは95%以上が±0.5 kJ/mol以内。

④ 主な結果 (b) 精度サマリー
評価セットRMSE [kJ/mol]
検証セット(格子内)0.99790.158
テストセット(格子内)0.99790.159
ランダム(格子外含む)0.8561.33
PDB実構造 (1,112件)安定(外れ値わずか)
格子外ジオメトリでの誤差分布 誤差 [kJ/mol] −1 0 +1 外れ 95%が±0.5内
④ 主な結果 (c) PDB スキャン
PDB ハロゲン···PHE 相互作用統計 239,149 PDB 構造をスキャン 9,810 構造 (4.1%) ハロゲン含有 10,174 halogen···PHE 接触 1,114 σ穴相互作用 (フィルター後) 1,112 件で NN 予測 ハロゲン内訳(σ穴相互作用) Cl: 806件 (72%) Br: 198 I: 110
④ 主な結果 (d) 適用域外解析

格子外ジオメトリでのMahalanobis距離(MD)と予測誤差の関係:

MD高 → 予測誤差が大きい Mahalanobis距離 → |ΔΔE| 低MD(格子内) 中MD 高MD(格子外)

格子外ジオメトリ(dX < 2.75Å, α > 40°)では最大±27 kJ/mol の誤差。MDによる適用域チェックが必須。

⑤ テイクホームメッセージ
10⁸倍の速度向上
MP2に対して10⁸倍、CCSD(T)からは10¹⁰倍の高速化。大規模ドッキングスクリーニングへの統合が現実的に。
🎯 σ穴特化の精度
格子設計でσ穴相互作用に特化。R²=0.9979・RMSE=0.16 kJ/molはCCSD(T)参照値の精度階層を維持。
🔬 PDB 1112件で実証
239,149 PDB構造をスキャンし実タンパク質-リガンド複合体のhalogen···PHE相互作用で有用性を確認。
⚠️ 適用域管理が重要
Mahalanobis距離で格子外ジオメトリを検出・除外する実装が実用化の鍵。π···π混入ジオメトリに注意。
ケムインフォマティクスパイプラインへの適用
適用先モジュールユースケース
lib/dockingハロゲン含有リガンドのPHE/TYR/TRPとのσ穴スコアリング補助
lib/dockingUniDockRunnerのポストフィルター: NN予測で有利な halogen···π 接触確認
lib/molgenハロゲン置換提案時のσ穴相互作用強度迅速評価

実装: (d_X···π, α)幾何特徴 → NN推論(~μs/接触)→ エネルギーランキング。TURBOMOLEは不要。

本研究のインパクト
  • ドッキングで軽視されるhalogen···π相互作用を定量的にスコアリングする基盤技術
  • QM-AI戦略: CCSD(T)→MP2→NNの「二段ジャンプ」で精度と速度を両立
  • 1,112 PDB実構造での検証で即時の創薬応用可能性を実証(PLANTSへの統合計画中)