graphpancake: QM-Enriched Molecular Graphs for Cheminformatics
DFT/NBO/JANPAの量子化学特徴量を分子グラフへ統合するOSS Python パッケージ(Sil, Maskeri, Scheidt, ChemRxiv 2025)
🎯 化学的「直感」とML特徴量を統合し、小データ QSAR 回帰で R² を 0.3〜0.5 押し上げる
① 背景と課題

SMILES ベース特徴量(ECFP, RDKit Descriptors)は topological / geometrical 情報に限られ、共鳴・両性イオン・混成変化を伴う分子の電子状態を捉えきれない。先行 QM ML パッケージは特定 NN と密結合し、汎用 ML パイプラインに流し込みにくい。

SMILES特徴量:原子部分電荷・結合次数・軌道占有率を反映できない
先行 QM-NN:RF / XGBoost 等の古典 ML に直接渡せない密結合設計

→ QM 出力をフレームワーク非依存の汎用グラフへ抽出する標準ツールが必要

② 手法: 計算ワークフロー

SMILES → 3D化 → 配座探索 → DFT最適化 → DLPNO-MP2 単点 → NBO/JANPA → グラフ生成。

SMILES → OpenBabel/RDKit
↓ GFN2-xTB (ORCA GOAT)
↓ r²SCAN-3c 最適化 + Freq
↓ DLPNO-MP2/def2-TZVPP SP
↓ NBO 7.0 + JANPA

4階層グラフ(DFT/NPA/NBO/QM)→ SQLite

ライセンス・リソースに応じて DFT〜QM の 4 種から選択。

② 手法: WBO ベース結合次数分類

約 4,000 結合の手動アノテーションから経験的閾値を導出し、WBO 値を single / aromatic / double / triple へ自動分類する。

~4,000 bonds
手動ラベル付き WBO データセット(CC-BY 公開)

SMILES では曖昧な共鳴・両性イオン構造の結合次数を物理的に一貫して扱える。

③ 本研究で示したこと
  • QM特徴量がSMILES由来特徴量よりR² 0.3〜0.5 高く、log P 等の回帰で優位
  • RF(HP最適化なし)でR² > 0.7 を達成、低コスト QSAR が可能
  • 4階層グラフ(DFT/NPA/NBO/QM)でリソース・ライセンスに応じた柔軟性
  • WBO閾値テーブル + JANPA 特徴量を MIT ライセンスで完全公開
④ 主要結果 (a) 回帰 R² 比較

log P 等の回帰タスクで R² を比較

特徴量RF R²MPNN R²
SMILES~0.4-0.5~0.4-0.5
graphpancake DFT~0.5-0.6SMILESより低
graphpancake NPA/NBO/QM~0.7+~0.7+
④ 主要結果 (b) 分類 AU-PRC 比較

細胞毒性アッセイ SS02-SS03d(不均衡データ)

データSMILES MPNNgraphpancake MPNN
SS02baseline>SMILES
SS03abaseline>SMILES
SS03bbaseline≈ SMILES
SS03c-dbaseline>SMILES

回帰ほど明確な差はない(不均衡データの限界)

④ 主要結果 (c) 4 階層グラフの特徴数

各グラフタイプで使える特徴量の組み合わせ

グラフ追加データ源
DFT座標 + 熱力学のみ
NPA+ JANPA(OSS)
NBO+ NBO 7.0(商用)
QMDFT+NPA+NBO 全部
④ 主要結果 (d) 公開・統合容易性

OSS パッケージ + CLI + SQLite 出力

MIT
MolSSI Cookiecutter 構成 / GitHub 公開

SQLite → PyG/DGL → ML パイプラインまで直線的に流せる設計。

⑤ テイクホームメッセージ
⚛️ QMが小データを救う
< 5000件規模のQSARでQM特徴量が際立った優位を示す。R² が +0.3〜+0.5 上昇。
🔌 古典MLにも直接接続
RF(HP最適化なし)でR² > 0.7。SQLite経由でPyG/DGLにも直線統合可能。
🔬 WBO 閾値が独立して有用
~4000 結合の手動ラベルから導出した閾値テーブルが、他パッケージでも流用可能。
🆓 MITライセンスで即利用可
NBO 7.0 を持たないユーザーも JANPA 経由の NPA グラフで十分な性能を得られる。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenMolgenYamlスコアラーにQM-enriched特徴量を追加
lib/dockingProLIFCalculator + QM特徴量で拡張ヒット選別
lib/fepgraphpancake-RF で粗ΔG予測 → MMGBSA 起動候補絞り

少量社内データでも安定したQSARが得られ、生成ループの高速化に寄与

本研究のインパクト
  • 「化学的直感」と ML 特徴量の体系的な統合フレームワーク
  • OSS QM 解析(JANPA)でも実用十分な性能を実証
  • 小データ域 QSAR の標準ツールキットへの登竜門