SMILES ベース特徴量(ECFP, RDKit Descriptors)は topological / geometrical 情報に限られ、共鳴・両性イオン・混成変化を伴う分子の電子状態を捉えきれない。先行 QM ML パッケージは特定 NN と密結合し、汎用 ML パイプラインに流し込みにくい。
→ QM 出力をフレームワーク非依存の汎用グラフへ抽出する標準ツールが必要
SMILES → 3D化 → 配座探索 → DFT最適化 → DLPNO-MP2 単点 → NBO/JANPA → グラフ生成。
ライセンス・リソースに応じて DFT〜QM の 4 種から選択。
約 4,000 結合の手動アノテーションから経験的閾値を導出し、WBO 値を single / aromatic / double / triple へ自動分類する。
SMILES では曖昧な共鳴・両性イオン構造の結合次数を物理的に一貫して扱える。
log P 等の回帰タスクで R² を比較
| 特徴量 | RF R² | MPNN R² |
|---|---|---|
| SMILES | ~0.4-0.5 | ~0.4-0.5 |
| graphpancake DFT | ~0.5-0.6 | SMILESより低 |
| graphpancake NPA/NBO/QM | ~0.7+ | ~0.7+ |
細胞毒性アッセイ SS02-SS03d(不均衡データ)
| データ | SMILES MPNN | graphpancake MPNN |
|---|---|---|
| SS02 | baseline | >SMILES |
| SS03a | baseline | >SMILES |
| SS03b | baseline | ≈ SMILES |
| SS03c-d | baseline | >SMILES |
回帰ほど明確な差はない(不均衡データの限界)
各グラフタイプで使える特徴量の組み合わせ
| グラフ | 追加データ源 |
|---|---|
| DFT | 座標 + 熱力学のみ |
| NPA | + JANPA(OSS) |
| NBO | + NBO 7.0(商用) |
| QM | DFT+NPA+NBO 全部 |
OSS パッケージ + CLI + SQLite 出力
SQLite → PyG/DGL → ML パイプラインまで直線的に流せる設計。
| 適用先 | ユースケース |
|---|---|
| lib/molgen | MolgenYamlスコアラーにQM-enriched特徴量を追加 |
| lib/docking | ProLIFCalculator + QM特徴量で拡張ヒット選別 |
| lib/fep | graphpancake-RF で粗ΔG予測 → MMGBSA 起動候補絞り |
少量社内データでも安定したQSARが得られ、生成ループの高速化に寄与