KROVEX: Multimodal Graph Fusion with Statistically Guided Parsimonious Descriptor Selection
J. Cheminformatics 2026, 18:18 — Jang, Lee, Jeong, Kim (Inha Univ.) | DOI: 10.1186/s13321-025-01140-y
🎯 GCN埋め込み × 統計選択記述子のKronecker積融合で二次クロスモーダル相互作用を明示的にモデル化
① 背景と課題

GCNは分子グラフの局所的なメッセージパッシングにより分子を表現するが、浅い層構造ではグローバルな物理化学特性(溶解度・蒸気圧等)を捉えにくい。既存の融合手法(EGCN等)は分子記述子を単純に連結するのみで、クロスモーダルの相互作用項を表現できない。

単純連結はbilinear形式 h_G⊤Wz を原理的に表現不可能(Proposition 1 で数学的証明)
全記述子使用(200+)は過学習・多重共線性を招き、事前固定(3つ)は情報損失

→ Kronecker積融合 + ISIS + Elastic Net による「数学的に正当化されたマルチモーダル融合」を提案

② 手法: KROVEX アーキテクチャ
SMILES → 分子グラフ
↓ GCN 2層 + 全ノード平均 → h_G ∈ ℝd
↓ RDKit 208記述子 → ISIS → EN → z ∈ ℝk
φ = h_G ⊗ z ∈ ℝdk (Kronecker積)
↓ FNN → 予測値 ŷ
h_G ⊗ z
次数2多項式カーネル(クロス項のみ)と数学的に等価
② 手法: ISIS + Elastic Net 選択
記述子選択パイプライン RDKit 208 記述子 ISIS 次元削減 Elastic Net L1+L2 CV 208 → p → k (k ≪ 208) 固定3記述子 (EGCN) KROVEX 最適 k 全記述子
③ 理論的保証
  • Proposition 1: 連結 = bilinear 形式を表現不可(証明済)
  • Lemma 1: Kronecker積 ≡ bilinear 形式 h_G⊤Wz
  • Lemma 2: Kronecker積 ≡ 次数2多項式カーネル(クロス項のみ)
  • Theorem 1: Rademacher 複雑度 O(BhBz/√n) の汎化境界
表現力↑ かつ 汎化保証あり
理論・実験の両面から正当化
④ 主要結果 (a) FreeSolv (水和自由エネルギー)
FreeSolv MAE (kcal/mol) ↓ GCN 1.745 D-MPNN 1.341 BAN 1.292 KROVEX 0.597 ✓ 0 1.0 2.0 ランダム分割
④ 主要結果 (b) ESOL (水溶性)
モデルMAE (rand)MAE (scaff)
GCN1.4751.747
EGCN0.7740.966
D-MPNN0.5080.640
KROVEX0.4690.620
最小 k で最高性能
統計的記述子選択が効いている証拠
④ 主要結果 (c) Ablation: 記述子数 vs 性能
ESOL MAE vs. 記述子数 記述子数 k MAE KROVEX (Kron.) 連結融合 最適 k≈7 0 5 ALL
④ 主要結果 (d) バックボーン汎化性

融合は最終埋め込みレベルで実施されるため GCN に依存しない。

バックボーンESOL MAE
GCN (ベース)0.469
GAT + KROVEX融合同等以上
GIN + KROVEX融合同等以上

→ lib/docking の既存 GNN エンコーダをそのままバックボーンとして再利用可能

⑤ テイクホームメッセージ
🔗 連結不可能な相互作用を捉える
Kronecker積融合は単純連結では原理的に表現不可能なクロスモーダル二次相互作用をモデル化。理論的証明で正当化。
📉 ISIS+ENで最小記述子を選択
全208記述子の中から数個〜数十個の有益な記述子を自動選択。過学習回避と解釈可能性を両立。
🏆 4データセットでSoTA
FreeSolv・ESOL・蒸気圧・水溶性でGCN/EGCN/D-MPNN/BANを上回る最高性能。蒸気圧で新ベンチマーク確立。
🔌 バックボーン非依存
最終埋め込みレベルの融合設計によりGAT・GINにも適用可能。既存 lib/docking エンコーダをそのまま再利用できる。
ケムインフォマティクスへの応用
適用先ユースケース
lib/dockingドッキング後ADMET (水溶性・LogP等) スコアラー
lib/fep水和自由エネルギー事前フィルタリング
lib/molgenMolgenYaml の物性スコアラーとして統合

ISIS で選択された記述子リストは SAR 解釈にも活用可能

実装優先度: HIGH
  • DescriptorSelector (ISIS+EN) → lib/docking (高優先)
  • KROVEXScorer (Kronecker融合+FNN) → lib/docking (高優先)
  • MolgenYaml スコアラー統合 → lib/molgen (中優先)