Multiscale Hypergraph Masked Autoencoder with Δ-Property Alignment for Novel Molecular Representation Learning
J. Chem. Inf. Model. 2026, 66, 3858-3877 | DOI: 10.1021/acs.jcim.5c02994 | Category: machine_learning
官能基・共役系・HBondを超辺とするハイパーグラフMAE+Δ-PropAlignで物性差分整合学習。ESOL RMSE 0.465(Uni-Mol比 -40%)達成
(1) 背景と課題: 分子表現学習3つのボトルネック

分子表現学習は「(i)表現の限界(ペアワイズグラフのみ)」「(ii)意味単位の喪失(原子単位マスク)」「(iii)特性変化との非整合」という3つの根本課題を抱える。

MolCLR系コントラスト学習: グラフ拡張で官能基・リング系が分断されてしまう
GraphMAE / GraphMAE2: ペアワイズグラフ前提のため共役系・水素結合ネットワークなど多体相互作用を明示できない
ChemBERTa / Mole-BERT: 1次元SMILES列のマスキングに留まり、立体・トポロジー情報が貧弱
GROVER: 化学的事前学習タスクは導入したが、特性差分との明示的アラインメントは無い

→ ハイパーグラフ表現・意味認識マスク・Δ-Property整合 の3要素を一気通貫で統合した自己教師あり学習を提案する。

(2) 手法の概要: MSHG-MAE 構成要素
  • 統一ハイパーグラフ: 原子をノード、bond / ring / FG / conj / HBond の 5 種を超辺として定義
  • 多スケール畳み込み: 原子→部分構造→分子の3段階で階層集約
  • 意味認識マスキング: 官能基・リング単位でブロックマスク(リーク防止のため接続超辺も隠蔽)
  • Δ-PropAlign: 埋め込み差分 Δ_emb と RDKit加算型記述子差分 Δ_prop を整合
統一ハイパーグラフ模式図 ring 超辺 FG 超辺 HBond 超辺 conj 超辺(共役系) 原子ノード
(3) 本研究で示したこと
  • MoleculeNet 物性回帰3タスク(ESOL/FreeSolv/Lipo)でSOTA達成
  • スキャフォールド分割80/10/10・3シード平均という厳しい外挿評価で堅牢
  • Δ-PropAlign 単独でも特性感度が向上(アブレーションで確認)
  • RDKit加算型記述子のみで弱監督として機能(実験ラベル不要)
  • 事前学習データはZINC20、ハイパーグラフ構築は標準RDKit機能で再現可能
(4a) 物性回帰RMSE: vs Uni-Mol / D-MPNN
RMSE (lower is better) — scaffold split, 3 seeds 0.0 0.5 1.0 1.5 ESOL 0.77 Uni-Mol 1.05 D-MPNN 0.465 MSHG FreeSolv 1.48 Uni-Mol 1.65 D-MPNN 0.780 MSHG Lipophilicity 0.72 Uni-Mol 0.685 D-MPNN 0.501 MSHG

ESOL -40% / FreeSolv -47% / Lipo -27% 削減(vs 強ベースライン)

(4b) RMSE 削減率の俯瞰
RMSE 削減率(MSHG-MAE 比較) 0% 10% 20% 30% 40% 50% 40% ESOL vs Uni-Mol 47% FreeSolv vs Uni-Mol 27% Lipophilicity vs D-MPNN

FreeSolv の溶媒和自由エネルギー予測で最大の改善幅。スキャフォールド外挿条件下での頑健性を示唆。

(4c) 5種ハイパーエッジの構造設計
超辺タイプ表現する化学概念多体性
bond共有結合(2原子)2
ring環系の全原子3-7
FG官能基単位(-COOH, -NH2 ...)2-5
conj共役系(芳香族・π拡張)可変
HBond水素結合 D/A 関係2-3

→ ペアワイズグラフでは表現困難な 共役系・芳香族系・水素結合ネットワーク を明示的にモデル化

5 種
統一ハイパーグラフを構成する超辺タイプ
(4d) Δ-PropAlign の整合機構
埋め込み差分と物性差分の整合 Δ_prop (RDKit logP / logS 差分) Δ_emb (埋め込み差分) 理想整合 cos≈1 Δ-PropAlign 有り 無し(baseline)

同一バッチの分子ペアで cos(Δ_emb, Δ_prop)→1 を最大化。実験ラベル不要の弱監督。

(5) テイクホームメッセージ
ハイパーグラフ表現の効用

原子ノード+5種超辺(bond/ring/FG/conj/HBond)で多体相互作用を明示。共役系・芳香族・HBondネットワークをペアワイズGNNより自然に表現できる。

意味認識マスキングの鍵

原子単位ではなく官能基・リング系のブロックでマスクし接続超辺を隠蔽することで、化学的文脈を保った再構成学習が成立する。

Δ-PropAlign の独創性

RDKit加算型記述子の差分Δ_propと埋め込み差分Δ_embの cos整合という弱監督が、特性感度の高い潜在空間を生む。実験ラベル不要が実装上の最大の利点。

スキャフォールド外挿でSOTA

ESOL 0.465 / FreeSolv 0.780 / Lipo 0.501 を達成。単純な強ベースライン上回りでなく、新規骨格への外挿という最も難しい設定での優位性が本質。

計算化学パイプラインへの応用
  • lib/docking: UniDockRunner のポーズ・ランキングに MSHG-MAE 物性スコアを組合せ → 物理スコア+学習スコアの相補統合
  • lib/molgen: Δ-PropAlign 潜在空間を MolgenYaml の最適化方向ガイドに利用 → 骨格保持+特性改善のリード最適化
  • lib/fep: 候補プレフィルタとして溶媒和ΔG 推定(FreeSolv 強)で MMGBSAEngine の前段スコアラーへ
  • 事前学習済み公開実装(GitHub: Irzos/MSHG-MAE)→ 既存ライブラリへ embed-only モードで統合可能
インパクト & 残る課題
  • ハイパーグラフ表現+意味マスク+Δ整合の3要素統合は他GNN拡張への道筋
  • RDKit記述子差分という"ラベルレス監督"の手法は他SSL系統にも転用可能
記述子は logS / logP 等単純物性のみ → タンパク選択性・毒性への拡張は未対応
RDKit官能基検出に依存 → 有機金属・大環状分子で超辺定義困難
ZINC20 事前学習と下流タスクのドメインシフトが残る