MSHG-MAE: Multiscale Hypergraph Masked Autoencoder with Δ-Property Alignment

Multiscale Hypergraph Masked Autoencoder with Δ-Property Alignment for Novel Molecular Representation Learning

J. Chem. Inf. Model. 2026, 66, 3858-3877 | DOI: 10.1021/acs.jcim.5c02994 | Category: machine_learning

官能基・共役系・HBondを超辺とするハイパーグラフMAE+Δ-PropAlignで物性差分整合学習。ESOL RMSE 0.465（Uni-Mol比 -40%）達成

(1) 背景と課題: 分子表現学習3つのボトルネック

分子表現学習は「(i)表現の限界（ペアワイズグラフのみ）」「(ii)意味単位の喪失（原子単位マスク）」「(iii)特性変化との非整合」という3つの根本課題を抱える。

MolCLR系コントラスト学習: グラフ拡張で官能基・リング系が分断されてしまう

GraphMAE / GraphMAE2: ペアワイズグラフ前提のため共役系・水素結合ネットワークなど多体相互作用を明示できない

ChemBERTa / Mole-BERT: 1次元SMILES列のマスキングに留まり、立体・トポロジー情報が貧弱

GROVER: 化学的事前学習タスクは導入したが、特性差分との明示的アラインメントは無い

→ ハイパーグラフ表現・意味認識マスク・Δ-Property整合の3要素を一気通貫で統合した自己教師あり学習を提案する。

(2) 手法の概要: MSHG-MAE 構成要素

(3) 本研究で示したこと

(4a) 物性回帰RMSE: vs Uni-Mol / D-MPNN

ESOL -40% / FreeSolv -47% / Lipo -27% 削減（vs 強ベースライン）

(4b) RMSE 削減率の俯瞰

FreeSolv の溶媒和自由エネルギー予測で最大の改善幅。スキャフォールド外挿条件下での頑健性を示唆。

(4c) 5種ハイパーエッジの構造設計

→ ペアワイズグラフでは表現困難な 共役系・芳香族系・水素結合ネットワーク を明示的にモデル化

5 種

統一ハイパーグラフを構成する超辺タイプ

(4d) Δ-PropAlign の整合機構

同一バッチの分子ペアで cos(Δ_emb, Δ_prop)→1 を最大化。実験ラベル不要の弱監督。

(5) テイクホームメッセージ

ハイパーグラフ表現の効用

原子ノード+5種超辺(bond/ring/FG/conj/HBond)で多体相互作用を明示。共役系・芳香族・HBondネットワークをペアワイズGNNより自然に表現できる。

意味認識マスキングの鍵

原子単位ではなく官能基・リング系のブロックでマスクし接続超辺を隠蔽することで、化学的文脈を保った再構成学習が成立する。

Δ-PropAlign の独創性

RDKit加算型記述子の差分Δ_propと埋め込み差分Δ_embの cos整合という弱監督が、特性感度の高い潜在空間を生む。実験ラベル不要が実装上の最大の利点。

スキャフォールド外挿でSOTA

ESOL 0.465 / FreeSolv 0.780 / Lipo 0.501 を達成。単純な強ベースライン上回りでなく、新規骨格への外挿という最も難しい設定での優位性が本質。

計算化学パイプラインへの応用

lib/docking: UniDockRunner のポーズ・ランキングに MSHG-MAE 物性スコアを組合せ → 物理スコア+学習スコアの相補統合
lib/molgen: Δ-PropAlign 潜在空間を MolgenYaml の最適化方向ガイドに利用 → 骨格保持＋特性改善のリード最適化
lib/fep: 候補プレフィルタとして溶媒和ΔG 推定（FreeSolv 強）で MMGBSAEngine の前段スコアラーへ
事前学習済み公開実装（GitHub: Irzos/MSHG-MAE）→ 既存ライブラリへ embed-only モードで統合可能

インパクト & 残る課題

記述子は logS / logP 等単純物性のみ → タンパク選択性・毒性への拡張は未対応

RDKit官能基検出に依存 → 有機金属・大環状分子で超辺定義困難

ZINC20 事前学習と下流タスクのドメインシフトが残る