分子表現学習は「(i)表現の限界(ペアワイズグラフのみ)」「(ii)意味単位の喪失(原子単位マスク)」「(iii)特性変化との非整合」という3つの根本課題を抱える。
→ ハイパーグラフ表現・意味認識マスク・Δ-Property整合 の3要素を一気通貫で統合した自己教師あり学習を提案する。
ESOL -40% / FreeSolv -47% / Lipo -27% 削減(vs 強ベースライン)
FreeSolv の溶媒和自由エネルギー予測で最大の改善幅。スキャフォールド外挿条件下での頑健性を示唆。
| 超辺タイプ | 表現する化学概念 | 多体性 |
|---|---|---|
| bond | 共有結合(2原子) | 2 |
| ring | 環系の全原子 | 3-7 |
| FG | 官能基単位(-COOH, -NH2 ...) | 2-5 |
| conj | 共役系(芳香族・π拡張) | 可変 |
| HBond | 水素結合 D/A 関係 | 2-3 |
→ ペアワイズグラフでは表現困難な 共役系・芳香族系・水素結合ネットワーク を明示的にモデル化
同一バッチの分子ペアで cos(Δ_emb, Δ_prop)→1 を最大化。実験ラベル不要の弱監督。
原子ノード+5種超辺(bond/ring/FG/conj/HBond)で多体相互作用を明示。共役系・芳香族・HBondネットワークをペアワイズGNNより自然に表現できる。
原子単位ではなく官能基・リング系のブロックでマスクし接続超辺を隠蔽することで、化学的文脈を保った再構成学習が成立する。
RDKit加算型記述子の差分Δ_propと埋め込み差分Δ_embの cos整合という弱監督が、特性感度の高い潜在空間を生む。実験ラベル不要が実装上の最大の利点。
ESOL 0.465 / FreeSolv 0.780 / Lipo 0.501 を達成。単純な強ベースライン上回りでなく、新規骨格への外挿という最も難しい設定での優位性が本質。