| 表現 | 環状トポロジー | 非天然残基 | 中規模ペプチド |
|---|---|---|---|
| SMILES | ❌ 非局所括弧 | ✓ | ⚠️ 長大トークン列 |
| アミノ酸配列 | ❌ 明示不可 | ❌ 語彙外 | ✓ |
| HELM | ✅ 接続テーブル | ✅ モノマー辞書 | ✅ 簡潔 |
HELM: モノマー単位トークン化 + 接続テーブルで環構造を明示的定義
① nGiE: kernel=3のConv1DがN-メチル残基・リンカー等のn-gram化学モチーフを局所エンコード。第1層で局所+グローバルを並列学習。
② Disentangled Attention: スコア = content-to-content + content-to-position + position-to-content。環化・クロスリンクの非局所位置依存を相対位置ベクトルで直接捕捉。
スケール係数 1/√(3dh)
③ EMD (Enhanced Mask Decoder): 絶対位置をエンコーダから排除してデコーダで後注入。エンコーダが相対位置パターンに集中できる設計。
正規SMILES重複除去: CycPeptMPDB > Propedia > ChEMBL の優先順
膜透過性予測 (CycPeptMPDB 7,715件, 10-fold CV):
HELM-BERT Full FT > MoLFormer-XL Full FT ≫ PeptideCLM(FDR補正済み有意差)
アブレーション重要度(膜透過性):
① Disentangled Attention(最重要)
② nGiE(中程度)
③ EMD(小〜中程度)
PPI予測: クラスタ分割(ドメイン外)でSMILESモデルより安定した汎化
💡 参照: HELM-GPT (github.com/charlesxu90/helm-gpt) で類似HELM実装が参照可能