HELM-BERT: A Transformer for Medium-Sized Peptide Property Prediction
Lee, Koyama, Maeda, Matsumoto, Okuno — Kyoto University | arXiv:2512.23175 | Dec 2025
🎯 HELM表記の明示的モノマー・トポロジー情報でSMILESモデルを超えるペプチド特性予測を実現
① なぜ既存表現では不十分か
表現環状トポロジー非天然残基中規模ペプチド
SMILES❌ 非局所括弧⚠️ 長大トークン列
アミノ酸配列❌ 明示不可❌ 語彙外
HELM✅ 接続テーブル✅ モノマー辞書✅ 簡潔

HELM: モノマー単位トークン化 + 接続テーブルで環構造を明示的定義

② HELM-BERT アーキテクチャ(DeBERTaベース)
環状ペプチド HELM 表記 → 辞書ベーストークナイザー(78トークン)
↓ span masking (15%, geometric分布)
【Layer 1: Hybrid Block】
nGiE(Conv1D kernel=3)‖ Disentangled Self-Attention → Add & Norm

【Layers 2-5: Transformer Blocks】Disentangled Attention + FFN

【Enhanced Mask Decoder (EMD)】
絶対位置埋め込み Pabs を injection → ×2回反復精錬 → MLM投影ヘッド
↓ Fine-tuning
✅ 膜透過性予測 (log Papp) / PPI予測
③ 3つのアーキテクチャ革新

① nGiE: kernel=3のConv1DがN-メチル残基・リンカー等のn-gram化学モチーフを局所エンコード。第1層で局所+グローバルを並列学習。

② Disentangled Attention: スコア = content-to-content + content-to-position + position-to-content。環化・クロスリンクの非局所位置依存を相対位置ベクトルで直接捕捉。
スケール係数 1/√(3dh)

③ EMD (Enhanced Mask Decoder): 絶対位置をエンコーダから排除してデコーダで後注入。エンコーダが相対位置パターンに集中できる設計。

④ 事前訓練データ(39,079ペプチド)
39,079
修飾ペプチド(重複除去後)
  • ChEMBL v35: 21,879件(56.0%)線形+環状
  • Propedia v2.3: 9,212件(23.6%)PDB由来ペプチド-タンパク質複合体
  • CycPeptMPDB v1.2: 7,988件(20.4%)環状ペプチド+膜透過性データ

正規SMILES重複除去: CycPeptMPDB > Propedia > ChEMBL の優先順

⑤ 検証結果ハイライト

膜透過性予測 (CycPeptMPDB 7,715件, 10-fold CV):

HELM-BERT Full FT > MoLFormer-XL Full FT ≫ PeptideCLM(FDR補正済み有意差)

アブレーション重要度(膜透過性):

① Disentangled Attention(最重要)

② nGiE(中程度)

③ EMD(小〜中程度)

PPI予測: クラスタ分割(ドメイン外)でSMILESモデルより安定した汎化

⑥ 創薬パイプラインへの統合(lib/docking, lib/molgen)
🔬 膜透過性スクリーニング(2段階)
HELM-BERT 膜透過性予測 → cell-permeable候補のみをUniDockRunnerでドッキング。非透過性環状ペプチドの無駄なドッキング計算を排除。特に undruggable標的の環状ペプチドSBDD に価値大。
🧪 PPI予測スクリーニング
HELM-BERT + ESM-2デュアルエンコーダーでペプチド-タンパク質相互作用を高速スクリーニング。ProLIFCalculatorの前段フィルタとして百万スケールのHELMライブラリから候補選別。
⚗️ ペプチドスコアラー統合
MolgenYaml の scorer に log Papp 予測を追加。N-メチル化・大環状化・非天然残基を含む複雑ペプチドの生成を膜透過性で直接誘導。SMILESスコアラーでは不可能な精度。
🔑 HELM表記ネイティブ処理
RDKit 2025.09.3で SMILES↔HELM変換が利用可能。既存のSMILESベースパイプラインとの互換性を保ちながらHELM-BERTを組み込める。移行コストが低い。
⑦ 限界・今後
事前訓練規模 39k(MoLFormerの数百万〜数十億と比較して小規模)
生成タスク(HELM表記の分子生成)への拡張は未実証
公開実装なし(プレプリント段階)
Propedia 36.7% が非標準残基で除外 → カバレッジの限界

💡 参照: HELM-GPT (github.com/charlesxu90/helm-gpt) で類似HELM実装が参照可能