HELM-BERT: Transformer for Medium-Sized Peptide Property Prediction

HELM-BERT: A Transformer for Medium-Sized Peptide Property Prediction

Lee, Koyama, Maeda, Matsumoto, Okuno — Kyoto University | arXiv:2512.23175 | Dec 2025

🎯 HELM表記の明示的モノマー・トポロジー情報でSMILESモデルを超えるペプチド特性予測を実現

① なぜ既存表現では不十分か

表現	環状トポロジー	非天然残基	中規模ペプチド
SMILES	❌ 非局所括弧	✓	⚠️ 長大トークン列
アミノ酸配列	❌ 明示不可	❌ 語彙外	✓
HELM	✅ 接続テーブル	✅ モノマー辞書	✅ 簡潔

HELM: モノマー単位トークン化 + 接続テーブルで環構造を明示的定義

② HELM-BERT アーキテクチャ（DeBERTaベース）

環状ペプチド HELM 表記 → 辞書ベーストークナイザー（78トークン）
↓ span masking (15%, geometric分布)
【Layer 1: Hybrid Block】
nGiE（Conv1D kernel=3）‖ Disentangled Self-Attention → Add & Norm
↓
【Layers 2-5: Transformer Blocks】Disentangled Attention + FFN
↓
【Enhanced Mask Decoder (EMD)】
絶対位置埋め込み Pabs を injection → ×2回反復精錬 → MLM投影ヘッド
↓ Fine-tuning
✅ 膜透過性予測 (log Papp) / PPI予測

③ 3つのアーキテクチャ革新

① nGiE: kernel=3のConv1DがN-メチル残基・リンカー等のn-gram化学モチーフを局所エンコード。第1層で局所+グローバルを並列学習。

② Disentangled Attention: スコア = content-to-content + content-to-position + position-to-content。環化・クロスリンクの非局所位置依存を相対位置ベクトルで直接捕捉。
スケール係数 1/√(3dh)

③ EMD (Enhanced Mask Decoder): 絶対位置をエンコーダから排除してデコーダで後注入。エンコーダが相対位置パターンに集中できる設計。

④ 事前訓練データ（39,079ペプチド）

39,079

修飾ペプチド（重複除去後）

ChEMBL v35: 21,879件（56.0%）線形+環状
Propedia v2.3: 9,212件（23.6%）PDB由来ペプチド-タンパク質複合体
CycPeptMPDB v1.2: 7,988件（20.4%）環状ペプチド+膜透過性データ

正規SMILES重複除去: CycPeptMPDB > Propedia > ChEMBL の優先順

⑤ 検証結果ハイライト

膜透過性予測 (CycPeptMPDB 7,715件, 10-fold CV):

HELM-BERT Full FT > MoLFormer-XL Full FT ≫ PeptideCLM（FDR補正済み有意差）

アブレーション重要度（膜透過性, 性能低下幅の相対順位）:

※相対順位（論文記載の効果量序列, 絶対値は非公開）

膜透過性予測性能順位（Pearson R, FDR補正済み有意差）:

PPI予測: Random Split=ESM-2と競合 / クラスタ分割（ドメイン外）でSMILESモデルより安定した汎化

⑥ 創薬パイプラインへの統合（lib/docking, lib/molgen）

🔬 膜透過性スクリーニング（2段階）
HELM-BERT 膜透過性予測 → cell-permeable候補のみをUniDockRunnerでドッキング。非透過性環状ペプチドの無駄なドッキング計算を排除。特に undruggable標的の環状ペプチドSBDD に価値大。

🧪 PPI予測スクリーニング
HELM-BERT + ESM-2デュアルエンコーダーでペプチド-タンパク質相互作用を高速スクリーニング。ProLIFCalculatorの前段フィルタとして百万スケールのHELMライブラリから候補選別。

⚗️ ペプチドスコアラー統合
MolgenYaml の scorer に log Papp 予測を追加。N-メチル化・大環状化・非天然残基を含む複雑ペプチドの生成を膜透過性で直接誘導。SMILESスコアラーでは不可能な精度。

🔑 HELM表記ネイティブ処理
RDKit 2025.09.3で SMILES↔HELM変換が利用可能。既存のSMILESベースパイプラインとの互換性を保ちながらHELM-BERTを組み込める。移行コストが低い。

⑦ 限界・今後

事前訓練規模 39k（MoLFormerの数百万〜数十億と比較して小規模）

生成タスク（HELM表記の分子生成）への拡張は未実証

公開実装なし（プレプリント段階）

Propedia 36.7% が非標準残基で除外 → カバレッジの限界

💡 参照: HELM-GPT (github.com/charlesxu90/helm-gpt) で類似HELM実装が参照可能