gSelformer-MV: Multiview, Subgraph-Augmented Group SELFIES Transformer
官能基レベルの複数ビューでトランスフォーマーを強化する分子特性予測(J. Chem. Inf. Model. 2025, Korolev, Sorokin & Kuratov)
🎯 原子レベル(SELFIES)+官能基レベル(Group SELFIES)の両方を学習。ESOL/FreeSolv/Lipophilicityで最先端精度+説明可能性・不確実性も改善
① 背景と問題提起

「官能基が分子機能を支配する」という化学知識があるにもかかわらず、GNN・CLM(SMILES/SELFIES)系の分子表現はほぼ全て原子レベル(atom-wise)。Group SELFIESは官能基トークンを含む拡張表現だが、生成タスクにのみ使われており予測タスクへの体系的な応用は未探索だった。

395M
ModernBERT-large パラメータ
5ビュー
分子あたりの最大ビュー数
378
定義済み官能基数
3310
BPE語彙サイズ
② gSelformer-MV パイプライン
分子 SMILES
↓ Group SELFIES 生成(N官能基 → N ビュー)
↓ BPE トークナイズ(語彙3310)
Step1: MLM 事前学習(masking率0.3 + SPS重み)
Step2: コントラスト学習(SELFIES ↔ Group SELFIES 整列)
↓ Fine-tuning(50エポック, AdamW, lr=2e-5)
↓ テスト時 5ビュー → 平均予測 + 分散(不確実性)
③ 4モデルシリーズ比較
シリーズ事前学習Fine-tuning性能
S1なしSELFIES+GS最低
S2SELFIES MLMSELFIESベースライン
S3MLM+CL (SELFIES+GS)SELFIES+GSSOTA
S4Group SELFIES MLMGS (1ビュー)S3より劣る

マルチビュー + 2段階事前学習の組み合わせが決め手

④ ベンチマーク結果 (MoleculeNet)
タスク指標S2(SELFIES)S3(gSelf-MV)
ESOLRMSE↓baselineSOTA
FreeSolvRMSE↓baselineSOTA
LipophilicityRMSE↓baselineSOTA
BACEROC-AUC↑competitive
ClinToxROC-AUC↑competitive

高信頼予測のみへの制限でさらに改善(confidence quantile フィルタ)

④ ADME ベンチマーク結果
エンドポイント説明gSelf-MV
HLMヒト肝ミクロソーム安定性competitive
RLMラット肝ミクロソーム安定性competitive
MDR1-ERP-gp流出比competitive
hPPBヒト血漿タンパク結合competitive
Sol (pH6.8)溶解度competitive
④ 説明可能性・不確実性
  • Captum 統合勾配で官能基トークンの重要度を可視化
  • SoftNS・SoftNC・Complexity・Sparseness で S2 より優位
  • BBBP 分類でアミン・アミド等の BBB 寄与官能基を自動同定
  • テスト時多ビュー分散が Deep Ensemble 相当の不確実性推定
多ビュー生成と 395M モデル fine-tuning には高 GPU リソース要
⑤ テイクホームメッセージ
🧩 官能基ビューが精度を上げる
SELFIES 単独より Group SELFIES マルチビューの方が回帰精度・説明性・不確実性の全側面で優位。
🔭 サブグラフ拡張の汎用性
GNN 系で有効な motif-based SSL のストリング版として機能。他の CLM にも応用可能な戦略。
📈 ADMET スコアラーとして即活用
HLM・hPPB・Sol 等の ADME 6 エンドポイントで competitive。pip install でセットアップ可能。
🔍 官能基レベルの説明
Captum 統合勾配で「どの官能基が予測に効いているか」を可視化。設計者の意思決定を支援。
ケムインフォパイプライン適用先
適用先ユースケース
lib/molgenMolgenYaml の ADMET スコアラー(HLM/hPPB/Sol)
lib/dockingUniDock 前フィルタ + 官能基寄与可視化
lib/molgen不確実性フィルタで分布外分子を排除

group-selfies + ModernBERT-large (HuggingFace) で構築可能