gSelformer-MV: Multiview Group SELFIES Transformer for Molecular Property Prediction

gSelformer-MV: Multiview, Subgraph-Augmented Group SELFIES Transformer

官能基レベルの複数ビューでトランスフォーマーを強化する分子特性予測（J. Chem. Inf. Model. 2025, Korolev, Sorokin & Kuratov）

🎯 原子レベル(SELFIES)＋官能基レベル(Group SELFIES)の両方を学習。ESOL/FreeSolv/Lipophilicityで最先端精度＋説明可能性・不確実性も改善

① 背景と問題提起

「官能基が分子機能を支配する」という化学知識があるにもかかわらず、GNN・CLM（SMILES/SELFIES）系の分子表現はほぼ全て原子レベル（atom-wise）。Group SELFIESは官能基トークンを含む拡張表現だが、生成タスクにのみ使われており予測タスクへの体系的な応用は未探索だった。

395M

ModernBERT-large パラメータ

5ビュー

分子あたりの最大ビュー数

378

定義済み官能基数

3310

BPE語彙サイズ

② gSelformer-MV パイプライン

③ 4モデルシリーズ比較

シリーズ	事前学習	Fine-tuning	性能
S1	なし	SELFIES+GS	最低
S2	SELFIES MLM	SELFIES	ベースライン
S3	MLM+CL (SELFIES+GS)	SELFIES+GS	SOTA
S4	Group SELFIES MLM	GS (1ビュー)	S3より劣る

マルチビュー + 2段階事前学習の組み合わせが決め手

④ ベンチマーク結果 (MoleculeNet)

タスク	指標	S2(SELFIES)	S3(gSelf-MV)
ESOL	RMSE↓	baseline	SOTA
FreeSolv	RMSE↓	baseline	SOTA
Lipophilicity	RMSE↓	baseline	SOTA
BACE	ROC-AUC↑	—	competitive
ClinTox	ROC-AUC↑	—	competitive

高信頼予測のみへの制限でさらに改善（confidence quantile フィルタ）

④ ADME ベンチマーク結果

エンドポイント	説明	gSelf-MV
HLM	ヒト肝ミクロソーム安定性	competitive
RLM	ラット肝ミクロソーム安定性	competitive
MDR1-ER	P-gp流出比	competitive
hPPB	ヒト血漿タンパク結合	competitive
Sol (pH6.8)	溶解度	competitive

④ 説明可能性・不確実性

Captum 統合勾配で官能基トークンの重要度を可視化
SoftNS・SoftNC・Complexity・Sparseness で S2 より優位
BBBP 分類でアミン・アミド等の BBB 寄与官能基を自動同定
テスト時多ビュー分散が Deep Ensemble 相当の不確実性推定

多ビュー生成と 395M モデル fine-tuning には高 GPU リソース要

⑤ テイクホームメッセージ

🧩 官能基ビューが精度を上げる
SELFIES 単独より Group SELFIES マルチビューの方が回帰精度・説明性・不確実性の全側面で優位。

🔭 サブグラフ拡張の汎用性
GNN 系で有効な motif-based SSL のストリング版として機能。他の CLM にも応用可能な戦略。

📈 ADMET スコアラーとして即活用
HLM・hPPB・Sol 等の ADME 6 エンドポイントで competitive。pip install でセットアップ可能。

🔍 官能基レベルの説明
Captum 統合勾配で「どの官能基が予測に効いているか」を可視化。設計者の意思決定を支援。

ケムインフォパイプライン適用先

適用先	ユースケース
lib/molgen	MolgenYaml の ADMET スコアラー（HLM/hPPB/Sol）
lib/docking	UniDock 前フィルタ + 官能基寄与可視化
lib/molgen	不確実性フィルタで分布外分子を排除

group-selfies + ModernBERT-large (HuggingFace) で構築可能