「官能基が分子機能を支配する」という化学知識があるにもかかわらず、GNN・CLM(SMILES/SELFIES)系の分子表現はほぼ全て原子レベル(atom-wise)。Group SELFIESは官能基トークンを含む拡張表現だが、生成タスクにのみ使われており予測タスクへの体系的な応用は未探索だった。
| シリーズ | 事前学習 | Fine-tuning | 性能 |
|---|---|---|---|
| S1 | なし | SELFIES+GS | 最低 |
| S2 | SELFIES MLM | SELFIES | ベースライン |
| S3 | MLM+CL (SELFIES+GS) | SELFIES+GS | SOTA |
| S4 | Group SELFIES MLM | GS (1ビュー) | S3より劣る |
マルチビュー + 2段階事前学習の組み合わせが決め手
| タスク | 指標 | S2(SELFIES) | S3(gSelf-MV) |
|---|---|---|---|
| ESOL | RMSE↓ | baseline | SOTA |
| FreeSolv | RMSE↓ | baseline | SOTA |
| Lipophilicity | RMSE↓ | baseline | SOTA |
| BACE | ROC-AUC↑ | — | competitive |
| ClinTox | ROC-AUC↑ | — | competitive |
高信頼予測のみへの制限でさらに改善(confidence quantile フィルタ)
| エンドポイント | 説明 | gSelf-MV |
|---|---|---|
| HLM | ヒト肝ミクロソーム安定性 | competitive |
| RLM | ラット肝ミクロソーム安定性 | competitive |
| MDR1-ER | P-gp流出比 | competitive |
| hPPB | ヒト血漿タンパク結合 | competitive |
| Sol (pH6.8) | 溶解度 | competitive |
| 適用先 | ユースケース |
|---|---|
| lib/molgen | MolgenYaml の ADMET スコアラー(HLM/hPPB/Sol) |
| lib/docking | UniDock 前フィルタ + 官能基寄与可視化 |
| lib/molgen | 不確実性フィルタで分布外分子を排除 |
group-selfies + ModernBERT-large (HuggingFace) で構築可能