分子基盤モデル(Molecular Foundation Models)の性能は backbone アーキテクチャだけではなく、SMILES文字列をどう分割するか=トークナイザー設計に強く依存する。しかし従来は個別論文内で独自トークナイザーを採用するに留まり、横断的・系統的な比較は事実上存在しなかった。
→ 35 種を統一フレームで比較し、OpenSMILES 完全対応 + サブワード効率を両立する Smirk / Smirk-GPE を提示する。
| トークナイザー | UNK率 | Fertility | 下流総合 |
|---|---|---|---|
| atom-level | ~7.4% | ~55 | 低 |
| regex (Schwaller) | ~3.7% | ~38 | 中 |
| BPE (既存) | ~1.8% | ~22 | 中〜高 |
| Smirk | 0.0% | ~42 | 高 |
| Smirk-GPE | 0.0% | ~19 | 最良 |
分子性質予測(回帰・分類)のクロスバリデーション + 分子生成の有効分子率を総合評価。Smirk-GPE が 35 種中で総合最良。