Tokenization for Molecular Foundation Models: A Comprehensive Evaluation
J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c01856
35種のSMILESトークナイザーを横断比較し、OpenSMILES完全対応のSmirk-GPEがUNK率ゼロかつ下流タスク最良性能を達成。基盤モデルのトークナイザー選択基準を定量化した実証研究。
① 背景と課題

分子基盤モデル(Molecular Foundation Models)の性能は backbone アーキテクチャだけではなく、SMILES文字列をどう分割するか=トークナイザー設計に強く依存する。しかし従来は個別論文内で独自トークナイザーを採用するに留まり、横断的・系統的な比較は事実上存在しなかった。

既存トークナイザーの多くは OpenSMILES 仕様を完全カバーしていない:希少原子記号や複雑な環閉鎖で UNK トークンが発生 → 学習・生成時に意味を失う。
設計選択(atom-level / regex / BPE サブワード)の トレードオフが定量化されていない → 新規モデル開発時にトークナイザーを選ぶ理論的指針が不在。

→ 35 種を統一フレームで比較し、OpenSMILES 完全対応 + サブワード効率を両立する Smirk / Smirk-GPE を提示する。

② 手法:Smirk と Smirk-GPE
  • Smirk:OpenSMILES 文法要素(原子記号・結合・括弧・分岐・環閉鎖)を個別トークンとする決定論的トークナイザー。仕様準拠性を最優先。
  • Smirk-GPE:Smirk + Byte Pair Encoding(BPE)。頻出部分構造をマージしサブワード化、語彙効率を向上。
  • 学習コーパス:ChEMBL。HuggingFace tokenizers 互換設計。
Smirk-GPE パイプライン SMILES入力 Cc1ccc(N)cc1 Smirk 分割 原子/結合/環 BPE merge 頻出部分構造 Token IDs → LM入力 仕様準拠(UNK=0)+ サブワード効率の両立 学習:ChEMBL | 評価:PubChem 多様化合物 下流:分子生成 + 性質予測(回帰/分類)
③ 本研究で示したこと
  • 既存・新規あわせて 35 種のSMILESトークナイザーを統一フレームで横断比較
  • vocabulary coverage / fertility / 下流タスク精度の3 軸評価を確立。
  • Smirk-GPE が UNK トークン率 = 0%(OpenSMILES 完全対応)を達成。
  • 分子性質予測・分子生成の下流タスクで最良の総合性能
  • atom-level / regex / BPE のトレードオフを定量化
④ (a) 語彙カバレッジ — UNK率
PubChem サンプルでの UNK 率(低いほど良) 8% 6% 4% 2% 0% atom-level ~7.4% regex ~3.7% BPE既存 ~1.8% Smirk 0.0% Smirk-GPE 0.0% 35種中 OpenSMILES完全対応は Smirk系のみ
④ (b) Fertility — 1分子あたりトークン数
語彙効率:トークン/分子(小さいほど効率的) 60 45 30 15 0 ~55 atom-level ~38 regex ~42 Smirk ~22 BPE既存 ~19 Smirk-GPE BPEマージで系列長を約1/3に短縮
④ (c) 下流タスク総合スコア
トークナイザーUNK率Fertility下流総合
atom-level~7.4%~55
regex (Schwaller)~3.7%~38
BPE (既存)~1.8%~22中〜高
Smirk0.0%~42
Smirk-GPE0.0%~19最良

分子性質予測(回帰・分類)のクロスバリデーション + 分子生成の有効分子率を総合評価。Smirk-GPE が 35 種中で総合最良

35 → 1
既存33種 + 新規2種を統一比較し、最良候補に集約
④ (d) 多様化合物での頑健性
化合物多様性 × UNK率(PubChem分布) 0 UNK率 化合物多様性 →(ChEMBL内 → PubChem外縁) atom-level regex BPE既存 Smirk-GPE (UNK=0) 化合物空間が広いほど既存系は破綻、Smirk系は不変
⑤ テイクホームメッセージ
トークナイザーは設計選択である
バックボーンだけでなくトークナイザーが下流性能を支配する。35 種の比較で初めて定量化された。
OpenSMILES 完全対応の価値
UNK 率 0% は希少原子・複雑環閉鎖を含む新規スキャフォールドで決定的な差を生む。
仕様準拠 × サブワード効率
Smirk(決定論的)+ BPE のハイブリッド設計が、語彙効率と頑健性のスイートスポット。
基盤モデル交換可能なAPI
HuggingFace tokenizers 互換 → 既存 SMILES-GPT / CLM 系をドロップイン置換可能。
計算化学パイプラインへの応用
  • lib/molgen:MolgenYaml の backbone LM トークナイザーを Smirk-GPE に差し替え → ChEMBL 外スキャフォールドの有効分子率向上。
  • QSAR 前処理:SMILES 正規化+トークン化を Smirk で標準化、UNK ゼロで未知化合物にも汎化。
  • 分子生成評価:fertility 指標を生成系列長コストの推定に流用。
インパクト・限界
  • 分子基盤モデル開発の事実上の標準ベンチマークを提供。
  • ドメイン特化(小コーパス)では決定論的 Smirk が安定 — BPE は大量コーパス前提。
  • 3D 座標・立体化学のトークン化はスコープ外、3D 生成への展開は今後の課題。