Tokenization for Molecular Foundation Models

Tokenization for Molecular Foundation Models: A Comprehensive Evaluation

J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c01856

35種のSMILESトークナイザーを横断比較し、OpenSMILES完全対応のSmirk-GPEがUNK率ゼロかつ下流タスク最良性能を達成。基盤モデルのトークナイザー選択基準を定量化した実証研究。

① 背景と課題

分子基盤モデル（Molecular Foundation Models）の性能は backbone アーキテクチャだけではなく、SMILES文字列をどう分割するか＝トークナイザー設計に強く依存する。しかし従来は個別論文内で独自トークナイザーを採用するに留まり、横断的・系統的な比較は事実上存在しなかった。

既存トークナイザーの多くは OpenSMILES 仕様を完全カバーしていない：希少原子記号や複雑な環閉鎖で UNK トークンが発生 → 学習・生成時に意味を失う。

設計選択（atom-level / regex / BPE サブワード）の トレードオフが定量化されていない → 新規モデル開発時にトークナイザーを選ぶ理論的指針が不在。

→ 35 種を統一フレームで比較し、OpenSMILES 完全対応 + サブワード効率を両立する Smirk / Smirk-GPE を提示する。

② 手法：Smirk と Smirk-GPE

Smirk：OpenSMILES 文法要素（原子記号・結合・括弧・分岐・環閉鎖）を個別トークンとする決定論的トークナイザー。仕様準拠性を最優先。
Smirk-GPE：Smirk + Byte Pair Encoding（BPE）。頻出部分構造をマージしサブワード化、語彙効率を向上。
学習コーパス：ChEMBL。HuggingFace tokenizers 互換設計。

③ 本研究で示したこと

既存・新規あわせて 35 種のSMILESトークナイザーを統一フレームで横断比較。
vocabulary coverage / fertility / 下流タスク精度の3 軸評価を確立。
Smirk-GPE が UNK トークン率 = 0%（OpenSMILES 完全対応）を達成。
分子性質予測・分子生成の下流タスクで最良の総合性能。
atom-level / regex / BPE のトレードオフを定量化。

④ (a) 語彙カバレッジ — UNK率

④ (b) Fertility — 1分子あたりトークン数

④ (c) 下流タスク総合スコア

トークナイザー	UNK率	Fertility	下流総合
atom-level	~7.4%	~55	低
regex (Schwaller)	~3.7%	~38	中
BPE (既存)	~1.8%	~22	中〜高
Smirk	0.0%	~42	高
Smirk-GPE	0.0%	~19	最良

分子性質予測（回帰・分類）のクロスバリデーション + 分子生成の有効分子率を総合評価。Smirk-GPE が 35 種中で総合最良。

35 → 1

既存33種 + 新規2種を統一比較し、最良候補に集約

④ (d) 多様化合物での頑健性

⑤ テイクホームメッセージ

トークナイザーは設計選択である
バックボーンだけでなくトークナイザーが下流性能を支配する。35 種の比較で初めて定量化された。

OpenSMILES 完全対応の価値
UNK 率 0% は希少原子・複雑環閉鎖を含む新規スキャフォールドで決定的な差を生む。

仕様準拠 × サブワード効率
Smirk（決定論的）+ BPE のハイブリッド設計が、語彙効率と頑健性のスイートスポット。

基盤モデル交換可能なAPI
HuggingFace tokenizers 互換 → 既存 SMILES-GPT / CLM 系をドロップイン置換可能。

計算化学パイプラインへの応用

lib/molgen：MolgenYaml の backbone LM トークナイザーを Smirk-GPE に差し替え → ChEMBL 外スキャフォールドの有効分子率向上。
QSAR 前処理：SMILES 正規化＋トークン化を Smirk で標準化、UNK ゼロで未知化合物にも汎化。
分子生成評価：fertility 指標を生成系列長コストの推定に流用。

インパクト・限界

分子基盤モデル開発の事実上の標準ベンチマークを提供。
ドメイン特化（小コーパス）では決定論的 Smirk が安定 — BPE は大量コーパス前提。
3D 座標・立体化学のトークン化はスコープ外、3D 生成への展開は今後の課題。