A Comparative Study of SMILES, SELFIES, and ECFP4 Representations
for Molecular Similarity Search

DOI: 10.26434/chemrxiv.15000460 Category: machine_learning ChemRxiv 2026-02 (Karmarkar & Lawrence, UBC Okanagan)

🎯 ゴール: 言語モデル埋め込み (ChemBERTa / SELFormer) と古典的 ECFP4+Tanimoto を 30クエリ × k=5..35 の k-NN 検索で化学的・構造的・機能的の3軸から系統比較し、LBVS の "標準表現" を実証的に決める。

1背景と課題

分子類似性検索は LBVS / リード探索の中核技術。古典的には ECFP4 (Morgan radius=2, 1024-bit) + Tanimoto が長年デファクトだが、近年 ChemBERTa (SMILES MLM) や SELFormer (SELFIES) など分子言語モデルの埋め込み (CLS / mean pool) をコサイン類似度で使う流れが急拡大している。

未解決の問い:

言語モデル埋め込みは ECFP4 を超えたのか？
SMILES と SELFIES のどちらが類似性表現として優れるのか？
「化学的」「構造的」「機能的」類似性で勝者は変わるか？

これまで 統計的検定を伴う系統比較は存在しなかった。

2手法の概要

3表現を同一プロトコルで比較: 30 クエリ分子 × k ∈ {5,8,10,15,20,25,35} の k-NN 検索を実施し、上位 k 件で 3 つの距離指標を平均。One-Way ANOVA + Tukey HSD で有意差を検定。

ECFP4

RDKit Morgan (radius=2, 1024-bit) + Tanimoto

古典的構造フィンガープリント

SELFormer

SELFIES Transformer 埋め込み + Cosine

堅牢文法 (常に有効分子を生成)

ChemBERTa

SMILES MLM (RoBERTa, ZINC15 学習) + Cosine

最も普及した分子言語モデル

3 軸の評価指標:

Hamming 距離 — フィンガープリントのビット差 (化学類似性)
GED (Graph Edit Distance) — 分子グラフの最小変換コスト (構造類似性)
Functional Hamming — 官能基パターンの差 (機能類似性)

3本研究で示したこと

結論 (3 つの定説に対する実証):

✅ ECFP4 + Tanimoto は依然最強. 3 評価軸 × 全 k 値で他 2 表現に統計的有意 (Tukey HSD p<0.05) で勝利.
✅ SELFIES > SMILES. SELFormer 埋め込みが ChemBERTa を全条件で上回る安定順序.
⚠ 言語モデル MLM 学習は ECFP4 の人手特徴を未だ凌駕しない.

定量例 (k=35):

Hamming 平均距離 (小ほど良)
ECFP4 = 12.5 < SELFIES ≈ 17.8 < SMILES ≈ 20.2

GED 平均 (k=35): ECFP4 = 18.9 が最小.

→ 計算化学パイプラインでは ECFP4 を主軸に据え、言語モデル埋め込みは補助的位置づけが妥当.

4主な結果 (4 パネル)

A. Hamming 距離 @ k=35 (小=良) SVG

B. k スケーリング: Hamming vs k SVG

C. 3 軸全制覇: Hamming / GED / Functional SVG

D. 実験設計 & LBVS 推奨

→ LBVS 標準: ECFP4 (Morgan r=2, 1024-bit) + Tanimoto を主軸スコア、ChemBERTa / SELFormer は補助フィーチャーまたは re-rank 用に位置づけるのが実証的に妥当。

5テイクホーム

"言語モデル時代でも ECFP4+Tanimoto はまだ王様."
30 クエリ × 7 k 値 × 3 評価軸 (Hamming / GED / Functional) の系統比較で、ECFP4 が 全条件で統計的有意 に勝利。SELFIES (SELFormer) は SMILES (ChemBERTa) を一貫して上回り、文法的堅牢さが埋め込み品質に効く可能性を示唆。

3/3軸で ECFP4 勝利

7/7kスケールで勝利

12.5ECFP Hamming@k=35

SELFIES>SMILES埋め込み順位

lib/docking への示唆: LBVS フィルタは ECFP4+Tanimoto を一次スクリーニング、ChemBERTa / SELFormer 埋め込みは多様性確保や re-ranking に限定。
限界: クエリ 30 件、活性予測精度は未評価、より大規模 LM での再検証が必要。