A Comparative Study of SMILES, SELFIES, and ECFP4 Representations
for Molecular Similarity Search

DOI: 10.26434/chemrxiv.15000460 Category: machine_learning ChemRxiv 2026-02 (Karmarkar & Lawrence, UBC Okanagan)
🎯 ゴール: 言語モデル埋め込み (ChemBERTa / SELFormer) と古典的 ECFP4+Tanimoto を 30クエリ × k=5..35 の k-NN 検索で 化学的・構造的・機能的の3軸から系統比較し、LBVS の "標準表現" を実証的に決める。

1背景と課題

分子類似性検索は LBVS / リード探索の中核技術。古典的には ECFP4 (Morgan radius=2, 1024-bit) + Tanimoto が長年デファクトだが、近年 ChemBERTa (SMILES MLM)SELFormer (SELFIES) など分子言語モデルの埋め込み (CLS / mean pool) を コサイン類似度で使う流れが急拡大している。


未解決の問い:


これまで 統計的検定を伴う系統比較は存在しなかった。

2手法の概要

3表現を同一プロトコルで比較: 30 クエリ分子 × k ∈ {5,8,10,15,20,25,35} の k-NN 検索を実施し、上位 k 件で 3 つの距離指標を平均。One-Way ANOVA + Tukey HSD で有意差を検定。

ECFP4
RDKit Morgan (radius=2, 1024-bit) + Tanimoto
古典的構造フィンガープリント
SELFormer
SELFIES Transformer 埋め込み + Cosine
堅牢文法 (常に有効分子を生成)
ChemBERTa
SMILES MLM (RoBERTa, ZINC15 学習) + Cosine
最も普及した分子言語モデル

3 軸の評価指標:

3本研究で示したこと

結論 (3 つの定説に対する実証):


定量例 (k=35):

Hamming 平均距離 (小ほど良)
ECFP4 = 12.5  <  SELFIES ≈ 17.8  <  SMILES ≈ 20.2

GED 平均 (k=35): ECFP4 = 18.9 が最小.

→ 計算化学パイプラインでは ECFP4 を主軸に据え、言語モデル埋め込みは補助的位置づけが妥当.

4主な結果 (4 パネル)

A. Hamming 距離 @ k=35 (小=良) SVG

0 8 16 24 Hamming dist (bits) 12.5 ECFP4 17.8 SELFIES 20.2 SMILES ★ Best

B. k スケーリング: Hamming vs k SVG

0 8 16 24 5 8 10 15 20 25 35 k (NN size) ECFP4 SELFIES SMILES

C. 3 軸全制覇: Hamming / GED / Functional SVG

mean dist (small=better) Hamming GED FuncHamming 0 10 20 30 12.5 17.8 20.2 18.9 22.5 25.0 4.8 6.2 7.4 ★ ECFP4 が全 3 軸 × 全 k で有意勝利 (p < 0.05)

D. 実験設計 & LBVS 推奨

30 クエリ分子 (chemically diverse) k = {5,8,10,15,20,25,35} の k-NN 検索 ANOVA + Tukey HSD で有意性検証
→ LBVS 標準: ECFP4 (Morgan r=2, 1024-bit) + Tanimoto を主軸スコア、ChemBERTa / SELFormer は補助フィーチャーまたは re-rank 用に位置づけるのが実証的に妥当。

5テイクホーム

"言語モデル時代でも ECFP4+Tanimoto はまだ王様."
30 クエリ × 7 k 値 × 3 評価軸 (Hamming / GED / Functional) の系統比較で、ECFP4 が 全条件で統計的有意 に勝利。SELFIES (SELFormer) は SMILES (ChemBERTa) を一貫して上回り、文法的堅牢さが埋め込み品質に効く可能性を示唆。
3/3軸で ECFP4 勝利
7/7kスケールで勝利
12.5ECFP Hamming@k=35
SELFIES>SMILES埋め込み順位
lib/docking への示唆: LBVS フィルタは ECFP4+Tanimoto を一次スクリーニング、ChemBERTa / SELFormer 埋め込みは多様性確保や re-ranking に限定。
限界: クエリ 30 件、活性予測精度は未評価、より大規模 LM での再検証が必要。