A Comparative Study of SMILES, SELFIES, and ECFP4 Representations
for Molecular Similarity Search
DOI: 10.26434/chemrxiv.15000460
Category: machine_learning
ChemRxiv 2026-02 (Karmarkar & Lawrence, UBC Okanagan)
🎯 ゴール: 言語モデル埋め込み (ChemBERTa / SELFormer) と古典的 ECFP4+Tanimoto を 30クエリ × k=5..35 の k-NN 検索で 化学的・構造的・機能的の3軸から系統比較し、LBVS の "標準表現" を実証的に決める。
1背景と課題
分子類似性検索は LBVS / リード探索の中核技術。古典的には ECFP4 (Morgan radius=2, 1024-bit) + Tanimoto が長年デファクトだが、近年 ChemBERTa (SMILES MLM) や SELFormer (SELFIES) など分子言語モデルの埋め込み (CLS / mean pool) を コサイン類似度で使う流れが急拡大している。
未解決の問い:
- 言語モデル埋め込みは ECFP4 を超えたのか?
- SMILES と SELFIES のどちらが類似性表現として優れるのか?
- 「化学的」「構造的」「機能的」類似性で勝者は変わるか?
これまで 統計的検定を伴う系統比較は存在しなかった。
2手法の概要
3表現を同一プロトコルで比較: 30 クエリ分子 × k ∈ {5,8,10,15,20,25,35} の k-NN 検索を実施し、上位 k 件で 3 つの距離指標を平均。One-Way ANOVA + Tukey HSD で有意差を検定。
ECFP4
RDKit Morgan (radius=2, 1024-bit) +
Tanimoto古典的構造フィンガープリント
SELFormer
SELFIES Transformer 埋め込み + Cosine
堅牢文法 (常に有効分子を生成)
ChemBERTa
SMILES MLM (RoBERTa, ZINC15 学習) + Cosine
最も普及した分子言語モデル
3 軸の評価指標:
- Hamming 距離 — フィンガープリントのビット差 (化学類似性)
- GED (Graph Edit Distance) — 分子グラフの最小変換コスト (構造類似性)
- Functional Hamming — 官能基パターンの差 (機能類似性)
3本研究で示したこと
結論 (3 つの定説に対する実証):
- ✅ ECFP4 + Tanimoto は依然最強. 3 評価軸 × 全 k 値で他 2 表現に統計的有意 (Tukey HSD p<0.05) で勝利.
- ✅ SELFIES > SMILES. SELFormer 埋め込みが ChemBERTa を全条件で上回る安定順序.
- ⚠ 言語モデル MLM 学習は ECFP4 の人手特徴を未だ凌駕しない.
定量例 (k=35):
Hamming 平均距離 (小ほど良)
ECFP4 = 12.5 <
SELFIES ≈ 17.8 <
SMILES ≈ 20.2
GED 平均 (k=35): ECFP4 = 18.9 が最小.
→ 計算化学パイプラインでは ECFP4 を主軸に据え、言語モデル埋め込みは補助的位置づけが妥当.
4主な結果 (4 パネル)
A. Hamming 距離 @ k=35 (小=良) SVG
B. k スケーリング: Hamming vs k SVG
C. 3 軸全制覇: Hamming / GED / Functional SVG
D. 実験設計 & LBVS 推奨
→ LBVS 標準: ECFP4 (Morgan r=2, 1024-bit) + Tanimoto を主軸スコア、ChemBERTa / SELFormer は補助フィーチャーまたは re-rank 用に位置づけるのが実証的に妥当。
5テイクホーム
"言語モデル時代でも ECFP4+Tanimoto はまだ王様."
30 クエリ × 7 k 値 × 3 評価軸 (Hamming / GED / Functional) の系統比較で、ECFP4 が 全条件で統計的有意 に勝利。SELFIES (SELFormer) は SMILES (ChemBERTa) を一貫して上回り、文法的堅牢さが埋め込み品質に効く可能性を示唆。
3/3軸で ECFP4 勝利
7/7kスケールで勝利
12.5ECFP Hamming@k=35
SELFIES>SMILES埋め込み順位
lib/docking への示唆: LBVS フィルタは ECFP4+Tanimoto を一次スクリーニング、ChemBERTa / SELFormer 埋め込みは多様性確保や re-ranking に限定。
限界: クエリ 30 件、活性予測精度は未評価、より大規模 LM での再検証が必要。