FragBERTa: Exploring Fragment-based Molecular Representation Learning with SAFE

DOI: 10.26434/chemrxiv.15000476 Published: 2026/02 (ChemRxiv) Category: machine_learning 🎯 Goal: SAFE記法によるフラグメント単位の事前学習で医薬化学的な帰納バイアスを獲得

1背景と課題

ChemBERTa・MolBERT・SELFormer など既存の分子言語モデルは SMILES / SELFIES という原子レベル文字列で事前学習する。

そのため医薬化学者が直感的に扱うスキャフォールド・フラグメント単位の構造情報は暗黙的にしか学習されず、リード最適化やスキャフォールドホッピングへの転移性が限定的。

  • 原子トークン化 → フラグメント境界が見えない
  • スキャフォールド感受性タスクで頭打ち
  • 相互作用駆動タスクで解釈性が低い

2手法の概要

SAFE (Sequential Attachment-based Fragment Embedding) で分子を MCS 等によりフラグメント分解し、attachment point をドット区切りで連結した SMILES-like 表現に変換。

その SAFE トークン系列を BERT + RoBERTa ハイブリッドアーキテクチャで MLM 事前学習。フラグメント単位のマスクにより、医薬化学的な帰納バイアスを直接モデルへ注入する。

ダウンストリームでは分子特性予測(回帰/分類)で fine-tuning し、SMILES/SELFIES ベースラインと比較。

3本研究で示したこと

  • フラグメントレベルのトークン化が分子表現学習において SMILES / SELFIES より強力な帰納バイアスを与えることを実証。
  • スキャフォールド感受性タスク・相互作用駆動タスクで ChemBERTa / SELFormer 等のベースラインを上回る性能。
  • SAFE は datamol-io/safe として OSS 化されており、既存の分子生成・特性予測パイプラインに移植しやすい。
  • 原子レベルの言語モデル一辺倒だった分子表現学習に 「化学的に意味のある単位での事前学習」という新たな設計軸を提示。

4主な結果(4パネル)

a
ベンチマーク性能比較(概念図)
0.60 0.70 0.80 0.90 1.00 ChemBERTa 0.74 SELFormer 0.77 MolBERT 0.76 FragBERTa 0.83 Score (AUC / R) スキャフォールド感受性タスク(概念)
b
FragBERTa パイプライン
分子 SMILES 入力 SAFE フラグメント 分解 + 結合点 [F1].[F2].[F3] BERT+ RoBERTa MLM 事前学習 特性 予測 fine-tune フラグメント単位トークン化 → 帰納バイアス注入 原子レベル(SMILES/SELFIES) より化学的に意味のある単位 で MLM 学習
c
スキャフォールド感受性 (概念散布図)
タスクのスキャフォールド分散度 → FragBERTa の優位幅 (Δscore) SMILES base 0 +0.05 +0.10 +0.15 スキャフォールド多様性が高いほど優位
d
限界と今後

- SAFE 分解の一意性が保証されない(MCS 等の選択依存)

- ChemRxiv プレプリント段階で査読・大規模再現が未実施

- より大規模な事前学習データ・モデルスケールでの検証が必要

- FragBERTa 重み公開は補足参照

公開: github.com/datamol-io/safe

5テイクホームメッセージ

SAFE 記法によるフラグメント単位トークン化を採用した FragBERTa は、原子レベルの SMILES / SELFIES 表現を上回り、スキャフォールド感受性・相互作用駆動タスクでの性能向上を達成。医薬化学的に意味のあるトークン化が分子表現学習の有望な設計軸であることを実証した。

応用先: lib/molgen の SMILES 生成器を SAFE ベースに置換 → スキャフォールドホッピング型のリード最適化が自然に表現可能。MolgenYaml のトークン制約として SAFE フラグメント語彙を活用すれば、医薬化学的に解釈可能な分子変換を生成プロセスに組み込める。