ChemBERTa・MolBERT・SELFormer など既存の分子言語モデルは SMILES / SELFIES という原子レベル文字列で事前学習する。
そのため医薬化学者が直感的に扱うスキャフォールド・フラグメント単位の構造情報は暗黙的にしか学習されず、リード最適化やスキャフォールドホッピングへの転移性が限定的。
SAFE (Sequential Attachment-based Fragment Embedding) で分子を MCS 等によりフラグメント分解し、attachment point をドット区切りで連結した SMILES-like 表現に変換。
その SAFE トークン系列を BERT + RoBERTa ハイブリッドアーキテクチャで MLM 事前学習。フラグメント単位のマスクにより、医薬化学的な帰納バイアスを直接モデルへ注入する。
ダウンストリームでは分子特性予測(回帰/分類)で fine-tuning し、SMILES/SELFIES ベースラインと比較。
datamol-io/safe として OSS 化されており、既存の分子生成・特性予測パイプラインに移植しやすい。- SAFE 分解の一意性が保証されない(MCS 等の選択依存)
- ChemRxiv プレプリント段階で査読・大規模再現が未実施
- より大規模な事前学習データ・モデルスケールでの検証が必要
- FragBERTa 重み公開は補足参照
公開: github.com/datamol-io/safe
SAFE 記法によるフラグメント単位トークン化を採用した FragBERTa は、原子レベルの SMILES / SELFIES 表現を上回り、スキャフォールド感受性・相互作用駆動タスクでの性能向上を達成。医薬化学的に意味のあるトークン化が分子表現学習の有望な設計軸であることを実証した。
応用先: lib/molgen の SMILES 生成器を SAFE ベースに置換 → スキャフォールドホッピング型のリード最適化が自然に表現可能。MolgenYaml のトークン制約として SAFE フラグメント語彙を活用すれば、医薬化学的に解釈可能な分子変換を生成プロセスに組み込める。