SynFrag: Synthetic Accessibility via Fragment Assembly Autoregressive Generation
9.18M分子の自己教師学習+境界・cliff fine-tuningで AI 生成分子の合成可能性を超高速予測(Zhang, Li ほか・ChemRxiv 2025)
🎯 generation-synthesis gap を埋める実用的なSAフィルタを提供し、生成→SA→ドッキングのループ頻度を桁違いに上げる
① 背景と課題

AI 駆動分子生成では計算的に設計された分子の多くが実験室で合成できない「generation-synthesis gap」が AIDD の実用化を阻む。

CASP(AiZynthFinder/Retro*):精度高いが計算コスト過大、HTS や生成ループ内で使えない
既存SA予測(SAscore/GASA/DeepSA):合成論理を学ばず、AI生成分子で性能が不安定

→ サブ秒応答かつAI生成分子でも安定するSA予測器が必要

② 手法: BRICS+2 + AttentiveFP + 自己回帰生成

分子を BRICS+2 でフラグメント木に分解し、DFS 順にフラグメントとトポロジを予測する自己教師生成タスクとして再構成する。

SMILES → RDKit → AttentiveFP(attention message-passing GNN)
↓ + BRICS+2 fragment tree

Label Predictor: フラグメント選択
Topology Predictor: 連結位置
↓ DFS 順自己回帰
SA score [0,1]

9.18M 分子で事前学習し、フラグメント連結意図を暗黙的に学習。

② 手法: 二段階 Fine-tuning

SAscore 境界 + synthesis difficulty cliff の二系統で fine-tuning し、判別境界の精度を確保する。

800K
Decision-boundary + Cliff ペア

Retro*/AiZynthFinder で ES/HS ラベル付与。Tanimoto > 0.35 の cliff ペアで類似構造間の SA 反転を学習。

③ 本研究で示したこと
  • 2,401分子で AiZynthFinder = 3,411.6 分 → SynFrag = 0.47 分(約 7,250 倍高速)
  • 5 テストセット(公開ベンチマーク + 臨床薬 + AI 生成分子)で一貫した優位性
  • Attention 重みが反応性サイトと対応し解釈性も担保
  • GitHub & Web 推論プラットフォーム(synfrag.simm.ac.cn)で公開
④ 主要結果 (a) 推論速度比較(TSB 2,401 分子)
手法所要時間
AiZynthFinder3,411.6 分
Retro*数百分(時間スケール)
SAscore数秒
SynFrag0.47 分
④ 主要結果 (b) 5 テストセットでの安定性

各シナリオで他 SA モデルを上回る

テスト性質
TS1-3公開ベンチマーク(GDB17/ZINC/Retro*)
TSAFDA 薬・治験・中間体・社内リード
TSBAI 生成分子(Graph GA)

特に TSA/TSB の実応用ケースで GASA/DeepSA/SAscore を凌駕

④ 主要結果 (c) データ構成

事前学習・Fine-tune・テストの内訳

段階規模
事前学習9.18M 分子(ZINC/PubChem/ChEMBL/商用)
Fine-tune800K(境界 + cliff)
テスト43,753 分子(5 セット)
④ 主要結果 (d) 解釈性と公開

Attention が反応サイトに対応 / OSS 完全公開

CC BY 4.0
simmzx/SynFrag + synfrag.simm.ac.cn

事前学習チェックポイント・評価スクリプト同梱。Web で即試せる。

⑤ テイクホームメッセージ
サブ秒のSAフィルタ
AiZynthFinderの数千倍高速。生成ループ内で常時SA評価可能に。
🧱 フラグメント連結を学ぶ自己教師
BRICS+2 + DFS 自己回帰で「組み立てプロセス」を暗黙学習。Cliff 境界も捉える。
🧪 AI生成分子で安定
TSB(Graph GA 生成)でも他SAモデルより安定。生成 → SA フィルタの信頼性が高い。
🔓 OSS + Web で即利用
GitHub 公開 + ブラウザ推論あり。社内パイプラインへの統合がすぐ着手できる。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenMolgenYaml の SA スコアラーを SynFrag に置換
lib/molgenJobManager の前段フィルタとして SA を即時適用
lib/dockingUniDock ヒットに SA × ドッキングスコアの統合ランキング

CASP の重さに縛られず、生成→SA→ドッキングのフィードバックを高頻度に回せる

本研究のインパクト
  • Generation-synthesis gap を実用的に埋める初の高速SA予測器
  • AI 生成分子の評価で従来 SA モデルの不安定性を解消
  • 合成可能性を生成ループに常駐させる新しい標準