AI 駆動分子生成では計算的に設計された分子の多くが実験室で合成できない「generation-synthesis gap」が AIDD の実用化を阻む。
→ サブ秒応答かつAI生成分子でも安定するSA予測器が必要
分子を BRICS+2 でフラグメント木に分解し、DFS 順にフラグメントとトポロジを予測する自己教師生成タスクとして再構成する。
9.18M 分子で事前学習し、フラグメント連結意図を暗黙的に学習。
SAscore 境界 + synthesis difficulty cliff の二系統で fine-tuning し、判別境界の精度を確保する。
Retro*/AiZynthFinder で ES/HS ラベル付与。Tanimoto > 0.35 の cliff ペアで類似構造間の SA 反転を学習。
| 手法 | 所要時間 |
|---|---|
| AiZynthFinder | 3,411.6 分 |
| Retro* | 数百分(時間スケール) |
| SAscore | 数秒 |
| SynFrag | 0.47 分 |
各シナリオで他 SA モデルを上回る
| テスト | 性質 |
|---|---|
| TS1-3 | 公開ベンチマーク(GDB17/ZINC/Retro*) |
| TSA | FDA 薬・治験・中間体・社内リード |
| TSB | AI 生成分子(Graph GA) |
特に TSA/TSB の実応用ケースで GASA/DeepSA/SAscore を凌駕
事前学習・Fine-tune・テストの内訳
| 段階 | 規模 |
|---|---|
| 事前学習 | 9.18M 分子(ZINC/PubChem/ChEMBL/商用) |
| Fine-tune | 800K(境界 + cliff) |
| テスト | 43,753 分子(5 セット) |
Attention が反応サイトに対応 / OSS 完全公開
事前学習チェックポイント・評価スクリプト同梱。Web で即試せる。
| 適用先 | ユースケース |
|---|---|
| lib/molgen | MolgenYaml の SA スコアラーを SynFrag に置換 |
| lib/molgen | JobManager の前段フィルタとして SA を即時適用 |
| lib/docking | UniDock ヒットに SA × ドッキングスコアの統合ランキング |
CASP の重さに縛られず、生成→SA→ドッキングのフィードバックを高頻度に回せる