SynKit: A Graph-Based Python Framework for Rule-Based Reaction Modeling and Analysis
Phan, González Laffitte, Weinbauer, Merkle, Andersen et al. — J. Chem. Inf. Model. 2025 (DOI: 10.1021/acs.jcim.5c02123)
🎯 断片化した反応インフォマティクスツール群を統合し、MTGで多段階機構を表現可能な統一Pythonフレームワークを提供する
① 背景と課題

反応インフォマティクスは RDChiral・CGRtools・RDKit・OpenEye 等の断片化したツール群で構成され、相互運用性が低く専門外研究者への障壁が高い。各ツールはそれぞれ固有のデータ形式を持ち、パイプライン統合時に変換コストと不整合が生じる。

RDChiral は多段階機構表現が不可能・CGRtools は原子レベルの機構的忠実性に限界
RDKit の反応正規化は辞書順のみ・意味的に一貫したハッシュや多段階経路抽象化なし

→ DPO グラフ変換理論に基づく統合フレームワーク SynKit を提案。中間体・遷移順序を保存した MTG を導入。

② 新概念: Mechanistic Transition Graph (MTG)

ITS グラフ(反応物+生成物のスーパーグラフ)を拡張し、n ステップの反応に対して各エッジに長さ n+1 の結合次数ベクトルを付与。

ITS Step1 (互変異性化)
↓ graph-merge
ITS Step2 (求核付加)

MTG(過渡的結合 + 中間体を保持)

アルドール付加の例: net ITS では失われる互変異性化ステップが MTG で明示的に保存される。機構認識型テンプレート抽出に直結。

③ SynKit 6 サブパッケージ
  • IO: SMILES/SMARTS ⇔ ITS グラフ ⇔ GML 双方向変換(2.19 ms/反応)
  • Chem: 反応標準化・正規化・原子マッピング比較
  • Graph: 正規化・ITS/MTG 構築・同型判定・クラスタリング
  • Rule: DPO ルール組成(RuleCompose)
  • Synthesis: フォワード/バックワード予測・反応ネットワーク探索
  • Vis: 分子・機構の可視化
④ 主要結果 (a) 正規化精度
手法精度速度
SynKit Exact100%med 0.46 ms
WLGH395%(近似)avg 3.98 ms
RDCanon94%

Exact は対称構造で稀に遅くなる(平均 266 ms だが中央値 0.46 ms)

④ 主要結果 (b) クラスタリング高速化
268 min → 16 min
WL4 前段フィルタで USPTO_50k をクラスタリング(約 16 倍高速化)

purity = ARI = NMI = 1.0(VF2 厳密同型と完全一致)

270 fine-grained ルールに収束(RDChiral の 1892 テンプレートより少ない)

④ 主要結果 (c) SING サブグラフ検索
50%超
クエリ時間削減(40,000 反応 × 270 クエリ)

約 2.9 ms/クエリ。逐次 SubgraphMatch と同一結果。現状は単純無向グラフ対応(平行エッジ非対応)。

④ 主要結果 (d) Reactor バックエンド比較
バックエンド特徴ライセンス
SynReactor暗黙水素対応・軽量MIT
MODReactor全般的高速GPL

SING 前段フィルタで SynReactor を約 1.7× 高速化可能

⑤ テイクホームメッセージ
🔗 断片化ツールを統合
IO アダプタ層と統一データスキーマで RDChiral・CGRtools・RDKit 系パイプラインを橋渡し。
🧩 MTG で機構を保存
多段階反応の中間体・過渡的結合・時間的順序を ITS 拡張で記録。機構認識型テンプレート抽出が可能に。
WL4 前段フィルタで 16 倍高速化
VF2 と同精度を保ちながら大規模テンプレートクラスタリングを実用速度に。
📦 MIT・PyPI で即利用可能
pip install synkit / conda install でインストール。MØD バックエンドはオプション(GPL 注意)。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenDPO ルール組成で合成経路プリミティブ実装
lib/dockingWL4+SING で反応テンプレートクラスタリング前処理
lib/molgenSynReactor をフォワード/バックワード予測エンジンに統合

反応正規化を lib/molgen の入力前処理として使えば重複テンプレートを排除し训練データ品質を向上できる

限界点
立体化学が現状未対応(ステレオ異性体を同一視する可能性)
共鳴・互変異性を区別できない(分子グラフの限界)
MODReactor は GPL ライセンス(商業利用制限)
完全 CASP には別途 DB・スコアリング・実現可能性モデルが必要