TRACE-GFN: Reaction-Aware Molecular Design with Transformer × GFlowNet
QSAR-guided exploration with explicit synthetic routes — Nakamura, Yasuo, Sekijima (J Chem Inf Model 2026)
目標: 反応認識Transformer (TRACER) と GFlowNet を統合し、高QSARと多様性を同時に達成しつつ「実在反応で組み立て可能な分子」を生成する。
① 背景と課題

問題設定: 既存の DL 分子生成モデルは合成経路を考慮しないため、bench 実験への移行コストが大きい。SA score は粗い heuristic、retrosynthesis モデルは選択性把握が課題。

従来手法の限界:

  • VAE/拡散/SMILES LM は合成可能性を最適化しない
  • SA score は part-similarity の粗いヒューリスティック
  • Retrosynthesis モデルは反応選択性で expert 介入必須
  • Reaction template ベース手法は最適化効率が limited(DOGS等)
② 手法 — TRACE-GFN: Transformer × GFlowNet
TRACE-GFN: Reaction-aware MDP + GFlowNet (trajectory balance) Starting compound s_t (SMILES) GCN policy π(a|s) template Cond TX T(s'|s,a) beam=50 Product s_{t+1} valid mol in MDP Reward R(x)^β QSAR GFlowNet TB loss → joint train GCN/TX/Z(β)-MLP

状態 s = 分子、行動 a = reaction template、遷移は GCN policy + 条件付き Transformer (beam=50) で生成。GFlowNet の trajectory balance loss で R(x)^β に比例する分布を学習し、温度 β で exploit↔explore を制御。USPTO 由来反応でプリトレイン。

③ 本研究で示したこと
  • QSAR≥0.5 比率を 3 標的すべてで首位(DRD2 48.6%, AKT1 71.5%, CXCR4 62.6%)
  • FCD と多様性を維持しつつ TRACER を超える reward
  • β 温度で 同一重みから exploit/explore 切替可能
  • OSS 公開(github.com/sekijima-lab/TRACE-GFN, MIT)
④(a) 3 標的での性能
48.6 DRD2 71.5 AKT1 62.6 CXCR4 TRACE-GFN: QSAR ≥ 0.5 ratio (%)

QSAR≥0.5 を生成する比率。AKT1 で 71.5% に達するなど、高 reward 領域への効率的な誘導が機能。

④(b) 既存手法との比較 (DRD2)
48.6 TRACE-GFN 22 TRACER 8 MolChef 18 DoG-Gen QSAR ≥ 0.5 比較 on DRD2 (%)

TRACE-GFN は TRACER の約 2 倍、Molecule Chef や DoG-Gen を大幅に上回る。trajectory balance + 反応認識の相乗効果。

④(c) FCD ↔ SA トレードオフ
MolChef DoG TRACER TRACE-GFN FCD (novelty →) SA score (synth diff →) FCD vs SA score (4 generators)

TRACE-GFN は FCD 高(=新規性)側に振れる代わり SA score が上がる古典的トレードオフ。SA を reward に加える multi-objective で SA は下がるが QSAR も下がる。

④(d) Top hit 化合物
0.98 DRD2: 4b 0.854 AKT1: 6b 0.893 CXCR4: 11c Highest QSAR mol per target

DRD2 で reductive amination → 0.980、AKT1 で Suzuki-Miyaura → 0.854、CXCR4 で Buchwald-Hartwig → 0.893 と、実在反応で組み立て可能なルートを生成。

主要構成要素と設定
要素仕様役割
Conditional Transformerd=512, head=8, layer 6/6, FFN=2048T(s'|s,a) — 反応 product 生成
GCN policyπ(a|s) — reaction template 予測action 選択
Z_θ(β) MLP3 隠れ層、β-conditionalpartition function 推定
Losstrajectory balance (uniform P_B)R(x)^β 比例分布学習
Trajectorymax_len=5, beam=50, 100 rounds × batch 64~70h on V100 32GB
RewardR(x) = QSAR (RF/ECFP) ± λ·SADRD2/AKT1/CXCR4
PretrainingUSPTO 反応データ (塩・溶媒除去)反応認識の prior
⑤ テイクホームメッセージ
  • 反応認識 + GFlowNet = 高reward × 多様性 × 合成可能性の三立を実現
  • 温度 β は推論時に切替可能で、運用上のハンドル数が少ない
  • 選択性(chemo/regio/stereo)と保護基制御は今後の課題
  • MIT-OSS で再現容易、社内パイプラインへの統合コスト低
本研究のインパクト
  • lib/molgen に GFlowNet と reaction-aware 抽象化を導入する強い動機
  • UniDockRunner / ProLIFCalculator と reward 結合で structure-aware 化が容易
  • AiZynthFinder 連携で「生成 → retrosynthesis 検証」の閉ループが現実的