問題設定: 既存の DL 分子生成モデルは合成経路を考慮しないため、bench 実験への移行コストが大きい。SA score は粗い heuristic、retrosynthesis モデルは選択性把握が課題。
従来手法の限界:
状態 s = 分子、行動 a = reaction template、遷移は GCN policy + 条件付き Transformer (beam=50) で生成。GFlowNet の trajectory balance loss で R(x)^β に比例する分布を学習し、温度 β で exploit↔explore を制御。USPTO 由来反応でプリトレイン。
QSAR≥0.5 を生成する比率。AKT1 で 71.5% に達するなど、高 reward 領域への効率的な誘導が機能。
TRACE-GFN は TRACER の約 2 倍、Molecule Chef や DoG-Gen を大幅に上回る。trajectory balance + 反応認識の相乗効果。
TRACE-GFN は FCD 高(=新規性)側に振れる代わり SA score が上がる古典的トレードオフ。SA を reward に加える multi-objective で SA は下がるが QSAR も下がる。
DRD2 で reductive amination → 0.980、AKT1 で Suzuki-Miyaura → 0.854、CXCR4 で Buchwald-Hartwig → 0.893 と、実在反応で組み立て可能なルートを生成。
| 要素 | 仕様 | 役割 |
|---|---|---|
| Conditional Transformer | d=512, head=8, layer 6/6, FFN=2048 | T(s'|s,a) — 反応 product 生成 |
| GCN policy | π(a|s) — reaction template 予測 | action 選択 |
| Z_θ(β) MLP | 3 隠れ層、β-conditional | partition function 推定 |
| Loss | trajectory balance (uniform P_B) | R(x)^β 比例分布学習 |
| Trajectory | max_len=5, beam=50, 100 rounds × batch 64 | ~70h on V100 32GB |
| Reward | R(x) = QSAR (RF/ECFP) ± λ·SA | DRD2/AKT1/CXCR4 |
| Pretraining | USPTO 反応データ (塩・溶媒除去) | 反応認識の prior |