VeGA: Versatile Generative Architecture for Bioactive Molecules across Multiple Therapeutic Targets
Delre & Lavecchia · DOI:10.1021/acs.jcim.5c01606 · J. Chem. Inf. Model. 2025, 65, 10918–10931
🎯 0.8Mパラメータの軽量Transformer。MOSESで有効率96.6%・新規性93.6%、スキャフォールド多様性はS4/R4を超える。77化合物のlow-dataでも機能。
① VeGAアーキテクチャ

Bayesian最適化(Optuna TPE)で決定したハイパーパラメータ採用。大規模モデルの1/10以下の規模で同等性能。

~0.8M
総パラメータ数(MolGPT 8.6M、LLaMol 15Mの1/10以下)
~20ms
推論速度(1分子・単一GPU)
4層 × 4ヘッド
Masked Self-Attention
dim=100 / FFN=300
Embedding / Feed-Forward

sin/cos固定位置エンコーディング(追加パラメータなし)

② MOSES + ChEMBLベンチマーク結果
指標VeGAS4R4MolGPTCharRNN
有効率(%)96.5798.4099.4097.50
新規性(%)93.6088.1079.7084.20
ユニーク@1k100.0100.0100.0100.0
FCD Test0.180.010.070.07

ChEMBL生成評価(スキャフォールド多様性):

モデルユニークスキャフォールド数SDI
VeGA69,92111.10
S463,384
R462,250
③ 5ターゲットfine-tuning評価(low-data対応)
  • PKM2: 436化合物でfine-tuning
  • MAPK1: 246化合物
  • GBA: 132化合物
  • mTORC1: わずか77化合物(極端なlow-data)
  • FXR: 882化合物 → GLIDEドッキング検証済み
Leakage-safe評価: Tanimoto≥0.6でholdout分子との重複を排除したRecovery Rate指標を採用
④ FXR事例研究

FXR(ファルネソイドX受容体)リガンド882化合物でfine-tuning後、新規候補分子を生成。GLIDEドッキング(PDB: 3DCT、SP精度)で結合ポテンシャルを検証。

0.81 Å
再ドッキングRMSD(プロトコル信頼性確認)

既知リガンドのスキャフォールドを超えた新規化合物で結合ポテンシャルを確認

⑤ lib/molgenへの統合提案
  • MolgenYamlジェネレータ: 軽量・高速(20ms/mol)でリアルタイム生成+スクリーニングを両立
  • lib/docking統合: VeGA生成→UniDockRunnerスクリーニングの新規スキャフォールド探索パイプライン
  • SDI評価指標: 他ジェネレータとの定量的スキャフォールド多様性比較
制限: 条件付き生成未対応。NP生成の有効率65%とやや低い。合成到達性は別途評価が必要。

実装: github.com/piedelre93/VeGA-for-de-novo-design