A Unified Language Model Bridging De Novo and Fragment-Based 3D Molecule Design
DOI: 10.21203/rs.3.rs-8558464 | 2026年2月 | Category: machine_learning | 北京大学 × StoneWise Technology
de novoとFBDDを統一するポケット条件付き3D分子LM。北京大・StoneWise共同研究。同一モデルのモード切替で創薬フェーズに応じた生成戦略を実現。公開実装後lib/molgenへ統合予定。 #FBDD #生成モデル
① 背景と課題

構造ベース創薬では「ゼロから設計するde novo生成」と「既存フラグメントを延伸して最適化するFBDD」という二つの主要戦略が併用されるが、両者は通常別々のモデル・別々のツールチェーンで実装されてきた。TargetDiff・DiffSBDDといった拡散モデルはde novo生成に特化し、ポケット形状を条件付けに使う一方でフラグメント起点の延伸は想定していない。逆にBRICS・FBMC等のFBDDツールは2Dフィンガープリントベースで動作し、ポケットの3D情報を直接利用しないものが多い。

創薬の進行段階(初期ヒット発見〜リード最適化)に応じてモードを切り替えたい実務ニーズに対し、現状はモデルの使い分けと出力フォーマット変換コストが大きい。

ギャップ: de novoモードとFBDDモードを単一のポケット条件付き3D生成モデルで切替えられる統一アーキテクチャが存在しない。
② 手法の概要
Pocket Atoms (座標+種別) → Tokens Transformer Encoder Mode: de novo 空シード Mode: FBDD フラグメント=シード Autoregressive Decoder 3D Mol (SMILES + 原子座標)

ポケット残基を原子トークン化しTransformerで潜在表現化。デコーダーが原子を自己回帰的に追加し、SMILESと3D座標を同時出力。FBDDモードは初期フラグメントを「シード」として与えるだけでモード切替が完結する。

③ 本研究で示したこと
  • de novoとFBDDを単一Transformer LMで統一実装し、モード切替で創薬フェーズに対応
  • ポケット原子を直接トークン化する3D条件付けを実現(2Dフィンガープリント不要)
  • 両モードでvalidity > 85%・QED > 0.5を達成
  • FBDDモードはde novo単独よりドッキングスコア改善傾向を示しシード活用効果を実証
  • 複数PDBターゲットで既存ベースラインに対し優位または同等以上の生成品質
④-a 主要指標 (Validity / QED)
両モードでの主要メトリクス 100% 75% 50% 25% 85% 88% 0.50 0.55 Validity QED de novo FBDD 著者報告値

両モードとも実用閾値(validity≥85%, QED≥0.5)を超過。FBDDシードを与えると既知ファーマコフォアが保持され、QEDも僅かに改善する傾向。

④-b 検証プロトコル

複数のPDB由来タンパク質-リガンド複合体に対し、(1) de novoモードでゼロからの生成、(2) FBDDモードで既知フラグメントを起点とした延伸、の双方を実施。出力分子をAutoDock Vinaでポケット内ドッキングし、結合スコア・幾何適合性を評価。

主要評価指標
Validity / Uniqueness / Novelty / QED / SA / Vina

訓練データはPDB複合体・ChEMBL・StoneWise内部DB。複数の生成モデルベースラインと比較し、ターゲットごとの分子集合の質を統計的に評価。

内部データ依存のため完全再現は困難。複数PDBターゲットでの汎化性は確認済。
④-c ドッキング & SA バブル比較
Vina (kcal/mol, ↓良) と SA score SA score (低=合成容易) |Vina| (大=高親和性) 2 3 4 5 6 7 8 9 Base deNovo FBDD ↑左上が優

FBDDモードがVina結合スコア・SA共に最良域へ移動。シード由来の合成容易な骨格が維持され、ドッキング親和性も向上する傾向。

④-d 限界点
  • プレプリント段階(査読前・Research Square)
  • StoneWise内部訓練データ非公開で完全再現不可
  • FBDD性能は与えるフラグメントライブラリ品質に強く依存
  • 生成3D座標のコンフォメーション正確性の独立検証なし
  • SAスコアのみで実際の合成難易度評価が不十分
⑤ テイクホームメッセージ
統一アーキテクチャ
de novoとFBDDの境界をモード切替で吸収する単一Transformer LMの実用性を提示。
3Dポケット直接条件付け
原子トークン化により2Dフィンガープリント抽象化を不要化。
FBDDの定量的優位
シード活用でVina・SA・QED全方位でde novo単独より改善傾向。
創薬フェーズ適応
初期ヒット発見〜リード最適化を同一モデルで切替実装可能。
ケムインフォマティクス応用
適用先ユースケース期待効果
lib/molgenMolgenYamlに統一インターフェースで mode=denovo / fbdd を導入創薬フェーズに応じ単一YAMLで戦略切替
lib/dockingFBDD出力をUniDockRunnerに直接連結し3D座標を再ドッキング検証生成→評価のend-to-end化

既存のフラグメントヒット(HTSやFBSヒット由来)をシードに3D分子設計を駆動できるため、社内HTSパイプラインとの結合点を最も明快に提供する手法群の一つ。

本研究のインパクト
  • de novo / FBDD の二択を「モードパラメータ」化する設計思想を提示
  • 産学共同(北京大×StoneWise)で実データ駆動の汎化性検証
  • 公開実装後はlib/molgenへ優先統合候補として位置付け