UniLingo3DMol — Unified 3D Molecular Language Model

UniLingo3DMol: De Novo + Fragment-Based 3D 分子設計を統合した言語モデル

Wang, Huang et al. (bioRxiv 2025.11.13.688260) · Peking Univ. / StoneWise Technology / CAS · machine_learning

🎯 de novo 設計とフラグメント保持設計を単一Transformerで統合し、
AIによる鉛発見から鉛最適化まで一貫した3D分子生成を実現

① 背景と課題 — de novo vs FBDD の分断

AIによる分子設計はde novo設計（Pocket2Mol, TargetDiff等）とフラグメントベース設計（Delete, DiffLinker等）に分断され、相互の強みを活かせていない。de novoはドラッグライクネスが低く、FBDDは新規スキャフォール探索が苦手。

既存SBDD生成モデルの活性化合物再現率（ECFP_TS>0.5）は最高でも 35% 以下

複数未接続フラグメントを保持したままde novo生成できる単一フレームワークが存在しない

→ CBL-B免疫療法標的に対して AI 主導で鉛化合物を創製し、問題を実証的に解決

② DSMILES 表現

通常SMILESにフラグメント接続ポインタ列を付加したデュアルシーケンス表現。未接続フラグメントを先頭に配置し自己回帰でリンクできる。

Token列 + Pointer列 + Coord列

3つの系列で2Dトポロジーと3D座標を完全記述

de novoは先頭入力を空に、フラグメント保持は先頭に保持フラグメントを配置するだけで同一モデルが対応

③ アーキテクチャ

6-layer Encoder（ポケット特徴量 + NCI/Anchor annotation）+ 12-layer Decoder（DSMILES自己回帰生成）

Token head: トークンタイプ予測
Pointer head: 接続先ポインタ予測
Coordinate head: 原子座標予測

全シナリオで共有パラメータ → 入力モダリティのみで制御

④ 3段階マルチタスク訓練パイプライン

Stage 1: Pre-training

8M 仮想化合物

ConfGen 3D 配座

Ligand denoising

化学空間・多様性を学習

→

Stage 2: Post-training

RComplex Level1/2

~190万複合体

Task1 NCI分類

Task2 非条件生成

Task3 条件付き生成

結合モードを3タスクで学習

→

Stage 3: Fine-tuning

RComplex Level0

（高品質共結晶構造）

実験データで精度向上

RComplex: PDB 48,222構造 + ChEMBL/PubChem/GOSTAR → 370万件のタンパク質-リガンド複合体DB（Level 0/1/2の信頼度分類付き）

⑤ DUD-E ベンチマーク結果（102標的）

モデル	ECFP_TS>0.5	Drug-like%
Pocket2Mol	<35%	~70%
TargetDiff	<35%	~65%
Lingo3DMol	<35%	~82%
MolCraft	<35%	~86%
UniLingo3DMol	>70%	>80%

活性化合物再現率が全競合モデルの2倍超 — 3D配座品質・結合モードでも SOTA

⑥ CBL-B阻害剤発見への応用（2ラウンド生成）

🔬 Round 1: 新規スキャフォールド探索
PDB 8GCY → 2フラグメント保持生成 (~70万分子)
QED/SAS/TED/CSK/GlideSP多段スクリーニング
→ Cmpd.4 (micromolar活性) → Cmpd.6 IC₅₀ 16.8 nM

💊 Round 2: 鉛最適化
Cmpd.7 共結晶 (2.8Å) でNCI解析
→ F263非古典的H結合 + E268塩橋を制約に
1フラグメント保持生成 (~50万分子)
→ Cmpd.20 (R体) IC₅₀ 159 nM

🐭 In Vivo 有効性
CT26同系腫瘍モデル (マウス)
Cmpd.20 30mg/kg p.o. + PD-1抗体
TGI 76%、良好な忍容性

✅ 予測精度の実験的検証
生成分子の3D共結晶構造が
UniLingo3DMol予測と高一致
→ モデルの結合モード予測を実証

ケムインフォパイプラインへの応用

適用先	ユースケース	優先
lib/molgen	DSMILES backend として MolgenYaml に統合 (de novo/FBDD 統一API)	High
lib/molgen	NCI/anchor 自動抽出 → 条件付き生成で生成品質大幅向上	High
lib/docking	UniDockRunner と Min-in-place 二段スクリーニング連携	Med
lib/fep	MMGBSAEngine で生成候補の相対ΔΔG を hit-to-lead 絞り込みに活用	Med

DSMILESトークナイザ整備 → NCI抽出（ProLIFCalculator連携）→ 段階的 fine-tune の3ステップで実装可能

インパクト・限界

de novo/FBDD 統一で AI創薬の学習範囲を2倍化
ECFP_TS>0.5 で前世代モデルを2倍超える再現率
CBL-Bで実際の鉛化合物創製に成功（in vivo TGI 76%）

静的結晶構造依存 — タンパク質柔軟性・アロステリクスを未考慮

実装・モデル重みは非公開（StoneWise社商業開発）

GlideSP依存（Schrodinger商用ライセンス必要）