CLIPP-SET + MCLM: Structure-guided Molecular Design with Contrastive 3D Protein-Ligand Learning
Carles Navarro, Philipp Tholke, Gianni de Fabritiis (Acellera Labs / UPF) — arXiv:2604.19562, 2026年4月
🎯 ポケット3D構造のみから59億Enamine化合物をゼロショットでスクリーニング+合成可能な候補を直接生成
① 背景と課題

SBDD の2大課題:(1) タンパク質-リガンド3D相互作用の正確な捕捉、(2) 数十億〜数兆規模の化学空間の探索。従来手法はこの2つを別々に解決してきた。

ドッキング(Glide, Vina)は精度高いが、59 億化合物への全適用は計算上不可能
3D拡散生成モデル(Pocket2Mol, DiffSBDD)は実験構造データが希少で価数エラー・後処理が必要。市販化学空間を直接学習できない
DrugCLIP 等の先行コントラスト手法はスクリーニング専用で生成機能なし

→ SE(3)-等変3Dエンコーダー+対照学習+CLMを統合し、参照リガンド不要のスクリーニング・スキャフォードホッピング・de novo 生成を単一フレームワークで実現

② フレームワーク構成
【CLIPP-SET】 Pocket/Ligand 3D 座標 → SET エンコーダー → 256次元共有埋め込み空間 → コサイン類似度 VS
【MCLM】 凍結エンコーダー embedding + [ds token] → prepend → Llama2 自己回帰 → SMILES 生成
  • SET: SE(3)-等変・反射不変の距離対応 attention。2.87億コンフォーマーで事前学習
  • CF-InfoNCE: pocket collision(同一ポケット複数リガンド)を動的正例選択で対処
  • データセットトークン: 学習済み化学空間(Enamine/Mcule等)へ生成を誘導
  • 推論: 64コンフォーマー生成→最大類似度選択でスコア安定化
③ 主な結果 (a) LIT-PCBA ゼロショット VS
EF(0.5%) — ポケット情報のみ使用(参照リガンドなし) Surflex 6.55 6.55 Glide 4.64 Gnina 4.63 DrugCLIP 5.51 CLIPP-SET 6.55 ✓ 6.55 ※ BEDROC=9.66 で全手法最高 → 早期濃縮性能トップ
③ 主な結果 (b) Enamine REAL 59億化合物検索 vs Morgan FP
15ターゲット平均(15 LIT-PCBA targets) pred. pIC50 ↑ CLIPP-SET 5.71 Morgan FP 5.45 diversity ↑ CLIPP-SET 0.788 Morgan FP 0.587 chem. similarity ↓(低いほど新規性高) CLIPP-SET 0.11 Morgan FP 0.36 参照リガンド不要で高pIC50・高多様性・高新規性を同時達成 ※ Aff.Prob. は Morgan FP が優位(0.502 vs 0.451)
③ 主な結果 (c) MCLM de novo 生成
手法Aff.Prob.↑pIC50↑多様性↑
Morgan FP 検索0.505.450.59
CLIPP-SET Pocket検索0.455.710.79
CLIPP-SET Ligand検索0.555.690.74
MCLM Ligand生成 ✓0.686.310.54
MCLM Pocket生成0.465.890.81

MCLM Ligand生成が全手法中最高の予測親和性。Pocket生成は参照リガンド不要で最高多様性

⑤ 限界点・残る課題
  • LIT-PCBA 15ターゲットのみでの評価 — 多様なタンパク質ファミリーへの汎化未検証
  • 推論時 64 コンフォーマー生成 → 億スケール適用時の計算ボトルネック
  • リガンド条件付き生成の Enamine steering が参照リガンドの化学的性質に依存
  • モデル公開情報が論文中で不明確
⑥ ケムインフォ活用シナリオ
lib/docking フロントエンド VS
CLIPP-SET pocket embedding → faiss インデックス → コサイン検索でトップ1000取得 → UniDockRunner へ投入。数十億ライブラリを秒単位でスクリーニング
lib/molgen バックエンド生成
MolgenYaml に [ds token] + embedding 条件付けを追加。Enamine トークンで購入可能候補を直接生成。後処理 RL 不要
scaffold hopping
CLIPP-SET ligand 埋め込み検索で Tanimoto=0.19 の化学多様な3D形状類似体を取得。特許回避・IP多様化に有効
ProLIF 前処理
CLIPP-SET スコアを ProLIFCalculator の入力フィルターとして統合し、品質の高いポーズのみを相互作用解析へ
⑦ 実装優先度・まとめ
  • Priority: High — lib/docking・lib/molgen 両方への直接統合価値
  • CLIPP-SET: faiss + cosine で59億スケール VS を秒単位に短縮
  • MCLM: Enamine トークンで合成可能候補を直接生成(RL後処理不要)
  • 実装: Acellera Labs OSS(GitHub確認要)、依存: PyTorch + RDKit + faiss
X投稿用(120字)
CLIPP-SET+MCLMでポケット3D構造から合成可能分子を直接生成。参照リガンド不要で59億Enamine化合物を高速スクリーニング。LIT-PCBAでEF(0.5%)=6.55。 #SBDD #MolecularDesign