AIによる分子設計はde novo設計(Pocket2Mol, TargetDiff等)とフラグメントベース設計(Delete, DiffLinker等)に分断され、相互の強みを活かせていない。de novoはドラッグライクネスが低く、FBDDは新規スキャフォール探索が苦手。
→ CBL-B免疫療法標的に対して AI 主導で鉛化合物を創製し、問題を実証的に解決
通常SMILESにフラグメント接続ポインタ列を付加したデュアルシーケンス表現。未接続フラグメントを先頭に配置し自己回帰でリンクできる。
de novoは先頭入力を空に、フラグメント保持は先頭に保持フラグメントを配置するだけで同一モデルが対応
6-layer Encoder(ポケット特徴量 + NCI/Anchor annotation)+ 12-layer Decoder(DSMILES自己回帰生成)
全シナリオで共有パラメータ → 入力モダリティのみで制御
RComplex: PDB 48,222構造 + ChEMBL/PubChem/GOSTAR → 370万件のタンパク質-リガンド複合体DB(Level 0/1/2の信頼度分類付き)
| モデル | ECFP_TS>0.5 | Drug-like% |
|---|---|---|
| Pocket2Mol | <35% | ~70% |
| TargetDiff | <35% | ~65% |
| Lingo3DMol | <35% | ~82% |
| MolCraft | <35% | ~86% |
| UniLingo3DMol | >70% | >80% |
活性化合物再現率が全競合モデルの2倍超 — 3D配座品質・結合モードでも SOTA
| 適用先 | ユースケース | 優先 |
|---|---|---|
| lib/molgen | DSMILES backend として MolgenYaml に統合 (de novo/FBDD 統一API) | High |
| lib/molgen | NCI/anchor 自動抽出 → 条件付き生成で生成品質大幅向上 | High |
| lib/docking | UniDockRunner と Min-in-place 二段スクリーニング連携 | Med |
| lib/fep | MMGBSAEngine で生成候補の相対ΔΔG を hit-to-lead 絞り込みに活用 | Med |
DSMILESトークナイザ整備 → NCI抽出(ProLIFCalculator連携)→ 段階的 fine-tune の3ステップで実装可能