MolSculpt: Sculpting 3D Molecular Geometries from Chemical Syntax
凍結MoLLaMA × learnableクエリ × 3D拡散モデル — SELFIES知識を3D生成にクロスモーダル転写(arXiv:2512.10991, Chen & Zou et al., 2025)
🎯 1D化学知識と3D幾何生成の断絶を埋める。GEOM-DRUGSでFCD3D SOTA、条件付き生成でMAE最大75%削減
① 背景と課題

SELFIES(100%妥当性保証)を使う既存手法(NExT-Mol等)は1D基盤モデルの化学知識を3D生成に活用できていない。1D生成と3D生成が孤立して動作し、大規模事前学習で蓄積された化学知識が3D幾何品質向上に寄与しない。

直接3D拡散手法(EDM/JODO)はSELFIES妥当性保証がなく、無効分子を生成する
NExT-Molは1D妥当性を利用するが、MoLLaMAの豊かな化学知識を3Dに深く統合する仕組みがない

→ learnableクエリで1D基盤モデルから化学知識を蒸留し、projectorで3D拡散条件に転写

② MolSculptアーキテクチャ
SELFIES文字列
↓ MoLLaMA(960M・凍結・1.8B分子事前訓練)
↓ learnableクエリ NQ個(cross-attention)
↓ Projector(Qwen2.5 Encoder・双方向attention)
↓ FFN → 拡散条件次元
↓ adaLNでDiffusion Blockに条件注入
↓ 高精度3D分子コンフォーマ
③ 2段階訓練戦略
  • Stage 1: MoLLaMAをfinetuneしてSELFIES生成の分布を整合(QM9:100epoch / GEOM-DRUGS:20epoch)
  • Stage 2: MoLLaMA凍結 → Projector+FFN+拡散モデルをend-to-end最適化
  • 基盤モデル凍結により事前学習知識を保全しながら下流に転用
  • 4×NVIDIA A800-40GBで学習
④ GEOM-DRUGS 3D指標
手法FCD3D↓MolStable
訓練上限13.730.028
MolSculpt (ours)13.670.026
UDM-3D17.360.014
NExT-Mol14.69-
JODO19.990.010
EDM31.290.002

FCD3DはTrainを超えるSOTA達成

④ QM9 条件付き生成(MAE↓)
性質MolSculptNExT-Mol改善
α (ų)SOTA--75%
CvSOTA--74%
ΔεSOTA--71%
εLUMOSOTA--74%
εHOMOSOTA--69%
µSOTA--33%
④ QM9 de novo 3D指標
指標MolSculptSOTA位置
Bond Angle MMD2.90e-031位
3D MolStable0.9611位
FCD0.0651位
Scaffold sim.0.9451位
3D AtomStable0.9951位
⑤ learnableクエリの仕組み
  • NQ個のランダム初期化クエリがSELFIESトークンとcross-attention
  • 1Dシンタックス・機能基・スキャフォールドパターンを選択的に凝縮
  • Q-Formerと類似した設計、分子ドメイン特化
  • Projectorの双方向attentionでクエリ間のリッチな依存関係を捕捉
基盤モデルをfine-tuneせずに化学知識を転用 → 事前学習知識の保全が鍵
⑥ テイクホームメッセージ
🧬 1D知識×3D生成の初の深い統合
凍結基盤モデル+learnableクエリ+projectorという軽量アダプタで、1.8B分子の化学知識を3D生成に転写。
🏆 GEOM-DRUGSでFCD3D訓練上限超え
FCD3D=13.67で訓練データ分布を超える3D忠実度を達成。実用ドラッグサイズ分子への高い汎化性。
条件付き生成でMAE最大75%削減
量子化学的性質を指定した分子生成でNExT-Mol比大幅改善。電子的性質ターゲット設計に直結。
🔒 SELFIES保証の100%妥当性
1D妥当性を保ちながら3D高品質化。基盤モデル凍結により汎化性と効率を両立。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenMolgenYamlのde novo 3D生成エンジンとして統合
lib/dockingMolSculpt 3DコンフォーマをUniDock初期ポーズに使用
lib/fepHOMO/LUMO指定条件付き生成→MMGBSAリード最適化

RDKit ETKDGより難しい大員環・密充填構造での3D品質向上が期待される

本研究のインパクト
  • 1D化学知識と3D生成の断絶をlearnableクエリで解消した初のフレームワーク
  • GEOM-DRUGSで訓練上限を超えるFCD3D SOTAを実証
  • lib/molgenの3D生成エンジン刷新候補として即座に実装検討可能