UBio-MolFM: A Universal Molecular Foundation Model for Bio-Systems
IQuest Research | arXiv:2602.17709 | April 2026 (Preprint)
🎯 DFT精度 × 生物学的スケール(1500原子)を両立するML力場基盤モデル。E2Former-V2(線形スケーリング等変Transformer)×生体特化データ×3段階カリキュラムでタンパク質精度MACE比9倍改善。
① 背景と課題

既存のMLFF(MACE-OMol・UMA等)は350原子程度が上限であり、タンパク質・核酸・リガンド複合体という創薬系を直接シミュレートできない。高次数等変演算(高L_max)が計算を重くし、溶媒化タンパク質の長時間MDが非現実的なコストになる。生体系特化データも存在しなかった。

既存MLFFの原子数上限〜350原子 — タンパク質・RNA複合体を直接扱えない
高L_max等変演算の計算コストが大規模系での長時間MDを阻む

→ 生体系特化データ+線形スケーリングアーキテクチャ+マルチフィデリティ学習で同時解決

② 手法の概要: UBio-Mol26データセット

ボトムアップ(アミノ酸・塩基のビルディングブロック列挙)×トップダウン(AFDB大規模タンパク質からLocalサンプリング)の二方向戦略で生体特化データを構築。DFT: ωB97M-D3/def2-TZVPD(GPU4PySCF)。最大1200原子系を含む。

ボトムアップ: アミノ酸・核酸ブロック列挙
トップダウン: AFDBタンパク質構造→局所サンプリング
② 手法の概要: E2Former-V2 + 3段階カリキュラム

EAAS(等変軸整列スパース化)で注意グラフをスパース化し線形スケーリングを実現。LSR(Long-Short Range)で長距離静電相互作用を明示的に取り込む。3段階カリキュラム:エネルギー初期化→OMol25で整合性確立→UBio-Mol26マルチフィデリティ精緻化。

推論スループット: 大規模系でMACE/UMAの最大4倍高速
③ 本研究で示したこと(要点)
  • OODテスト(1300-1500原子)でタンパク質Rel.E. MAE: MACE比9倍改善(76.9→8.3 meV/100at)
  • RNA最適化でRel.E. MAE >60%削減(MACE 473.6→144.7)
  • 液体水・イオン溶媒和・ペプチドフォールディング・CsA溶媒依存構造変化を正確に再現
  • 推論4倍高速化でスケーラブルな長時間MDシミュレーションが実現可能に
④ 主な結果 (a) タンパク質 Rel.E. MAE比較
タンパク質 Rel.E. MAE (meV/100atoms) — 低いほど良い MACE UMA UBio-S3 76.9 83.4 8.3 ✓ → 9倍以上の大幅改善
④ 主な結果 (b) RNA Rel.E. MAE比較
RNA最適化 Rel.E. MAE (meV/100atoms) MACE UMA UBio-S3 473.6 415.9 144.7 ✓ → 60%以上削減
④ 主な結果 (c) 下流MDタスク検証
液体水構造
O-O動径分布関数をDFT参照と良好に一致
イオン溶媒和
金属イオン配位構造を物理的に妥当に再現
CsA コンフォメーション
水中/真空中の溶媒依存変化を実験と一致して再現
④ 主な結果 (d) 推論スループット vs スケール
推論スループット(相対)大規模系(1K〜100K原子) MACE UMA E2Former-V2 1.0x 1.6x 4.0x ✓ 線形スケーリングで大規模系4倍高速
⑤ テイクホームメッセージ
スケールと精度の壁を突破
DFT精度を維持したまま1500原子系まで拡張。タンパク質・RNA・リガンド複合体を直接シミュレート可能に
線形スケーリング
EAASスパース化+LSR設計でMACE/UMAの4倍高速。大規模生体系の長時間MDが現実的コストに
lib/md 応用最優先
古典力場が苦手な金属酵素・RNA系・反応中間体のMDに。公開後はHBondAnalyzer/RMSDAnalyzerと連携
FEP精度向上への道
金属含有ターゲットのΔΔG計算でhybrid ML/MM FEP。モデル公開後に評価。lib/fep最有力候補
精度比較サマリー
モデルタンパク質MAERNA MAE速度
MACE-OMol76.9473.61.0x
UMA-S-1p183.4415.91.6x
UBio-S38.3 ✓144.7 ✓4.0x ✓

* DNA S3でregressionあり(8.17→19.45)。UBio-Mol26のDNAカバレッジ不足が原因

本研究のインパクト
  • 生体系ML力場の精度・スケール・速度の三律背反を初めて同時解消
  • lib/md(金属酵素・RNA)・lib/fep(hybrid ML/MM)への応用でパイプライン精度向上
  • オープンサイエンスリリース計画中 — 公開後に実用化評価を優先実施