既存のMLFF(MACE-OMol・UMA等)は350原子程度が上限であり、タンパク質・核酸・リガンド複合体という創薬系を直接シミュレートできない。高次数等変演算(高L_max)が計算を重くし、溶媒化タンパク質の長時間MDが非現実的なコストになる。生体系特化データも存在しなかった。
→ 生体系特化データ+線形スケーリングアーキテクチャ+マルチフィデリティ学習で同時解決
ボトムアップ(アミノ酸・塩基のビルディングブロック列挙)×トップダウン(AFDB大規模タンパク質からLocalサンプリング)の二方向戦略で生体特化データを構築。DFT: ωB97M-D3/def2-TZVPD(GPU4PySCF)。最大1200原子系を含む。
EAAS(等変軸整列スパース化)で注意グラフをスパース化し線形スケーリングを実現。LSR(Long-Short Range)で長距離静電相互作用を明示的に取り込む。3段階カリキュラム:エネルギー初期化→OMol25で整合性確立→UBio-Mol26マルチフィデリティ精緻化。
| モデル | タンパク質MAE | RNA MAE | 速度 |
|---|---|---|---|
| MACE-OMol | 76.9 | 473.6 | 1.0x |
| UMA-S-1p1 | 83.4 | 415.9 | 1.6x |
| UBio-S3 | 8.3 ✓ | 144.7 ✓ | 4.0x ✓ |
* DNA S3でregressionあり(8.17→19.45)。UBio-Mol26のDNAカバレッジ不足が原因