Protenix-v1: A Fully Open-Source Structure Prediction Model Surpassing AlphaFold3
ByteDance Seed / 2026年2月
DOI:
10.64898/2026.02.05.703733
Category:
machine_learning
🎯 AF3を完全OSSで超え、創薬パイプラインの構造予測基盤を開放する
1
背景と課題
AlphaFold3
は構造予測の新時代を切り開いたが、
学習コード・モデル重みは非公開
、推論のみ限定公開で
商用利用に制限
あり。
再現実験・派生モデル・パイプライン統合が困難。
創薬企業内ドッキング基盤への組込が進まない
。
Boltz-1 (MIT/Recursion) はOSS化を試みたが
AF3 の単純再実装にとどまり
、RNA・テンプレート対応が弱い。
課題
AF3 と同等の精度・コストで「全開放された」構造予測モデルが存在しない。
2
手法の概要
ベース:
AF3 と同じ
Diffusion + Pairformer
ハイブリッド。学習データカットオフ・モデルサイズも揃え公平比較。
独自改良 ①:
Protein Template
配列相同検索→Pairformer入力に統合。
独自改良 ②:
RNA MSA
Rfam/RNAcentralから構築しRNA鎖特徴に加算。
独自改良 ③:
推論時スケーリング
n=10〜50 サンプル → SLL+pLDDT で best 選択。
公開:
学習コード・重み・推論パイプライン全て
MITライセンス
。
3
本研究で示したこと
AF3 と
同一計算コスト
のままで、複数ベンチマークで
AF3 を上回る精度
を達成。
protein-ligand docking RMSD<2Å 成功率: AF3 比 +約5%
(PoseBusters)。
RNA-protein 複合体精度: AF3 比 +約10%
(RNA MSA 統合の効果が顕著)。
推論時スケーリング (n=10) で困難ターゲット成功率
+約8%
。
意義
AF3 級基盤を全企業・全研究室が無償・改変可能で利用可能に。
4
主な結果
a
AF3 比 精度ゲイン (%)
0
5
10
15
Δ精度 (%)
≈0
+5
+10
+8
Protein
TM
Ligand
RMSD
RNA-Prot
複合体
+ Infer
Scaling
単体タンパク質は同等。
RNA-protein で +10%
、推論時スケーリングで困難ターゲット +8% が突出。
b
推論時スケーリング n vs 成功率
50
60
70
80
成功率 (%)
1
5
10
25
50
サンプル数 n (log scale)
AF3 (n=1) ≈55%
56
63
72
単調増加: n↑ → success↑
困難ターゲットでは
n=10 で +8%
、n=50 で更に伸びる。コストとのトレードオフ。
c
Protenix アーキテクチャ
Protein MSA
Templates
RNA MSA
Ligand SMILES
Pairformer
(48 blocks)
Diffusion
(coord refine)
Inference-time Scaling
n samples → SLL + pLDDT → best
3D Complex (Protein+RNA+Ligand)
AF3 とほぼ同型のバックボーンに
Template/RNA-MSA/推論スケーリング
を追加した点が差分。
d
OSS化の到達度比較
Protenix-v1
AlphaFold3
Boltz-1
推論コード
学習コード
モデル重み
商用利用
RNA/Templ.
×
○
Protenix-v1 のみ全項目で完全公開・MIT ライセンス
。AF3 は学習コード・商用が大幅制限。
5
テイクホーム
① OSS化の決定打:
AF3 級モデルが学習コードまで全公開。
商用パイプラインに堂々と組込可能
に。
② 弱点克服:
RNA MSA 統合で
RNA-protein +10%
。AF3 が苦手な領域を狙い撃ち。
③ 創薬応用:
UniDockRunner / FEP の前段で受容体生成 →
変異体・未解明標的の起点構造を無償取得
。