Protenix-v1: Open-Source AlphaFold3 Killer

1背景と課題

AlphaFold3 は構造予測の新時代を切り開いたが、学習コード・モデル重みは非公開、推論のみ限定公開で商用利用に制限あり。
再現実験・派生モデル・パイプライン統合が困難。創薬企業内ドッキング基盤への組込が進まない。
Boltz-1 (MIT/Recursion) はOSS化を試みたが AF3 の単純再実装にとどまり、RNA・テンプレート対応が弱い。
課題 AF3 と同等の精度・コストで「全開放された」構造予測モデルが存在しない。

2手法の概要

ベース: AF3 と同じ Diffusion + Pairformer ハイブリッド。学習データカットオフ・モデルサイズも揃え公平比較。
独自改良 ①: Protein Template 配列相同検索→Pairformer入力に統合。
独自改良 ②: RNA MSA Rfam/RNAcentralから構築しRNA鎖特徴に加算。
独自改良 ③: 推論時スケーリング n=10〜50 サンプル → SLL+pLDDT で best 選択。
公開: 学習コード・重み・推論パイプライン全て MITライセンス。

3本研究で示したこと

AF3 と同一計算コストのままで、複数ベンチマークで AF3 を上回る精度を達成。
protein-ligand docking RMSD<2Å 成功率: AF3 比 +約5% (PoseBusters)。
RNA-protein 複合体精度: AF3 比 +約10%（RNA MSA 統合の効果が顕著）。
推論時スケーリング (n=10) で困難ターゲット成功率 +約8%。
意義 AF3 級基盤を全企業・全研究室が無償・改変可能で利用可能に。

4主な結果

aAF3 比精度ゲイン (%)

単体タンパク質は同等。RNA-protein で +10%、推論時スケーリングで困難ターゲット +8% が突出。

b推論時スケーリング n vs 成功率

困難ターゲットでは n=10 で +8%、n=50 で更に伸びる。コストとのトレードオフ。

cProtenix アーキテクチャ

AF3 とほぼ同型のバックボーンに Template/RNA-MSA/推論スケーリングを追加した点が差分。

dOSS化の到達度比較

Protenix-v1 のみ全項目で完全公開・MIT ライセンス。AF3 は学習コード・商用が大幅制限。

5テイクホーム

① OSS化の決定打: AF3 級モデルが学習コードまで全公開。商用パイプラインに堂々と組込可能に。

② 弱点克服: RNA MSA 統合で RNA-protein +10%。AF3 が苦手な領域を狙い撃ち。

③ 創薬応用: UniDockRunner / FEP の前段で受容体生成 → 変異体・未解明標的の起点構造を無償取得。