U1A 4xCharge Mutant — AI Structure Prediction Failure

1背景と課題

AI構造予測モデル (AF2 等) は CASP15 で実験精度に肉薄したが、 埋没イオン化残基を含む静電駆動の折り畳みでは PDB 訓練分布が薄く、物理化学的破綻が懸念されてきた。

U1A (102 aa) の表面負電荷クラスタ E11/E12/D90/D92 に注目
これら4残基を K (正電荷) に一括反転させたら何が起きるか?
静電破綻の実験的証拠と AI 予測の同時評価が不在

2手法の概要

Wet: 4xK 変異体 (E11K/E12K/D90K/D92K) を E.coli 発現 → X線 1.8 Å、 CD で α/β 含量、SEC でオリゴマー状態を測定。
Dry: 同一配列を 4 種 AI 構造予測器に投入し、実験構造 / 野生型 (PDB:1URN) との RMSD と pLDDT を比較。

ColabFold (AF2) / RoseTTAFold2
OmegaFold / ESMFold (シングルシーケンス系)

3本研究で示したこと

4点正電荷置換は U1A の三次構造を 根本的に再編: αhelix 含量 ≒ 2 倍、可溶性三量体形成、長い α-helix と N-C ドメイン間相互作用を持つ 新規 fold が出現。一方、4 つの AI モデルは全て野生型と RMSD < 1 Å の予測を返し、実験構造とは RMSD > 5 Å。しかも pLDDT > 80 と 高信頼度で誤予測。

4主な結果

a

αhelix 含量 (CD) が 2 倍に倍増

CD分光: 4xK で α-helix 含量が約 2 倍に増加。同時に SEC で三量体ピークを観測。

b

4 AI モデル全てが WT 側へ"張り付く"

予測構造は WT (RMSD<1Å) に張り付き、実験 4xK 構造とは RMSD > 5 Å。

c

高 pLDDT で誤る "confident wrong"

残基の 71% が pLDDT>80。誤予測なのに信頼度高い → ユーザーが見抜きづらい。

d

失敗パターン: 静電寄与の欠落

原因仮説: 埋没イオン化残基を訓練分布で十分に学べていない (PDB 統計の偏り)。

5テイクホームメッセージ

!

配列上は穏やかな 4 残基置換でも、実際は α-helix が 2 倍・三量体に大変身する一方、AF2/RF2/OmegaFold/ESMFold は高信頼で WT そっくりを出力する ── AI 構造予測を創薬・変異設計に使う際は、埋没イオン化残基や強い静電摂動を含む系では実験的検証を必ず併走させ、pLDDT を盲信しないこと。