Closing the loop: Experimentally validated methods in artificial intelligence–driven protein design
Current Opinion in Structural Biology Vol.98 | 2026 | DOI: 10.1016/j.sbi.2026.103272 | Kosonocky, Yang, Alamdari, Amini (Microsoft Research + UT Austin)
AI駆動タンパク質設計を「実験検証済み手法のみ」というフィルタで再整理。構造ベース系と配列LM系の2系統を、バインダー・抗体・酵素の3応用領域で成功率比較。
① 背景と課題

AlphaFold2 以降、生成モデルによる de novo タンパク質設計は爆発的に進展した。RFdiffusion・Chroma・FrameDiff・ESM-2 などモデルアーキテクチャは続々と発表されるが、レビュー論文の多くは 計算ベンチマーク性能の比較 に終始しており、実際にウェットラボで折り畳み・機能を発揮した手法を整理した実践的レビューは存在しなかった。

既存レビューの限界 1: 計算ベンチマーク(pLDDT, scTM など)は wet 成功率と必ずしも相関しない
既存レビューの限界 2: 各論文の実験条件・成功定義・候補選択ロジックがバラバラで、横断比較が事実上不可能

→ 本研究の動機: 「実験で発現・折り畳み・機能が確認された手法のみ」を対象に、データ→モデル→生成→検証のクローズドループとして AI タンパク質設計を再整理する。

② 手法の概要 — End-to-End ループ
4 段階クローズドループ (1) Data Curation PDB / UniRef / MSA (2) Model Development Diffusion / LM / IF (3) Generate & Filter AF2 / Rosetta / Cluster (4) Experimental Validation SDS / CD / Crystal feedback 設計失敗データを次世代モデル学習に還元するのが理想(多くは未達)
③ 本研究で示したこと
  • 構造ベース(骨格生成 → 固定骨格配列設計 → AF2 自己一貫性)と配列ベース(タンパク質LM)の 2 系統 に AI 設計を整理
  • 応用領域を バインダー / 抗体 / 酵素 の 3 つに分け、各領域の代表手法を成功率付きで Tables 1–4 にまとめた
  • 計算ベンチマークでなく 実験的に発現・機能確認できた 手法だけを採録した点が新規
  • 骨格生成と配列設計の 一体化(all-atom 生成) が最新トレンドと指摘
  • クローズドループの完成にはデータ共有プラットフォームと標準化された成功定義が必要と提言
④(a) 構造ベース vs 配列ベース パイプライン
2 系統の生成 → 検証フロー 構造ベース 骨格生成 RFdiffusion/Chroma 固定骨格配列 ProteinMPNN/IF1 構造予測 AF2 self-consist. Rosetta filter 配列ベース タンパク質LM ESM-2 / ProGen 条件付き生成 family fine-tune AF2 chk 実験検証カスケード SDS-PAGE + SEC 単分散 CD 分光 2 次構造 X 線結晶 / Cryo-EM 3D 構造一致 2 系統とも最終的には同じ実験検証カスケードを通過する必要がある
④(b) 主要モデルの登場時系列
代表モデルのリリース年 2020 2021 2022 2023 2024+ AlphaFold2 構造予測の基盤 ProteinMPNN 固定骨格配列設計 RFdiffusion 条件付き骨格生成 ESM-2 all-atom 生成 骨格+配列一体化 構造予測 → 配列設計 → 骨格生成 → 統合という積層的進化
④(c) 応用領域 3 軸の成功率レンジ
領域別 wet 成功率の幅 (Tables 1–4 抜粋) 0% 25% 50% 75% 100% 発現・折り畳み・機能 成功率 バインダー ~1–35% 抗体 ~<1–10% 酵素 ~5–40% ●=代表的中央値、箱=報告値レンジ(成功定義差に注意)
④(d) 実験検証ステップ別 候補残存ファネル
候補 → 機能確認 のファネル in silico 候補プール ~10,000+ AF2 自己一貫性 + Rosetta フィルタ SDS-PAGE / SEC 発現確認 CD 二次構造一致 X 線/Cryo-EM 一致 数千 数百 数十 十数 数個 各段で 1〜2 桁脱落するため、初期プールの多様性確保が鍵
⑤ テイクホームメッセージ
クローズドループの不在
実験フィードバックを次世代モデルに還元する仕組みが多くの研究で未実装。データ共有と成功定義の標準化が次のフロンティア。
構造ベース 3 段スタック
骨格生成(RFdiffusion)→ 配列設計(ProteinMPNN)→ AF2 自己一貫性が事実上のデファクト。Rosetta による物理ベースのフィルタが上乗せされる。
配列LMの台頭
ESM-2 をベースに酵素ファミリーへファインチューニングすると、構造を経由せず高い活性タンパク質を得られる事例が出ている。
all-atom 生成への収束
骨格と配列を分離せず一体化して全原子を直接生成するモデルが最新トレンドであり、検証段階でのギャップ削減が期待される。
計算化学パイプラインへの応用
  • lib/docking: AI 設計タンパク質を新規ターゲットとして UniDockRunner にかけ、天然に存在しないポケットへの低分子探索
  • lib/fep: MMGBSAEngine で AI 設計受容体 × 既知リガンド親和性を予測、設計ポケットのドラッガビリティ評価
  • lib/molgen: 設計ポケット形状を MolgenYaml の制約として、ポケット適合分子を生成
  • lib/md: 設計タンパク質の MD で安定性・水和構造を評価、wet 検証前のスクリーニングに利用
インパクト
  • 計算ベンチマークと wet 成功率の乖離を明示し、研究者が手法選択時に参照すべき実用ガイドを提供
  • 3 応用領域 × 2 設計系統のマトリクスで、次に挑戦すべき領域(膜タンパク質・RNA 結合タンパク質)が浮かび上がる
  • クローズドループのインフラ整備(データ共有・成功定義標準化)に対する研究コミュニティの行動を促す