Harnessing AI to Build Virtual Cells
VCHarness: 自律型仮想細胞モデル開発フレームワーク

🎯 ゴール: LLMコーディングエージェント+UCB-MCTSで摂動応答予測モデルを数日で自律構築し、専門家設計を超える
DOI: 10.64898/2026.04.11.717183
Category: machine_learning
Published: 2026-04 (bioRxiv)
Authors: Cheng, Li, Guo, Liang … (GenBio AI)

1背景と課題

仮想細胞(Virtual Cell): ゲノム/タンパク質/細胞状態を跨ぐ多モーダルプロセスを予測・シミュレーション・プログラム可能な「世界モデル」。

その中核機能 摂動応答予測(CRISPR KO等) モデル開発は、現状:

  • 専門家による 手作業アーキテクチャ設計
  • 反復デバッグ・HP探索に 数ヶ月
  • 固定アーキテクチャ家族内での比較に留まる
    (GNN-Simple / SCVI / GENE-PT 等)

課題: モデル設計それ自体を自動化し、人間が思いつかないアーキテクチャ組合せを発見できないか?

2手法の概要

VCHarness: 完全なトレーニングパイプライン (データ処理→アーキ→最適化) を探索空間とするクローズドループ。

5要素の統合システム:

  • AIDO 生物基盤モデル (DNA / Protein / Cellsc)
  • LLMコーディングエージェント (Claude Sonnet 4.6)
  • UCB-MCTS 構造化探索
  • 構造化フィードバックメモリ
  • K8s + GPU + Ray 分散実行インフラ

各候補は統一3ステージ: 基盤モデルエンコーダ → フュージョン → タスクヘッド。約100のプラグインスキルを提供。

3本研究で示したこと

  • 4細胞株 (HepG2 / Jurkat / K562 / hTERT-RPE1) すべてで専門家設計ベスト Macro-F1 を上回る。
  • hTERT-RPE1 で validation Macro-F1 を 0.3445 → 0.5182 へ大幅改善。
  • 非直感的アーキテクチャを自律発見:
    GNN + STRING DB + selective fine-tuning + perturbation-conditioned computation
  • モデル開発期間 数ヶ月 → 数日 へ短縮。
  • 探索コストはノードあたり ~35分 GPU / ~6.6 USD、平均 1344ノード

4主な結果(4パネル)

(a) 4細胞株 Macro-F1 比較

GNN-Simple (専門家) vs VCHarness (自律探索)
0.30 0.37 0.44 0.51 0.58 Macro-F1 HepG2 .397 .442 Jurkat .421 .458 K562 .447 .476 RPE1 .345 .518 +50% GNN-Simple VCHarness

(b) MCTS探索曲線

hTERT-RPE1 Best-so-far validation Macro-F1
0.30 0.38 0.46 0.54 0 300 700 1000 1344 MCTS nodes Expert best 0.3445 seed 0.440 0.5182 UCB-MCTS best-so-far

(c) 自律発見アーキテクチャ

3ステージ統一レイアウト + 非直感的構成
Stage 1 Foundation Encoder AIDO.DNA/Protein/Cellsc Stage 2 Fusion Module GNN on STRING DB Stage 3 Task Head DEG classifier 非直感的に発見された組合せ - selective fine-tuning - perturbation-conditioned computation - STRING-graph 幾何構造 - 単一モダリティを超えた異種統合 Encoder → Fusion → Head の統一探索空間 ~100 plug-in skills(FM統合・分散学習・評価・デバッグ)

(d) 探索コスト構成

平均1344ノード / ~6.6 USD・ノード35min GPU
~6.6 USD /run Program gen. 28% Debugging 23% GPU training 24% Eval + misc. 25% 3工程がほぼ均等にコストを占める → デバッグ高速化 = 大きなレバレッジ

5テイクホーム

VCHarness は LLMコーディングエージェント (Claude Sonnet 4.6) と UCB-MCTS を統合し、仮想細胞の摂動応答予測モデルを 自律的に設計する。CRISPR KO・4細胞株すべてで専門家設計を超え(hTERT-RPE1 で 0.3445→0.5182)、開発期間は 数ヶ月→数日→ ケムインフォ応用: lib/docking ポストドッキング補正・lib/fep ΔΔG予測の自律モデル設計に転用可能。アッセイ別の最適MLパイプラインを数日で構築。