VCHarness — Harnessing AI to Build Virtual Cells

1背景と課題

仮想細胞（Virtual Cell）: ゲノム/タンパク質/細胞状態を跨ぐ多モーダルプロセスを予測・シミュレーション・プログラム可能な「世界モデル」。

その中核機能 摂動応答予測（CRISPR KO等） モデル開発は、現状:

専門家による 手作業アーキテクチャ設計
反復デバッグ・HP探索に 数ヶ月
固定アーキテクチャ家族内での比較に留まる
(GNN-Simple / SCVI / GENE-PT 等)

課題: モデル設計それ自体を自動化し、人間が思いつかないアーキテクチャ組合せを発見できないか?

2手法の概要

VCHarness: 完全なトレーニングパイプライン (データ処理→アーキ→最適化) を探索空間とするクローズドループ。

5要素の統合システム:

AIDO 生物基盤モデル (DNA / Protein / Cellsc)
LLMコーディングエージェント (Claude Sonnet 4.6)
UCB-MCTS 構造化探索
構造化フィードバックメモリ
K8s + GPU + Ray 分散実行インフラ

各候補は統一3ステージ: 基盤モデルエンコーダ → フュージョン → タスクヘッド。約100のプラグインスキルを提供。

3本研究で示したこと

4細胞株 (HepG2 / Jurkat / K562 / hTERT-RPE1) すべてで専門家設計ベスト Macro-F1 を上回る。
hTERT-RPE1 で validation Macro-F1 を 0.3445 → 0.5182 へ大幅改善。
非直感的アーキテクチャを自律発見:
GNN + STRING DB + selective fine-tuning + perturbation-conditioned computation
モデル開発期間 数ヶ月 → 数日 へ短縮。
探索コストはノードあたり ~35分 GPU / ~6.6 USD、平均 1344ノード。

4主な結果（4パネル）

(a) 4細胞株 Macro-F1 比較

GNN-Simple (専門家) vs VCHarness (自律探索)

(b) MCTS探索曲線

hTERT-RPE1 Best-so-far validation Macro-F1

(c) 自律発見アーキテクチャ

3ステージ統一レイアウト + 非直感的構成

(d) 探索コスト構成

平均1344ノード / ~6.6 USD・ノード35min GPU

5テイクホーム

VCHarness は LLMコーディングエージェント (Claude Sonnet 4.6) と UCB-MCTS を統合し、仮想細胞の摂動応答予測モデルを 自律的に設計する。CRISPR KO・4細胞株すべてで専門家設計を超え（hTERT-RPE1 で 0.3445→0.5182）、開発期間は 数ヶ月→数日。 → ケムインフォ応用: lib/docking ポストドッキング補正・lib/fep ΔΔG予測の自律モデル設計に転用可能。アッセイ別の最適MLパイプラインを数日で構築。

Harnessing AI to Build Virtual Cells VCHarness: 自律型仮想細胞モデル開発フレームワーク