1背景と課題
仮想細胞(Virtual Cell): ゲノム/タンパク質/細胞状態を跨ぐ多モーダルプロセスを予測・シミュレーション・プログラム可能な「世界モデル」。
その中核機能 摂動応答予測(CRISPR KO等) モデル開発は、現状:
- 専門家による 手作業アーキテクチャ設計
- 反復デバッグ・HP探索に 数ヶ月
- 固定アーキテクチャ家族内での比較に留まる
(GNN-Simple / SCVI / GENE-PT 等)
課題: モデル設計それ自体を自動化し、人間が思いつかないアーキテクチャ組合せを発見できないか?
2手法の概要
VCHarness: 完全なトレーニングパイプライン (データ処理→アーキ→最適化) を探索空間とするクローズドループ。
5要素の統合システム:
- AIDO 生物基盤モデル (DNA / Protein / Cellsc)
- LLMコーディングエージェント (Claude Sonnet 4.6)
- UCB-MCTS 構造化探索
- 構造化フィードバックメモリ
- K8s + GPU + Ray 分散実行インフラ
各候補は統一3ステージ: 基盤モデルエンコーダ → フュージョン → タスクヘッド。約100のプラグインスキルを提供。
3本研究で示したこと
- 4細胞株 (HepG2 / Jurkat / K562 / hTERT-RPE1) すべてで専門家設計ベスト Macro-F1 を上回る。
- hTERT-RPE1 で validation Macro-F1 を 0.3445 → 0.5182 へ大幅改善。
- 非直感的アーキテクチャを自律発見:
GNN + STRING DB + selective fine-tuning + perturbation-conditioned computation
- モデル開発期間 数ヶ月 → 数日 へ短縮。
- 探索コストはノードあたり ~35分 GPU / ~6.6 USD、平均 1344ノード。
4主な結果(4パネル)
(a) 4細胞株 Macro-F1 比較
GNN-Simple (専門家) vs VCHarness (自律探索)
(b) MCTS探索曲線
hTERT-RPE1 Best-so-far validation Macro-F1
(c) 自律発見アーキテクチャ
3ステージ統一レイアウト + 非直感的構成
(d) 探索コスト構成
平均1344ノード / ~6.6 USD・ノード35min GPU
5テイクホーム
VCHarness は LLMコーディングエージェント (Claude Sonnet 4.6) と UCB-MCTS を統合し、仮想細胞の摂動応答予測モデルを 自律的に設計する。CRISPR KO・4細胞株すべてで専門家設計を超え(hTERT-RPE1 で 0.3445→0.5182)、開発期間は 数ヶ月→数日。
→ ケムインフォ応用: lib/docking ポストドッキング補正・lib/fep ΔΔG予測の自律モデル設計に転用可能。アッセイ別の最適MLパイプラインを数日で構築。