現行のSci-LLMは2つのパラダイムで生の配列を処理するが、どちらも根本的欠陥を持つ。
情報漏洩防止: クエリ自身のアノテーションは不使用(ab initio特徴分析+ホモログ推論のみ)
| モデル | Seq-Only | Ctx-Only | Seq+Ctx |
|---|---|---|---|
| Intern-S1 | 43.33 | 86.15 | 84.03↓ |
| Evolla | 59.93 | 74.02 | 70.53↓ |
| NatureLM | 6.82 | 39.50 | 38.86↓ |
| Deepseek-v3 | 40.77 | 84.99 | 84.03↓ |
| GPT-5 | 39.83 | 75.76 | 76.45↑ (例外) |
t-SNE可視化 + Adjusted Rand Index (ARI) で機能分離品質を定量評価:
| アプローチ | ARI |
|---|---|
| Context-Driven(本手法) | 0.958 |
| Evolla (seq-as-modality) | 0.809 |
| Intern-S1 (seq-as-lang) | 0.690 |
| NatureLM (seq-as-lang) | 0.492 |
Evolla-10B内の層別表現空間を解析し、意味劣化の発生箇所を特定:
問題はシーケンス表現自体でなく、バイオ物理空間↔言語空間のブリッジング段階にある