Lost in Tokenization — Context-Driven Sci-LLMs

Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Sci-LLMs

Zhuang, Zhang, Liu et al. 2025 | arXiv:2510.23127 | Shanghai AI Lab / Westlake Univ.

🎯 Sci-LLMに生の配列ではなく構造化コンテキストを渡せ — トークン化ジレンマの解決策

① トークン化ジレンマ（問題の核心）

現行のSci-LLMは2つのパラダイムで生の配列を処理するが、どちらも根本的欠陥を持つ。

❌ シーケンス-as-言語
（NatureLM・Intern-S1）
個別塩基/アミノ酸にトークン化→機能モチーフ・ドメイン構造が破壊される。生物の「文法」を1から再学習するコストが膨大。

❌ シーケンス-as-モダリティ
（Evolla・BioReason）
専用エンコーダで構造を保持するが、バイオ物理空間↔言語空間のQ-Formerアライメントが不完全で意味劣化が発生。

✅ Context-Driven（提案）
（本論文）
生配列を渡さず、ツール出力（ドメイン・GO・機能記述）をLLM可読コンテキストとして提供。LLMの強みを最大活用。

② コンテキスト生成パイプライン

Proteinシーケンス
↓
🔬 InterProScan → 保存ドメイン・Pfamモチーフ
🔍 BLASTp → Swiss-Protホモログ + GO term
🤖 ProTrek（フォールバック） → 意味記述
↓
階層的コンテキスト統合
↓
「上級システム生物学者」ロールLLMプロンプト

情報漏洩防止: クエリ自身のアノテーションは不使用（ab initio特徴分析+ホモログ推論のみ）

③ 実験結果（タンパク質QAベンチマーク）

モデル	Seq-Only	Ctx-Only	Seq+Ctx
Intern-S1	43.33	86.15	84.03↓
Evolla	59.93	74.02	70.53↓
NatureLM	6.82	39.50	38.86↓
Deepseek-v3	40.77	84.99	84.03↓
GPT-5	39.83	75.76	76.45↑ (例外)

⚠️ シーケンスを追加すると一貫して性能劣化 — 生配列は情報ノイズとして機能する

④ 表現空間の品質（ARI比較）

t-SNE可視化 + Adjusted Rand Index (ARI) で機能分離品質を定量評価:

0.958

Context-Driven approach — 圧倒的最高品質

⑤ セマンティックミスアライメントの可視化

Evolla-10B内の層別表現空間を解析し、意味劣化の発生箇所を特定:

SaProt Encoder → 高品質表現（ARI高）
↓
Q-Former Alignment → 機能クラスタが崩壊
↓
LLM推論 → 低品質な最終表現

問題はシーケンス表現自体でなく、バイオ物理空間↔言語空間のブリッジング段階にある

⑥ ケムインフォマティクスパイプラインへの応用

lib/molgen: MoleculeContextBuilder
SMILESをそのまま渡さず、RDKit記述子（MW・LogP・TPSA）+ ADMET予測 + 部分構造アラートを構造化テキストに変換してLLMに提供 → 分子設計提案の品質向上

lib/docking: 相互作用コンテキスト化
ProLIFCalculatorの相互作用フィンガープリントをLLM可読テキストに変換するアダプター → ドッキング結果を基にしたリガンド最適化提案の自動化

lib/md: MD解析コンテキスト化
RMSDAnalyzer・HBondAnalyzerの数値出力を「コンフォメーション安定性レポート」としてフォーマット → LLMへの設計フィードバックループ構築

実装の優先度: High
既存パイプラインのLLM連携部分（MolgenYaml等）で SMILES直接入力をContextBuilder経由に置き換えるだけで即効果が期待できる

⑦ 限界・今後

タンパク質QAのみ評価 — 小分子・RNA・DNA設計への直接応用は未示

コンテキスト品質がInterProScan/BLASTpカバレッジに依存

公開実装なし（再現性検証が困難）