Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Sci-LLMs
Zhuang, Zhang, Liu et al. 2025 | arXiv:2510.23127 | Shanghai AI Lab / Westlake Univ.
🎯 Sci-LLMに生の配列ではなく構造化コンテキストを渡せ — トークン化ジレンマの解決策
① トークン化ジレンマ(問題の核心)

現行のSci-LLMは2つのパラダイムで生の配列を処理するが、どちらも根本的欠陥を持つ。

❌ シーケンス-as-言語
(NatureLM・Intern-S1)
個別塩基/アミノ酸にトークン化→機能モチーフ・ドメイン構造が破壊される。生物の「文法」を1から再学習するコストが膨大。
❌ シーケンス-as-モダリティ
(Evolla・BioReason)
専用エンコーダで構造を保持するが、バイオ物理空間↔言語空間のQ-Formerアライメントが不完全で意味劣化が発生。
✅ Context-Driven(提案)
(本論文)
生配列を渡さず、ツール出力(ドメイン・GO・機能記述)をLLM可読コンテキストとして提供。LLMの強みを最大活用。
② コンテキスト生成パイプライン
Proteinシーケンス

🔬 InterProScan → 保存ドメイン・Pfamモチーフ
🔍 BLASTp → Swiss-Protホモログ + GO term
🤖 ProTrek(フォールバック) → 意味記述

階層的コンテキスト統合

「上級システム生物学者」ロールLLMプロンプト

情報漏洩防止: クエリ自身のアノテーションは不使用(ab initio特徴分析+ホモログ推論のみ)

③ 実験結果(タンパク質QAベンチマーク)
モデルSeq-OnlyCtx-OnlySeq+Ctx
Intern-S143.3386.1584.03↓
Evolla59.9374.0270.53↓
NatureLM6.8239.5038.86↓
Deepseek-v340.7784.9984.03↓
GPT-539.8375.7676.45↑ (例外)
⚠️ シーケンスを追加すると一貫して性能劣化 — 生配列は情報ノイズとして機能する
④ 表現空間の品質(ARI比較)

t-SNE可視化 + Adjusted Rand Index (ARI) で機能分離品質を定量評価:

0.958
Context-Driven approach — 圧倒的最高品質
アプローチARI
Context-Driven(本手法)0.958
Evolla (seq-as-modality)0.809
Intern-S1 (seq-as-lang)0.690
NatureLM (seq-as-lang)0.492
⑤ セマンティックミスアライメントの可視化

Evolla-10B内の層別表現空間を解析し、意味劣化の発生箇所を特定:

SaProt Encoder → 高品質表現(ARI高)

Q-Former Alignment → 機能クラスタが崩壊

LLM推論 → 低品質な最終表現

問題はシーケンス表現自体でなく、バイオ物理空間↔言語空間のブリッジング段階にある

⑥ ケムインフォマティクスパイプラインへの応用
lib/molgen: MoleculeContextBuilder
SMILESをそのまま渡さず、RDKit記述子(MW・LogP・TPSA)+ ADMET予測 + 部分構造アラートを構造化テキストに変換してLLMに提供 → 分子設計提案の品質向上
lib/docking: 相互作用コンテキスト化
ProLIFCalculatorの相互作用フィンガープリントをLLM可読テキストに変換するアダプター → ドッキング結果を基にしたリガンド最適化提案の自動化
lib/md: MD解析コンテキスト化
RMSDAnalyzer・HBondAnalyzerの数値出力を「コンフォメーション安定性レポート」としてフォーマット → LLMへの設計フィードバックループ構築
実装の優先度: High
既存パイプラインのLLM連携部分(MolgenYaml等)で SMILES直接入力をContextBuilder経由に置き換えるだけで即効果が期待できる
⑦ 限界・今後
タンパク質QAのみ評価 — 小分子・RNA・DNA設計への直接応用は未示
コンテキスト品質がInterProScan/BLASTpカバレッジに依存
公開実装なし(再現性検証が困難)
  • SMILESをSci-LLMに渡す際の「Context-First」設計原則の採用を推奨
  • 分子記述子コンテキスト化は少量のエンジニアリングで即実装可能