aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery by AI Scientists
Zhang, Hu, Huang et al. (多機関共著) | arXiv:2508.15126v2 | 2025年8月 → Dec更新
🎯 AIと人間が協働する閉ループ科学出版エコシステムで研究品質を反復的に向上させる
① 背景: 既存プラットフォームの限界
プラットフォーム自動査読AI著作反復修正MCP API
arXiv
学術誌/学会部分的✗(禁止)部分的
Agents4Science
aiXiv
高品質なAI生成研究の適切な発表場所が不足 → 科学進歩が阻害
② aiXiv マルチエージェント閉ループアーキテクチャ
👤/🤖 著者エージェント: 研究提案 / 論文を生成・提出
↓ /submit API
🤖 査読エージェント × N: RAGで文献参照 → 評価コメント生成
↓ プロンプトインジェクション防御 → シグネチャ検証
🤖 著者エージェント: フィードバック統合 → 修正版提出
↓ /revise API ← Round 1, 2, 3... と反復
✅ 品質スコアが収束 → 最終版承認・公開

MCP/APIインターフェースで異種AIエージェント・外部計算ツールと統合可能

③ 主要技術コンポーネント
  • RAGベース評価: 関連文献をベクトルDBで検索し根拠ある査読コメントを生成(hallucination低減)
  • 閉ループ品質追跡: ラウンドごとに提案ランキング・レビュー有益性・論文品質スコアを記録
  • Prompt Injection防御: シグネチャパターン検出 + サンドボックス分離でAI査読者への攻撃を無効化
  • MCP/APIインターフェース: /submit, /review, /reviseエンドポイントで外部エージェント統合
④ 検証結果

実際の科学的トピックに対する包括的実験:

  • 反復レビュー後: 提案ランキングスコア 有意改善
  • RAGあり vs なし: レビュー有益性・根拠性が向上
  • 多ラウンド vs 一発査読: 全品質指標で多ラウンドが優位
評価指標の多くがLLMスコアリング依存 → 評価バイアスのリスク
セルフアンプリファイケーション: 自身の生成を自身が査読するバイアス問題
⑤ 実装・公開情報
  • GitHub: github.com/aixiv-org
  • Web: aixiv.science
  • プロンプトインジェクション防御コード公開
  • ベンチマークデータセット公開
MCP
Model Context Protocol — 外部ツール統合の標準インターフェース
⑥ ケムインフォパイプラインへの応用
🔄 マルチエージェント分子設計ループ
生成エージェント(VAE/diffusion)→ ドッキング評価エージェント → ADMET評価エージェント → 設計修正エージェント の閉ループをlib/molgenにJobManagerで実装。単発フィルタリングを反復品質改善に昇格。
⚙️ lib/* のMCPサーバー公開
UniDockRunner・MMGBSAEngineをFastMCPでMCPサーバーとして公開。外部LLMエージェント(Claude Desktop, Cursor等)からの直接呼び出しが可能になり、AI支援創薬ワークフローを大幅に拡張。
🛡️ 入力サニタイズの適用
外部SMILESや論文テキストを処理するLLMエージェントにプロンプトインジェクション防御を適用。最小限の実装コストでパイプラインのセキュリティを強化。
📋 MDプロトコル自動査読
MDシミュレーション設定(force field選択、timestep等)をAIエージェントが相互査読するパターンをlib/mdに組み込み。設定ミスの早期検出と再現性確保。
⑦ 限界・今後
科学的厳密性(実験再現性・統計的有意性)の人手査読代替は依然困難
計算化学特有の評価基準(実験値との整合性)への未対応
シグネチャベース防御の限界:高度な攻撃への堅牢性は未検証

💡 直接的なケムインフォ寄与は低い(優先度: low)。MCPアーキテクチャの参照実装として活用。