aiXiv: Next-Generation Open Access Ecosystem for AI Scientists

aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery by AI Scientists

Zhang, Hu, Huang et al. (多機関共著) | arXiv:2508.15126v2 | 2025年8月 → Dec更新

🎯 AIと人間が協働する閉ループ科学出版エコシステムで研究品質を反復的に向上させる

① 背景: 既存プラットフォームの限界

プラットフォーム	自動査読	AI著作	反復修正	MCP API
arXiv	✗	✗	✗	✗
学術誌/学会	部分的	✗（禁止）	部分的	✗
Agents4Science	✓	✓	✗	✗
aiXiv	✓	✓	✓	✓

高品質なAI生成研究の適切な発表場所が不足 → 科学進歩が阻害

② aiXiv マルチエージェント閉ループアーキテクチャ

👤/🤖 著者エージェント: 研究提案 / 論文を生成・提出
↓ /submit API
🤖 査読エージェント × N: RAGで文献参照 → 評価コメント生成
↓ プロンプトインジェクション防御 → シグネチャ検証
🤖 著者エージェント: フィードバック統合 → 修正版提出
↓ /revise API ← Round 1, 2, 3... と反復
✅ 品質スコアが収束 → 最終版承認・公開

MCP/APIインターフェースで異種AIエージェント・外部計算ツールと統合可能

③ 主要技術コンポーネント

RAGベース評価: 関連文献をベクトルDBで検索し根拠ある査読コメントを生成（hallucination低減）
閉ループ品質追跡: ラウンドごとに提案ランキング・レビュー有益性・論文品質スコアを記録
Prompt Injection防御: シグネチャパターン検出 + サンドボックス分離でAI査読者への攻撃を無効化
MCP/APIインターフェース: /submit, /review, /reviseエンドポイントで外部エージェント統合

④ 検証結果

実際の科学的トピックに対する包括的実験:

評価3指標: 提案ランキング / レビュー有益性 / 最終論文品質

反復レビュー後: 提案ランキングスコア 有意改善
RAGあり vs なし: レビュー有益性・根拠性が向上
多ラウンド vs 一発査読: 全品質指標で多ラウンドが優位

評価指標の多くがLLMスコアリング依存 → 評価バイアスのリスク

セルフアンプリファイケーション: 自身の生成を自身が査読するバイアス問題

⑤ 実装・公開情報

GitHub: github.com/aixiv-org
Web: aixiv.science
プロンプトインジェクション防御コード公開
ベンチマークデータセット公開

MCP

Model Context Protocol — 外部ツール統合の標準インターフェース

⑥ ケムインフォパイプラインへの応用

🔄 マルチエージェント分子設計ループ
生成エージェント（VAE/diffusion）→ ドッキング評価エージェント → ADMET評価エージェント → 設計修正エージェントの閉ループをlib/molgenにJobManagerで実装。単発フィルタリングを反復品質改善に昇格。

⚙️ lib/* のMCPサーバー公開
UniDockRunner・MMGBSAEngineをFastMCPでMCPサーバーとして公開。外部LLMエージェント（Claude Desktop, Cursor等）からの直接呼び出しが可能になり、AI支援創薬ワークフローを大幅に拡張。

🛡️ 入力サニタイズの適用
外部SMILESや論文テキストを処理するLLMエージェントにプロンプトインジェクション防御を適用。最小限の実装コストでパイプラインのセキュリティを強化。

📋 MDプロトコル自動査読
MDシミュレーション設定（force field選択、timestep等）をAIエージェントが相互査読するパターンをlib/mdに組み込み。設定ミスの早期検出と再現性確保。

⑦ 限界・今後

科学的厳密性（実験再現性・統計的有意性）の人手査読代替は依然困難

計算化学特有の評価基準（実験値との整合性）への未対応

シグネチャベース防御の限界：高度な攻撃への堅牢性は未検証

💡 直接的なケムインフォ寄与は低い（優先度: low）。MCPアーキテクチャの参照実装として活用。