Epsilon: An Autonomous Research Engine with Epistemic Integrity for Scientific Discovery
Itvik Jhawar (independent preprint)  |  DOI: null  |  Published: 2026-02  |  Category: machine_learning
🎯 ゴール:Design / Evaluation エージェントを構造的に分離し、p-hacking を実装レベルで防ぐ自律研究エンジンを設計する

1背景と課題

AutoGPT・MetaGPT などの自律研究エージェントは、実験設計と結果評価を同一エージェントが担う構造になっている。

  • 確認バイアスp-hacking が設計的に防げない
  • 有意水準 α=0.05 や事前仮説登録などの方法論的制約を保証できない
  • 失敗からの自律回復/知識蓄積の機構がない
Confirmation bias p-hacking No audit trail

2手法の概要

「認識論的完全性」を担保する2エージェント+3層メモリの構成。

  • Design Agent(科学者役 / GPT-4 or Claude):仮説と実験計画書を生成
  • Evaluation Agent(統計家役):設計データに非アクセスで p値・効果量・CI を算定
  • Run / Evidence / Knowledge Memory の3層で監査証跡と戦略蓄積
  • 未達判定で Design Agent に差し戻す自己修正ループ

3本研究で示したこと

  • エージェント分離」だけで p-hacking を構造的にブロック可能
  • MLAgentBench 3カテゴリ(tabular分類 / NLP / HPO)で
    方法論制約を遵守したままベンチマーク目標を達成
  • 自己修正ループにより初回失敗からの回復を複数ケースで確認
  • 主指標を「スコア比較」ではなく制約遵守率に置き換える評価設計

4主な結果

a制約遵守率(Constraint Compliance)
0% 50% 100% 28% AutoGPT 41% MetaGPT 100% Epsilon α=0.05・事前仮説登録・多重比較補正の遵守率
エージェント分離により制約遵守率が 100% に到達(先行手法は確認バイアスでドロップ)。
bアーキテクチャ(2 agents × 3-layer memory)
Design Agent (科学者 / 仮説生成) Evaluation Agent (統計家 / p, ES, CI) Epistemic Wall results only Self-correction loop(差し戻し) Run Memory セッション内 全試行 Evidence Mem 数値・ログ・図表 Knowledge Mem セッション間 戦略
設計と評価の論理的隔離 + 3層メモリによる完全な監査証跡(audit trail)。
c自己修正ループの回復率
初回計画 100% 初回 Eval 通過 47% 回復後 達成率 89% 差し戻し→再生成で +42 ポイント回復 (MLAgentBench / 3カテゴリ平均)
未達タスクを Design Agent に差し戻すことで 47% → 89% までリカバリ。
dMLAgentBench カテゴリ別 達成
Tabular分類 100% 90% NLP分類 100% 85% HPO最適化 100% 94% Compliance率 Goal達成率 50% 100%
3カテゴリすべてで 制約遵守100%+ゴール達成85〜94%。スコア至上主義からの脱却を体現。

5テイクホームメッセージ

Epsilon は「同一エージェントが設計と評価を両立できない」という認識論的制約をアーキテクチャに翻訳した。 2エージェント分離 + 自己修正ループ + 3層メモリにより、p-hacking を構造的に防ぎつつ MLAgentBench 全カテゴリで制約遵守100%。 ケムインフォマティクスでは lib/molgen のスコアラー自動チューニングVS パイプラインの統計評価に応用余地が大きく、 AI駆動実験の信頼性を担保する設計原則として MMGBSAEngine / UniDockRunner の品質保証プロセスにも転用可能。