Epsilon: Autonomous Research Engine with Epistemic Integrity

Epsilon: An Autonomous Research Engine with Epistemic Integrity for Scientific Discovery

Itvik Jhawar (independent preprint) | DOI: null | Published: 2026-02 | Category: machine_learning

🎯 ゴール：Design / Evaluation エージェントを構造的に分離し、p-hacking を実装レベルで防ぐ自律研究エンジンを設計する

1背景と課題

AutoGPT・MetaGPT などの自律研究エージェントは、実験設計と結果評価を同一エージェントが担う構造になっている。

確認バイアスと p-hacking が設計的に防げない
有意水準 α=0.05 や事前仮説登録などの方法論的制約を保証できない
失敗からの自律回復／知識蓄積の機構がない

Confirmation bias p-hacking No audit trail

2手法の概要

「認識論的完全性」を担保する2エージェント＋3層メモリの構成。

Design Agent（科学者役 / GPT-4 or Claude）：仮説と実験計画書を生成
Evaluation Agent（統計家役）：設計データに非アクセスで p値・効果量・CI を算定
Run / Evidence / Knowledge Memory の3層で監査証跡と戦略蓄積
未達判定で Design Agent に差し戻す自己修正ループ

3本研究で示したこと

「エージェント分離」だけで p-hacking を構造的にブロック可能
MLAgentBench 3カテゴリ（tabular分類 / NLP / HPO）で
方法論制約を遵守したままベンチマーク目標を達成
自己修正ループにより初回失敗からの回復を複数ケースで確認
主指標を「スコア比較」ではなく制約遵守率に置き換える評価設計

4主な結果

a制約遵守率（Constraint Compliance）

エージェント分離により制約遵守率が 100% に到達（先行手法は確認バイアスでドロップ）。

bアーキテクチャ（2 agents × 3-layer memory）

設計と評価の論理的隔離 + 3層メモリによる完全な監査証跡（audit trail）。

c自己修正ループの回復率

未達タスクを Design Agent に差し戻すことで 47% → 89% までリカバリ。

dMLAgentBench カテゴリ別達成

3カテゴリすべてで 制約遵守100%＋ゴール達成85〜94%。スコア至上主義からの脱却を体現。

5テイクホームメッセージ

Epsilon は「同一エージェントが設計と評価を両立できない」という認識論的制約をアーキテクチャに翻訳した。 2エージェント分離 + 自己修正ループ + 3層メモリにより、p-hacking を構造的に防ぎつつ MLAgentBench 全カテゴリで制約遵守100%。ケムインフォマティクスでは lib/molgen のスコアラー自動チューニングや VS パイプラインの統計評価に応用余地が大きく、 AI駆動実験の信頼性を担保する設計原則として MMGBSAEngine / UniDockRunner の品質保証プロセスにも転用可能。