1背景と課題
AutoGPT・MetaGPT などの自律研究エージェントは、実験設計と結果評価を同一エージェントが担う構造になっている。
- 確認バイアスと p-hacking が設計的に防げない
- 有意水準 α=0.05 や事前仮説登録などの方法論的制約を保証できない
- 失敗からの自律回復/知識蓄積の機構がない
Confirmation bias
p-hacking
No audit trail
2手法の概要
「認識論的完全性」を担保する2エージェント+3層メモリの構成。
- Design Agent(科学者役 / GPT-4 or Claude):仮説と実験計画書を生成
- Evaluation Agent(統計家役):設計データに非アクセスで p値・効果量・CI を算定
- Run / Evidence / Knowledge Memory の3層で監査証跡と戦略蓄積
- 未達判定で Design Agent に差し戻す自己修正ループ
3本研究で示したこと
- 「エージェント分離」だけで p-hacking を構造的にブロック可能
- MLAgentBench 3カテゴリ(tabular分類 / NLP / HPO)で
方法論制約を遵守したままベンチマーク目標を達成
- 自己修正ループにより初回失敗からの回復を複数ケースで確認
- 主指標を「スコア比較」ではなく制約遵守率に置き換える評価設計
4主な結果
a制約遵守率(Constraint Compliance)
エージェント分離により制約遵守率が 100% に到達(先行手法は確認バイアスでドロップ)。
bアーキテクチャ(2 agents × 3-layer memory)
設計と評価の論理的隔離 + 3層メモリによる完全な監査証跡(audit trail)。
c自己修正ループの回復率
未達タスクを Design Agent に差し戻すことで 47% → 89% までリカバリ。
dMLAgentBench カテゴリ別 達成
3カテゴリすべてで 制約遵守100%+ゴール達成85〜94%。スコア至上主義からの脱却を体現。
5テイクホームメッセージ
Epsilon は「同一エージェントが設計と評価を両立できない」という認識論的制約をアーキテクチャに翻訳した。
2エージェント分離 + 自己修正ループ + 3層メモリにより、p-hacking を構造的に防ぎつつ MLAgentBench 全カテゴリで制約遵守100%。
ケムインフォマティクスでは lib/molgen のスコアラー自動チューニングや VS パイプラインの統計評価に応用余地が大きく、
AI駆動実験の信頼性を担保する設計原則として MMGBSAEngine / UniDockRunner の品質保証プロセスにも転用可能。