Mol-Debate: Multi-Agent Debate Improves Structural Reasoning in Molecular Design
arXiv:2604.02254 (2026-04-22) — Zhang, Wei, Li (Hong Kong PolyU / Sichuan Univ.) | github.com/wyuzh/Mol-Debate
🎯 化学専門LLM+汎用LLM+RDKit検証の3者討論で「テキスト→分子」変換のSoTAを達成
① 背景: テキスト-構造ギャップ

自然言語の指示(「位置2,3,5にメトキシ・ヒドロキシ・メチル基を持つ1,4-ベンゾキノン」)と分子構造(環トポロジー・官能基接続)の不一致がtext-guided molecular designの根本課題。SMILESではring構造が非隣接スパンに分断され、テキスト中の1単語「methoxy」が複数の原子・結合に対応するなど逐次性と非線形性の矛盾が生じる。

RAG/CoT/FTは1〜2視点しか持たないone-shot生成 → エラーが確定的で修正不能
化学専門LLMは構造生成に強いが意味的解釈が硬直的(Developer-Debater Conflict)
テキストレベルのdebateだけでは局所的な化学制約(環・官能基)を検証できない
② 手法: Mol-Debate 全体フロー
X⁰ テキスト指示
Developer Agents (ChemDFM-R × 3) → 候補プール P
Examiner Agent (RDKit 決定論的) → 検査レポート E
Debater × K + Judge → 選別プール P⁺¹
↓ Cr ≥ θ かつ |P|=1 → 終了
↓ (else) Refiner Agent → 指示文 X⁺¹ を再構築 → ループ継続
最大 r_max=4 ラウンド
generate→debate→refine
Dynamic feedback loop — errors become learning signals
② 手法: 3つの核心的解決策
問題解決策
Developer-Debater Conflict専門LLM (Dev) ÷ 汎用LLM (Debater) 専門分業
Global-Local ReasoningRDKit Examiner で局所構造を決定論的に検証
Static-Dynamic IntegrationRefiner が不一致を指示文再構築に変換
Developer Examiner Debate+Refine 化学専門性 RDKit構造検証 意味整合+動的精製
③ Examiner Agent の役割
  • SMILES有効性: RDKit MolFromSmiles
  • 分子量・回転可能結合数・TPSA 計算
  • 各候補に検査レポートe(S)を出力
  • Debater がこれを「客観的化学証拠」として参照
決定論的 = ハルシネーション不能
LLM不使用でGround TruthとしてDebateを制約

Ablation: Examiner除去でEM低下+有効性スコア悪化を確認

④ 主要結果 (a) ChEBI-20: Exact Match ↑
Exact Match (ChEBI-20) ↑ Llama-3.1-8B 0.45% GPT-4o mini 1.7% ChemDFM-v1.5 53.8% Chem-R-8B 43.9% Mol-Debate 59.8% ✓ 0 60%
④ 主要結果 (b) S2-Bench: WSR ↑
モデルWSR avgSR avg
Chem-R-8B0.4210.621
ChemDFM-R-14B0.4210.621
MSR (CoT)0.3440.494
Mol-Debate0.5050.752
+5.77pp WSR
2位比絶対改善(S2-Bench 全サブタスク平均)
④ 主要結果 (c) Ablation: エージェント貢献
Ablation Study: ChEBI-20 EM ↑ 全コンポーネント 55.4% − Examiner (E) 50.3% − Refiner (R) 53.2% Dev+Dev (同質) 49.4% Gen+Gen (汎用のみ) 2.1%
④ 主要結果 (d) Discussion ラウンドの効果
EM vs. Round (ChEBI-20) Round Mol-Debate w/o Refiner w/o Examiner 0 1 2 3 4
⑤ テイクホームメッセージ
🤝 専門性分業がGroupthinkを防ぐ
化学専門LLM(Dev)×汎用LLM(Debater)の異質性が最重要。同質エージェント討論(D+D)より6pp高いEM。専門性の非対称を意図的に設計。
🔬 RDKit検証が化学ハルシネーションを制御
Examiner(RDKit)の決定論的検査が局所構造エビデンスを提供し、確率的LLMのみのdebateでは補えない化学制約を担保。
🔄 動的指示再構築で意味整合を向上
RefinerAgentが討論不一致を「指示の曖昧さ」として再解釈し、次ラウンド向けに指示文を精緻化。静的one-shot生成に比べSoTA性能を実現。
⚗️ lib/molgen への直接応用
ExaminerAgentのRDKit検証部分を単独でSMILES後処理バリデーターとして実装可能。全フレームワーク統合は中〜長期の実装目標。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenテキスト指示→SMILES生成の debate-refine ループ統合
lib/molgenExaminerAgent を SMILES 後処理バリデーターとして単独実装
lib/docking自然言語でリード最適化を指示するエージェント型ワークフロー

コード: github.com/wyuzh/Mol-Debate

実装優先度: MEDIUM
  • ExaminerAgent (RDKit) → lib/molgen (高優先・単独実装可)
  • MolDebateGenerator 全体統合 → lib/molgen (中優先)
  • リード最適化エージェント → lib/docking (低優先)