Mol-Debate: Multi-Agent Debate for Molecular Design

Mol-Debate: Multi-Agent Debate Improves Structural Reasoning in Molecular Design

arXiv:2604.02254 (2026-04-22) — Zhang, Wei, Li (Hong Kong PolyU / Sichuan Univ.) | github.com/wyuzh/Mol-Debate

🎯 化学専門LLM+汎用LLM+RDKit検証の3者討論で「テキスト→分子」変換のSoTAを達成

① 背景: テキスト-構造ギャップ

自然言語の指示（「位置2,3,5にメトキシ・ヒドロキシ・メチル基を持つ1,4-ベンゾキノン」）と分子構造（環トポロジー・官能基接続）の不一致がtext-guided molecular designの根本課題。SMILESではring構造が非隣接スパンに分断され、テキスト中の1単語「methoxy」が複数の原子・結合に対応するなど逐次性と非線形性の矛盾が生じる。

RAG/CoT/FTは1〜2視点しか持たないone-shot生成 → エラーが確定的で修正不能

化学専門LLMは構造生成に強いが意味的解釈が硬直的（Developer-Debater Conflict）

テキストレベルのdebateだけでは局所的な化学制約（環・官能基）を検証できない

② 手法: Mol-Debate 全体フロー

X⁰ テキスト指示
↓ Developer Agents (ChemDFM-R × 3) → 候補プール P
↓ Examiner Agent (RDKit 決定論的) → 検査レポート E
↓ Debater × K + Judge → 選別プール P⁺¹
↓ Cr ≥ θ かつ |P|=1 → 終了
↓ (else) Refiner Agent → 指示文 X⁺¹ を再構築 → ループ継続
最大 r_max=4 ラウンド

generate→debate→refine

Dynamic feedback loop — errors become learning signals

② 手法: 3つの核心的解決策

問題	解決策
Developer-Debater Conflict	専門LLM (Dev) ÷ 汎用LLM (Debater) 専門分業
Global-Local Reasoning	RDKit Examiner で局所構造を決定論的に検証
Static-Dynamic Integration	Refiner が不一致を指示文再構築に変換

③ Examiner Agent の役割

SMILES有効性: RDKit MolFromSmiles
分子量・回転可能結合数・TPSA 計算
各候補に検査レポートe(S)を出力
Debater がこれを「客観的化学証拠」として参照

決定論的 = ハルシネーション不能

LLM不使用でGround TruthとしてDebateを制約

Ablation: Examiner除去でEM低下+有効性スコア悪化を確認

④ 主要結果 (a) ChEBI-20: Exact Match ↑

④ 主要結果 (b) S2-Bench: WSR ↑

モデル	WSR avg	SR avg
Chem-R-8B	0.421	0.621
ChemDFM-R-14B	0.421	0.621
MSR (CoT)	0.344	0.494
Mol-Debate	0.505	0.752

+5.77pp WSR

2位比絶対改善（S2-Bench 全サブタスク平均）

④ 主要結果 (c) Ablation: エージェント貢献

④ 主要結果 (d) Discussion ラウンドの効果

⑤ テイクホームメッセージ

🤝 専門性分業がGroupthinkを防ぐ
化学専門LLM（Dev）×汎用LLM（Debater）の異質性が最重要。同質エージェント討論（D+D）より6pp高いEM。専門性の非対称を意図的に設計。

🔬 RDKit検証が化学ハルシネーションを制御
Examiner（RDKit）の決定論的検査が局所構造エビデンスを提供し、確率的LLMのみのdebateでは補えない化学制約を担保。

🔄 動的指示再構築で意味整合を向上
RefinerAgentが討論不一致を「指示の曖昧さ」として再解釈し、次ラウンド向けに指示文を精緻化。静的one-shot生成に比べSoTA性能を実現。

⚗️ lib/molgen への直接応用
ExaminerAgentのRDKit検証部分を単独でSMILES後処理バリデーターとして実装可能。全フレームワーク統合は中〜長期の実装目標。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	テキスト指示→SMILES生成の debate-refine ループ統合
lib/molgen	ExaminerAgent を SMILES 後処理バリデーターとして単独実装
lib/docking	自然言語でリード最適化を指示するエージェント型ワークフロー

コード: github.com/wyuzh/Mol-Debate

実装優先度: MEDIUM

ExaminerAgent (RDKit) → lib/molgen (高優先・単独実装可)
MolDebateGenerator 全体統合 → lib/molgen (中優先)
リード最適化エージェント → lib/docking (低優先)