HalluMat: Detecting Hallucinations in LLM-Generated Materials Science Content

HalluMat: Detecting Hallucinations in LLM-Generated Materials Science Content Through Multi-Stage Verification

Vangala, Mahmud, Neupane, Selvaraj & Cheng (University of Missouri) — arXiv:2512.22396 [cs.AI] Dec 2025

🎯 材料科学LLMのハルシネーションを30%削減：内因性評価主軸の4段階検証フレームワーク + PHCS新規指標

① 背景と課題

LLMは材料科学の研究加速に有望だが、ハルシネーション（事実上誤りの情報を自信満々に生成する現象）が研究の信頼性を脅かす。材料科学ドメイン固有の課題がある。

既存手法（SelfCheckGPT等）は外部DBへの依存を前提とするが、材料科学には包括的構造化DBが存在しない

汎用NLP向けベンチマークは材料科学の複雑な化学組成・多様な物性空間に対応していない

「ハルシネーションの頻度」を測るだけで「クエリ言い換えに対するロバスト性」を評価する指標が存在しない

→ HalluMatData（材料科学専用ベンチマーク）＋ HalluMatDetector（内因性優先4段階検証）＋ PHCS（新規指標）で解決

② HalluMatDetector: 4段階評価

【内因性評価 (主軸)】
① Self-Consistency: 複数生成→事実断片矛盾グラフ解析
② 信頼度分散: トークン確率分布の分散解析
③ エントロピー: 応答の乱雑さを定量化
④ Iterative Refinement: 多温度・多ラウンド自己レビュー
↓ 閾値以下の場合のみ
【外因性RAG (フォールバック)】
FAISS(ANN) → BM25リランク → NLI分類

③ HalluMatData & PHCS

カテゴリ	件数	比率
Low hallucination	57	1.7%
Medium hallucination	872	26.7%
High hallucination	2346	71.8%

クエリ総数: 2629件 | 回答総数: 3269件 | 言い換えペア: 640件

PHCS = std({H_i}) ← 言い換えグループ内の標準偏差。高値=不安定知識領域。

④ Contradiction Graph Analysis

LLM応答 → 事実断片を抽出
↓
ノード: 事実断片
エッジ: コサイン類似度（閾値以上を接続）
↓
Louvainコミュニティ検出
↓
異クラスター間の矛盾スコアを算出

単一の誤主張ではなく「複数の矛盾する主張の集積」としてハルシネーションを構造的に把握する

④ 主要結果

-30%

HalluMatDetectorによるハルシネーション率削減（標準LLM比）

High entropy

高エントロピークエリで事実不整合が有意に多いことを確認

PHCS分析で高エントロピー合金等の希少サブドメインにおけるLLMの不安定性を可視化

④ 限界点

LLaMA-2ベースのデータで新モデルへの一般化未検証
High hallucination率71.8%はLLaMA-2固有の弱点を反映
外因性RAGのカバレッジが材料科学全分野では不十分
内因性評価の閾値最適化方法が詳述なし

⑤ テイクホームメッセージ

🔍 内因性評価優先という設計思想
外部DBに頼らず自己整合性・エントロピー・矛盾グラフで先にハルシネーションを検出。RAGはフォールバック。材料科学DB欠乏問題を回避。

📊 PHCS：新規信頼性指標
言い換えクエリ間のスコア標準偏差でLLMの「不安定な知識領域」を特定。ハルシネーション頻度と直交する新しい評価軸。

🕸️ 矛盾グラフで構造的に検出
Louvainコミュニティ検出で事実断片のクラスターを特定し、異クラスター間矛盾をスコア化。点的な誤りでなく構造的な不整合を把握。

🛡️ 創薬AI信頼性の安全網
LLM提案の信頼性スコア自動付与に応用可能。PHCSが高い提案を自動フラグしてレビューにエスカレーション。AI駆動設計の安全機構として活用。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	LLM分子設計提案の信頼性自動評価・フラグ機能
lib/docking	AI生成ドッキング解釈文のself-consistencyチェック
lib/fep	FEP結果LLM要約のハルシネーション検出

計算化学ドメイン専用のHalluMatData構築で社内LLM品質保証基盤を整備できる

本研究のインパクト

材料科学専用のハルシネーション検出フレームワークとベンチマークを初提供
内因性評価優先設計でDB不足問題を回避しつつ30%削減を達成
PHCSで「不安定知識領域」という新次元のLLM信頼性評価を可能に