HalluMat: Detecting Hallucinations in LLM-Generated Materials Science Content Through Multi-Stage Verification
Vangala, Mahmud, Neupane, Selvaraj & Cheng (University of Missouri) — arXiv:2512.22396 [cs.AI] Dec 2025
🎯 材料科学LLMのハルシネーションを30%削減:内因性評価主軸の4段階検証フレームワーク + PHCS新規指標
① 背景と課題

LLMは材料科学の研究加速に有望だが、ハルシネーション(事実上誤りの情報を自信満々に生成する現象)が研究の信頼性を脅かす。材料科学ドメイン固有の課題がある。

既存手法(SelfCheckGPT等)は外部DBへの依存を前提とするが、材料科学には包括的構造化DBが存在しない
汎用NLP向けベンチマークは材料科学の複雑な化学組成・多様な物性空間に対応していない
「ハルシネーションの頻度」を測るだけで「クエリ言い換えに対するロバスト性」を評価する指標が存在しない

→ HalluMatData(材料科学専用ベンチマーク)+ HalluMatDetector(内因性優先4段階検証)+ PHCS(新規指標)で解決

② HalluMatDetector: 4段階評価
【内因性評価 (主軸)】
① Self-Consistency: 複数生成→事実断片矛盾グラフ解析
② 信頼度分散: トークン確率分布の分散解析
③ エントロピー: 応答の乱雑さを定量化
④ Iterative Refinement: 多温度・多ラウンド自己レビュー
↓ 閾値以下の場合のみ
【外因性RAG (フォールバック)】
FAISS(ANN) → BM25リランク → NLI分類
③ HalluMatData & PHCS
カテゴリ件数比率
Low hallucination571.7%
Medium hallucination87226.7%
High hallucination234671.8%

クエリ総数: 2629件 | 回答総数: 3269件 | 言い換えペア: 640件

PHCS = std({H_i}) ← 言い換えグループ内の標準偏差。高値=不安定知識領域。

④ Contradiction Graph Analysis
LLM応答 → 事実断片を抽出

ノード: 事実断片
エッジ: コサイン類似度(閾値以上を接続)

Louvainコミュニティ検出

異クラスター間の矛盾スコアを算出

単一の誤主張ではなく「複数の矛盾する主張の集積」としてハルシネーションを構造的に把握する

④ 主要結果
-30%
HalluMatDetectorによるハルシネーション率削減(標準LLM比)
High entropy
高エントロピークエリで事実不整合が有意に多いことを確認

PHCS分析で高エントロピー合金等の希少サブドメインにおけるLLMの不安定性を可視化

④ 限界点
  • LLaMA-2ベースのデータで新モデルへの一般化未検証
  • High hallucination率71.8%はLLaMA-2固有の弱点を反映
  • 外因性RAGのカバレッジが材料科学全分野では不十分
  • 内因性評価の閾値最適化方法が詳述なし
⑤ テイクホームメッセージ
🔍 内因性評価優先という設計思想
外部DBに頼らず自己整合性・エントロピー・矛盾グラフで先にハルシネーションを検出。RAGはフォールバック。材料科学DB欠乏問題を回避。
📊 PHCS:新規信頼性指標
言い換えクエリ間のスコア標準偏差でLLMの「不安定な知識領域」を特定。ハルシネーション頻度と直交する新しい評価軸。
🕸️ 矛盾グラフで構造的に検出
Louvainコミュニティ検出で事実断片のクラスターを特定し、異クラスター間矛盾をスコア化。点的な誤りでなく構造的な不整合を把握。
🛡️ 創薬AI信頼性の安全網
LLM提案の信頼性スコア自動付与に応用可能。PHCSが高い提案を自動フラグしてレビューにエスカレーション。AI駆動設計の安全機構として活用。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenLLM分子設計提案の信頼性自動評価・フラグ機能
lib/dockingAI生成ドッキング解釈文のself-consistencyチェック
lib/fepFEP結果LLM要約のハルシネーション検出

計算化学ドメイン専用のHalluMatData構築で社内LLM品質保証基盤を整備できる

本研究のインパクト
  • 材料科学専用のハルシネーション検出フレームワークとベンチマークを初提供
  • 内因性評価優先設計でDB不足問題を回避しつつ30%削減を達成
  • PHCSで「不安定知識領域」という新次元のLLM信頼性評価を可能に