LLMは材料科学の研究加速に有望だが、ハルシネーション(事実上誤りの情報を自信満々に生成する現象)が研究の信頼性を脅かす。材料科学ドメイン固有の課題がある。
→ HalluMatData(材料科学専用ベンチマーク)+ HalluMatDetector(内因性優先4段階検証)+ PHCS(新規指標)で解決
| カテゴリ | 件数 | 比率 |
|---|---|---|
| Low hallucination | 57 | 1.7% |
| Medium hallucination | 872 | 26.7% |
| High hallucination | 2346 | 71.8% |
クエリ総数: 2629件 | 回答総数: 3269件 | 言い換えペア: 640件
PHCS = std({H_i}) ← 言い換えグループ内の標準偏差。高値=不安定知識領域。
単一の誤主張ではなく「複数の矛盾する主張の集積」としてハルシネーションを構造的に把握する
PHCS分析で高エントロピー合金等の希少サブドメインにおけるLLMの不安定性を可視化
| 適用先 | ユースケース |
|---|---|
| lib/molgen | LLM分子設計提案の信頼性自動評価・フラグ機能 |
| lib/docking | AI生成ドッキング解釈文のself-consistencyチェック |
| lib/fep | FEP結果LLM要約のハルシネーション検出 |
計算化学ドメイン専用のHalluMatData構築で社内LLM品質保証基盤を整備できる