How Creative Are Large Language Models in Generating Molecules?
Tao, Wang, Zhou, Hooi et al. (NTU / UC Merced / 湖南大 / NUS) | arXiv:2604.18031 | 2026年4月
🎯 LLM分子生成の「創造性」を収束的(制約満足)×発散的(新規性・多様性)の2次元で体系評価。制約を増やすほど制約満足率が向上するという反直感的発見
① 背景と課題

LLMは制約を自然言語で柔軟に指定して再学習なしに多様なタスクに対応できる点で、特定タスク最適化の従来モデル(VAE・拡散モデル・RL)と根本的に異なる。しかしLLMがどのような種類の創造性を示すかは未解明だった。

従来評価(Validity・Novelty・Diversity等):制約満足と化学空間探索のトレードオフを統一的に評価できない
既存LLM評価:物性制約の粒度(コース vs 細粒度)が性能に与える影響が未解析

→ 「創造性」を2次元(収束×発散)で操作化し、制約満足と探索のトレードオフを統一指標で評価

② 創造性の2次元定義

収束的創造性(制約満足): Validity × Success Rate の幾何平均

発散的創造性(探索): Novelty × Uniqueness × Diversity の幾何平均

収束的創造性 Validity ×Success Rate 発散的創造性 Novelty×Uniqueness ×Diversity Overall Creativity = 幾何平均 | Fully Creative % = 全要件同時満足
② 反直感的発見: 制約数↑→満足率↑

制約条件を追加するほど制約満足率が向上するという反直感的パターン。より具体的な指示がLLMを適切な化学空間に誘導する。

制約数 vs 制約満足率 制約数 →(具体性が増す) 満足率
③ 本研究で示したこと(要点)
  • 制約を増やすほど制約満足率が向上という反直感的発見(LLMの特性)
  • コース粒度制約(全体物性)では有効、細粒度制約(特定官能基)では性能低下
  • モデルサイズが大きいほど収束・発散創造性ともに向上
  • Fully Creative %をKPIとすることでLLM分子探索の価値を最大化できる
④ 主な結果 (a) 制約粒度による性能差
制約粒度 vs 収束的創造性 コース粒度 中粒度 細粒度 LogP・MW等では有効 / 特定官能基パターンは苦手
④ 主な結果 (b) モデルサイズの影響
モデルサイズ vs 創造性スコア Small Medium Large Frontier 最高 収束・発散ともにサイズ依存性あり
④ 主な結果 (c) サンプリング温度の影響
サンプリング温度収束的創造性発散的創造性
低温(0.0〜0.3)安定・高い低い(多様性↓)
中温(0.7)中程度中程度
高温(1.0+)やや低下高い(多様性↑)

制約満足への影響は限定的。多様性制御に有効

④ 主な結果 (d) lib/molgen設計指針
Fully Creative %
MolgenYamlのKPIとして設定 — 新規性+制約満足を両立する分子の割合を最大化
コース粒度制約
LogP範囲・QED閾値など全体的物性制約でプロンプト設計 → LLM有効

細粒度構造制約(特定官能基)はRDKit後処理でフィルタリングが効率的

⑤ テイクホームメッセージ
制約数↑→満足率↑の実用的含意
MolgenYamlのプロンプトで制約を具体的に列挙するほどLLM生成品質が向上する
コース粒度制約でLLMを使う
LogP・MW・QED等の全体物性制約はLLMが得意。官能基レベルはRDKit後処理で補完
2次元KPIの採用
単一スコア(QED等)だけでなくFully Creative %で新規性と制約満足の両立を評価
温度で多様性を制御
探索フェーズでは高温設定で発散的創造性を高め、絞り込みフェーズで低温に切り替え
評価指標体系
指標定義
ValidityRDKit標準化適合率
Success Rate全制約満足割合
NoveltyZINC250K比の新規性
Uniquenessバッチ内重複除外率
Diversity平均Tanimoto距離
Fully Creative %Novel+Unique+Successを全同時満足
本研究のインパクト
  • LLM分子生成の「何が得意で何が苦手か」を初めて体系的に定量化
  • Fully Creative %という新KPIがlib/molgenの品質管理基準として即座に適用可能
  • コース粒度制約優先のプロンプト設計指針でMolgenYamlの生成品質を向上