How Creative Are Large Language Models in Generating Molecules?

Tao, Wang, Zhou, Hooi et al. (NTU / UC Merced / 湖南大 / NUS) | arXiv:2604.18031 | 2026年4月

🎯 LLM分子生成の「創造性」を収束的（制約満足）×発散的（新規性・多様性）の2次元で体系評価。制約を増やすほど制約満足率が向上するという反直感的発見

① 背景と課題

LLMは制約を自然言語で柔軟に指定して再学習なしに多様なタスクに対応できる点で、特定タスク最適化の従来モデル（VAE・拡散モデル・RL）と根本的に異なる。しかしLLMがどのような種類の創造性を示すかは未解明だった。

従来評価（Validity・Novelty・Diversity等）：制約満足と化学空間探索のトレードオフを統一的に評価できない

既存LLM評価：物性制約の粒度（コース vs 細粒度）が性能に与える影響が未解析

→ 「創造性」を2次元（収束×発散）で操作化し、制約満足と探索のトレードオフを統一指標で評価

② 創造性の2次元定義

収束的創造性（制約満足）: Validity × Success Rate の幾何平均

発散的創造性（探索）: Novelty × Uniqueness × Diversity の幾何平均

② 反直感的発見: 制約数↑→満足率↑

制約条件を追加するほど制約満足率が向上するという反直感的パターン。より具体的な指示がLLMを適切な化学空間に誘導する。

③ 本研究で示したこと（要点）

④ 主な結果 (a) 制約粒度による性能差

④ 主な結果 (b) モデルサイズの影響

④ 主な結果 (c) サンプリング温度の影響

制約満足への影響は限定的。多様性制御に有効

④ 主な結果 (d) lib/molgen設計指針

Fully Creative %

MolgenYamlのKPIとして設定 — 新規性+制約満足を両立する分子の割合を最大化

コース粒度制約

LogP範囲・QED閾値など全体的物性制約でプロンプト設計 → LLM有効

細粒度構造制約（特定官能基）はRDKit後処理でフィルタリングが効率的

⑤ テイクホームメッセージ

制約数↑→満足率↑の実用的含意
MolgenYamlのプロンプトで制約を具体的に列挙するほどLLM生成品質が向上する

コース粒度制約でLLMを使う
LogP・MW・QED等の全体物性制約はLLMが得意。官能基レベルはRDKit後処理で補完

2次元KPIの採用
単一スコア（QED等）だけでなくFully Creative %で新規性と制約満足の両立を評価

温度で多様性を制御
探索フェーズでは高温設定で発散的創造性を高め、絞り込みフェーズで低温に切り替え

評価指標体系

本研究のインパクト