LLMs for Molecular Design

Large language models for molecular design: bridging the gap between chemical syntax and biological semantics

Drug Discovery Today Vol.31 No.2 | Published 2026-03 | DOI: 10.1016/j.drudis.2026.104634 | Chen, Guo, Xue (上海工業大・重慶大)

🎯 配列ベース生成→3D条件設計→多目的リード最適化→自律DMTAエージェントへ。LLMが化学シンタックスと生物学的セマンティクスを橋渡しする全体地図と残課題を体系化。

① 背景：旧来の生成モデルの限界と LLM 台頭

VAE・GAN・自己回帰モデル・GNN・拡散モデルなど従来のディープ生成モデルは個別タスクで成果を上げたが、独立したサイロ型ツールとして運用されており、創薬DMTAパイプラインを横断する統合知能としては機能しなかった。

汎化性が低い：学習分布外（新規スキャフォールド・新規ターゲット）で性能が急落

条件付けが硬直：特性・ポケット・スキャフォールド制約を都度モデルごとに再設計

他ツール（ドッキング・MD・逆合成・ADMET）との連携は人手スクリプトで継ぎ接ぎ

→ 大規模事前学習・プロンプト条件付け・ツール呼び出しを統一できる LLM が、これら3つのギャップを同時に埋める基盤として浮上した。

② 手法フレーム：3層セマンティクスでブリッジ

③ レビューが示したこと（4本柱）

④(a) 分子表現の系譜：1D → 3D へ

④(b) LLM の3つの優位性 vs 旧来モデル

④(c) 自律 DMTA エージェントのループ

④(d) ベンチマークと実験的現実の乖離

ハルシネーション（無効・合成不能構造）と新規化学空間での検証困難性が乖離の主因。グラウンディング不足が根本課題。

⑤ テイクホーム：LLM 分子設計の現在地

表現の到達点
SELFIES の有効率 100% を採用しつつ、3D 幾何トークンで構造セマンティクスを担保する流れが定着。

条件付けの自由度
特性・スキャフォールド・結合ポケットをプロンプトで切替えできるため、タスク毎の再学習が不要に。

DMTA 自律化の萌芽
ChemCrow / BioPlanner により Design-Make-Test-Analyze をエージェントが一筆書きで回す事例が登場。

実装ロードマップ
ハイブリッド・ニューロシンボリック × 統合基盤モデルを将来像として提示。

応用補足：自社パイプラインへの導線

インパクト