Large language models for molecular design: bridging the gap between chemical syntax and biological semantics
Drug Discovery Today Vol.31 No.2 | Published 2026-03 | DOI: 10.1016/j.drudis.2026.104634 | Chen, Guo, Xue (上海工業大・重慶大)
🎯 配列ベース生成→3D条件設計→多目的リード最適化→自律DMTAエージェントへ。LLMが化学シンタックスと生物学的セマンティクスを橋渡しする全体地図と残課題を体系化。
① 背景:旧来の生成モデルの限界 と LLM 台頭

VAE・GAN・自己回帰モデル・GNN・拡散モデル など従来のディープ生成モデルは個別タスクで成果を上げたが、独立したサイロ型ツールとして運用されており、創薬DMTAパイプラインを横断する統合知能としては機能しなかった。

汎化性が低い:学習分布外(新規スキャフォールド・新規ターゲット)で性能が急落
条件付けが硬直:特性・ポケット・スキャフォールド制約を都度モデルごとに再設計
他ツール(ドッキング・MD・逆合成・ADMET)との連携は人手スクリプトで継ぎ接ぎ

→ 大規模事前学習・プロンプト条件付け・ツール呼び出しを統一できる LLM が、これら3つのギャップを同時に埋める基盤として浮上した。

② 手法フレーム:3層セマンティクスでブリッジ
  • 構造セマンティクス:3D 幾何制約(結合距離・角度・ポケット形状)
  • 機能セマンティクス:結合親和性・毒性などの表現型ベクター
  • 知識セマンティクス:バイオメディカル文献の文脈関係
Chemical Syntax → Biological Semantics の3層橋渡し Chemical Syntax (1D) Biological Semantics 構造セマンティクス (3D 幾何) 機能セマンティクス (親和性) 知識セマンティクス (文献) LLM がこの3層を統合してプロンプトで条件付け
③ レビューが示したこと(4本柱)
  • 分子表現の系譜を SMILES → SELFIES → 3D 幾何トークン として整理
  • LLM がもたらす3つの優位性(クロスモーダル汎化/プロンプト条件付け/ツール統合)を抽出
  • 構造条件付き設計:ポケット埋込みを LLM プロンプトに注入する protein-ligand 共生成
  • DMTA を自律実行する LLM エージェント系(ChemCrow / BioPlanner 等)
  • in silico ベンチマーク と 実験的現実 の乖離を産業採用の最大障壁として強調
④(a) 分子表現の系譜:1D → 3D へ
分子表現の進化と有効性 1D SMILES 単一トークン 変化で無効化 有効率 < 100% 1D+ SELFIES 文法保証 エンコーディング 有効率 100% 3D 3D 幾何トークン 空間情報 + 配座 構造制約付与 脆弱・コンパクト 堅牢・空間理解 ポケット結合・配座選択を LLM プロンプトで条件化可能に → Uni-Mol / BioT5+ で実装
④(b) LLM の3つの優位性 vs 旧来モデル
優位性 3 軸でのレーダー比較(定性スコア) クロスモーダル汎化 プロンプト条件付け ツール統合 LLM 旧来 VAE/GAN/拡散 3軸すべてで LLM が拡張領域に到達
④(c) 自律 DMTA エージェントのループ
LLM オーケストレータ × 化学ツール統合(ChemCrow / BioPlanner 系) LLM Orchestrator D: Design 分子生成 / SELFIES M: Make 逆合成計画 T: Test Dock/MD/ADMET A: Analyze SAR 仮説生成
④(d) ベンチマーク と 実験的現実 の乖離
in silico スコア vs 合成・活性測定の到達度(定性) High Low High in silico ベンチ Mid 合成 可能性 Low-Mid in vitro 活性 Low 産業 採用 ⚠ 大きなギャップ
ハルシネーション(無効・合成不能構造)と新規化学空間での検証困難性が乖離の主因。グラウンディング不足が根本課題。
⑤ テイクホーム:LLM 分子設計の現在地
表現の到達点
SELFIES の有効率 100% を採用しつつ、3D 幾何トークンで構造セマンティクスを担保する流れが定着。
条件付けの自由度
特性・スキャフォールド・結合ポケットをプロンプトで切替えできるため、タスク毎の再学習が不要に。
DMTA 自律化の萌芽
ChemCrow / BioPlanner により Design-Make-Test-Analyze をエージェントが一筆書きで回す事例が登場。
実装ロードマップ
ハイブリッド・ニューロシンボリック × 統合基盤モデル を将来像として提示。
応用補足:自社パイプラインへの導線
  • lib/molgen:MolgenYaml を LLM が自然言語から自動生成、SELFIES でハルシネーション低減
  • lib/docking:UniDockRunner を LLM エージェントの tool 登録、スコア解釈→次提案を自動化
  • lib/fep:MMGBSAEngine 呼び出しで LLM がリード最適化サイクルを駆動
  • lib/md:3D幾何トークンを RMSDAnalyzer のクラスタ代表に紐付け、配座条件を生成
インパクト
  • 分子表現・条件付け・ツール統合 を 1 つの LLM 基盤に収束させる方向性を提示
  • ベンチマーク偏重から 実験再現性・グラウンディング への評価軸シフトを促す
  • LLM オーケストレータが DMTA を統合する設計指針は ChemCrow 後の実装の道標になる