Improving Fidelity and Diversity in Chemical Language Transformers for Inverse Molecular Design
J. Chem. Inf. Model., 66, 3059-3073 | 2026 | DOI: 10.1021/acs.jcim.5c03062
CLM 逆設計の盲点「潜在空間ドリフト」をラウンドトリップ忠実度で定量化し、再ランキング+最小編集修復で有効率 約90%・目標誤差 約1% を同時達成
背景と課題:CLM 逆設計の潜在空間ドリフト

ケミカル言語トランスフォーマー(CLM)は SMILES 系列をエンコード・デコードして潜在空間を学習し、目標特性(CMC, logP など)を持つ分子を逆設計する。実装は単純で表現力も高い一方、デコーダが「目標潜在ベクトル」から外れた分子を吐く systematic なバイアスが知られており、生成物の有効率や特性誤差の安定性が損なわれてきた。

既存 CLM は無効 SMILES 率が 30〜40% に達するケースがあり、目標特性とのギャップを定量化する標準指標も無かった。
遺伝アルゴリズムや ChatGPT プロンプト型は探索性は高いが、特性誤差の収束制御が弱い。

→ 「デコーダが安定動作する潜在領域」を可視化・定量化し、その内側で逆設計を完結させたい。

手法:ラウンドトリップ忠実度+3 段ポストプロセス
  • Mol → encode → decode → Mol' でラウンドトリップ一致度を計算
  • 一致度が高い領域=デコーダ信頼領域として探索範囲を限定
  • 生成候補を目標特性予測値で再ランキング(上位採用)
  • 無効 SMILES は RDKit 部分グラフ編集で最小修復(追加 / 削除 / 結合変更)
パイプライン全体像 目標 logCMC CLM decode (信頼領域内) RT 忠実度 フィルタ 特性予測で 再ランキング 無効 SMILES 検出 最小編集 修復 (RDKit) 有効分子 候補集合 点線: RT 低スコアの分子を修復経路へ
本研究で示したこと
  • ラウンドトリップ忠実度が潜在ドリフトを初めて明示的に定量化
  • サーファクタント CMC で有効分子率 約 90% を達成
  • 目標 logCMC 誤差を 約 1% に抑制
  • 大型 CLM・GA・ChatGPT を全条件で上回る
  • 生成分子は鎖長・headgroup の物理的 CMC 設計則に整合
CMC 逆設計:手法別 有効分子率
有効 SMILES 率の比較 (logCMC 逆設計) 100% 75% 50% 25% 0% ~63% 大型 CLM ~52% 軽量 CLM ~67% GA ~50% ChatGPT ~90% 本手法 ※ 本手法 90% はレビュー本文値、他手法は本研究比較値の概算
RT 忠実度と logCMC 誤差の関係
RT 忠実度 vs |目標 logCMC 誤差| RT 忠実度(Mol = Mol' の一致度, 0→1) |誤差| (logCMC 単位) 0.30 0.20 0.10 0.00 0.0 0.5 1.0 本手法 約 1% 帯
候補数の推移:信頼領域フィルタ+修復のファネル
候補数のファネル(RT+再ランキング+修復) CLM 生成候補 ~10,000 分子 RT 忠実度フィルタ後 ~3,000 再ランキング上位 ~500 最小編集修復後 有効分子 ~90% ※ 件数は典型的なオーダーの概念図
設計分子の物理的整合性
CMC 設計則本手法 生成分子
アルキル鎖長 (C8〜C16)分布が経験則範囲内
headgroup 種類イオン性 / 非イオン性が物理整合
logCMC 相対誤差~1% (目標値帯内)
有効 SMILES 率~90%
多様性(化学空間)GA 並みを維持
~90% / ~1%
有効分子率 / 目標 logCMC 相対誤差
対象は単一特性 (CMC)。多目標 (活性 × ADMET × 合成性) は未検証。
テイクホームメッセージ
潜在ドリフトは「測れる」
ラウンドトリップ忠実度を入れるだけで CLM の弱点が指標として可視化され、生成分布の信頼領域が定義できる。
軽量 CLM でも上位を取れる
後処理(再ランキング+最小編集修復)の威力で、独自学習した小型 CLM が大型 CLM・GA・ChatGPT を上回った。
有効率と特性誤差を同時に詰めた
有効 SMILES 率 ~90% と目標 logCMC 誤差 ~1% を両立。逆設計で従来トレードオフだった軸を同時改善。
物理整合と多目標化が次の宿題
鎖長・headgroup の経験則は再現済み。活性 / ADMET / 合成性まで含む多目標、CMC 以外への一般化は未確認。
応用補足:lib/molgen への組込み案
  • MolgenYaml に round_trip_fidelity スコアラを追加
  • JobManager の post-process 段に「再ランキング → RDKit 最小編集修復」プラグインを差し込み
  • 潜在信頼領域を事前計算し、CLM サンプリングの prior として共有
  • FEP / docking スコアと組み合わせれば多目標逆設計に拡張可能
インパクト
  • CLM 逆設計のデファクト品質指標になり得る (RT 忠実度)
  • 軽量モデル+後処理という運用面で実装コスト低
  • サーファクタント以外の物性最適化への横展開余地大