Improving Fidelity and Diversity in Chemical Language Transformers for Inverse Molecular Design

J. Chem. Inf. Model., 66, 3059-3073 | 2026 | DOI: 10.1021/acs.jcim.5c03062

CLM 逆設計の盲点「潜在空間ドリフト」をラウンドトリップ忠実度で定量化し、再ランキング＋最小編集修復で有効率約90%・目標誤差約1% を同時達成

背景と課題：CLM 逆設計の潜在空間ドリフト

ケミカル言語トランスフォーマー（CLM）は SMILES 系列をエンコード・デコードして潜在空間を学習し、目標特性（CMC, logP など）を持つ分子を逆設計する。実装は単純で表現力も高い一方、デコーダが「目標潜在ベクトル」から外れた分子を吐く systematic なバイアスが知られており、生成物の有効率や特性誤差の安定性が損なわれてきた。

既存 CLM は無効 SMILES 率が 30〜40% に達するケースがあり、目標特性とのギャップを定量化する標準指標も無かった。

遺伝アルゴリズムや ChatGPT プロンプト型は探索性は高いが、特性誤差の収束制御が弱い。

→ 「デコーダが安定動作する潜在領域」を可視化・定量化し、その内側で逆設計を完結させたい。

手法：ラウンドトリップ忠実度＋3 段ポストプロセス

Mol → encode → decode → Mol' でラウンドトリップ一致度を計算
一致度が高い領域＝デコーダ信頼領域として探索範囲を限定
生成候補を目標特性予測値で再ランキング（上位採用）
無効 SMILES は RDKit 部分グラフ編集で最小修復（追加 / 削除 / 結合変更）

本研究で示したこと

ラウンドトリップ忠実度が潜在ドリフトを初めて明示的に定量化
サーファクタント CMC で有効分子率約 90% を達成
目標 logCMC 誤差を約 1% に抑制
大型 CLM・GA・ChatGPT を全条件で上回る
生成分子は鎖長・headgroup の物理的 CMC 設計則に整合

CMC 逆設計：手法別有効分子率

RT 忠実度と logCMC 誤差の関係

候補数の推移：信頼領域フィルタ＋修復のファネル

設計分子の物理的整合性

CMC 設計則	本手法生成分子
アルキル鎖長 (C8〜C16)	分布が経験則範囲内
headgroup 種類	イオン性 / 非イオン性が物理整合
logCMC 相対誤差	~1% (目標値帯内)
有効 SMILES 率	~90%
多様性（化学空間）	GA 並みを維持

~90% / ~1%

有効分子率 / 目標 logCMC 相対誤差

対象は単一特性 (CMC)。多目標 (活性 × ADMET × 合成性) は未検証。

テイクホームメッセージ

潜在ドリフトは「測れる」
ラウンドトリップ忠実度を入れるだけで CLM の弱点が指標として可視化され、生成分布の信頼領域が定義できる。

軽量 CLM でも上位を取れる
後処理（再ランキング＋最小編集修復）の威力で、独自学習した小型 CLM が大型 CLM・GA・ChatGPT を上回った。

有効率と特性誤差を同時に詰めた
有効 SMILES 率 ~90% と目標 logCMC 誤差 ~1% を両立。逆設計で従来トレードオフだった軸を同時改善。

物理整合と多目標化が次の宿題
鎖長・headgroup の経験則は再現済み。活性 / ADMET / 合成性まで含む多目標、CMC 以外への一般化は未確認。

応用補足：lib/molgen への組込み案

MolgenYaml に round_trip_fidelity スコアラを追加
JobManager の post-process 段に「再ランキング → RDKit 最小編集修復」プラグインを差し込み
潜在信頼領域を事前計算し、CLM サンプリングの prior として共有
FEP / docking スコアと組み合わせれば多目標逆設計に拡張可能

インパクト

CLM 逆設計のデファクト品質指標になり得る (RT 忠実度)
軽量モデル＋後処理という運用面で実装コスト低
サーファクタント以外の物性最適化への横展開余地大