CoDrug: A Text-Driven Molecular Virtual Screening and Multiproperty Optimization Framework
J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02499 | Category: machine_learning
「ACE阻害剤を探す」と書くだけで分子VS。SciBERT × ChemFormer × ESM の対照学習で 3D 構造不要・ゼロショット可能なテキスト駆動スクリーニング基盤。
(1) 背景と課題

従来の VS は LBVS(配列・指紋)と SBVS(3D 構造ドッキング)の二極化で、いずれも専門的な入力整形と計算設定が必要だった。化学者が「BBB 透過性の高い GABA-A 受容体リガンド」のように自然言語で意図を直接クエリする手段は乏しい。

SBVS は標的の 3D 構造(実験 or AlphaFold)品質に強く依存し、構造未解明・低品質構造の標的では性能が劣化する。
LBVS は既知活性化合物が必要で、新規標的(コールドスタート)に弱い。

→ テキスト・SMILES・タンパク配列を共通潜在空間に揃え、3D 不要のゼロショット VS を実現したい。

(2) 手法の概要 — Tri-modal Contrastive Alignment
3 エンコーダ → 共通潜在空間アラインメント SciBERT Text (function/activity) ChemFormer SMILES ESM Protein seq. Shared Latent Space cosine similarity Contrastive Loss (Text↔Mol, Text↔Protein)
  • テキスト–化合物 と テキスト–タンパク の 2 軸で対照学習
  • 推論時は cosine 類似度ランキングで VS
  • 潜在空間内移動でテキスト駆動の多目的最適化
(3) 本研究で示したこと
  • テキスト記述 → 化合物ランキングが ChEMBL/BindingDB で成立
  • ゼロショット標的でも 3D 構造ベース手法と同等の AUROC / EF1%
  • 3D 構造が不完全な標的では既存 SBVS を凌駕
  • テキスト指示による QED↑・SA score 維持の最適化
  • 構造未解明標的のスクリーニングという新ユースケースを開拓
(4a) ゼロショット VS ベンチマーク
AUROC: CoDrug vs 3D-based competitors 0.5 0.6 0.7 0.8 0.9 AUROC (relative) CoDrug CoDrug-LP SBVS-A SBVS-B LBVS ChEMBL / BindingDB zero-shot targets 3D 不要で同等水準("comparable" in review)
(4b) 3D 構造が不完全な標的での EF1%
EF1% on poor-quality structure benchmark low mid high EF1% (relative) CoDrug SBVS LBVS Text + seq. Docking Ligand FP 3D 構造に依存しないため低品質構造で優位
(4c) テキスト駆動 多目的最適化
QED 上昇 / SA score は維持 0.0 0.25 0.5 0.75 1.0 QED before QED after SA before SA after QED 向上, SA は維持(合成可能性を損なわない)
(4d) 推論ワークフロー: テキスト → ヒット
Step入力処理
1"ACE阻害剤を探す" 等SciBERT で text → embedding
2ChEMBL / 自社ライブラリChemFormer で SMILES → embedding(事前計算)
3cosine 類似度でランキング (zero-shot)
4top-k 候補テキスト目標方向に潜在空間を移動 → 最適化候補を生成
5候補 SMILESQED / SA フィルタ + 化学者レビュー

3D 構造・ドッキング設定不要。embedding を事前計算しておけばテキストクエリから秒単位で候補リストが返る。

(5) テイクホームメッセージ
自然言語クエリで VS
「BBB 透過 GABA-A リガンド」のようなテキストを直接ヒットリストに変換できる、化学者向けの新しい入り口。
3D フリー・ゼロショット
標的の結晶構造や AlphaFold 品質に依存せず、未登録ターゲットでも cosine ランキングで動く。
記述品質が性能を支配
記述が曖昧/不正確だと精度が落ちる。アサイ記述・MoA 記述のキュレーションが鍵。
線形補間最適化の限界
潜在空間の線形補間で最適化するためスキャフォールドホップなど大きな構造変化は苦手。
計算化学パイプラインへの応用

lib/docking: テキスト→候補の事前フィルタとして UniDockRunner の前段に配置。10万 → 数千への絞り込みでドッキング工数を大幅削減。

lib/molgen: MolgenYaml の scorer に CoDrug embedding 距離を追加し、「ACE 阻害+低毒性」のようなテキスト目的関数を直接最適化。

lib/fep: 候補を MMGBSAEngine に流し込む前段でテキスト整合性スコアによる精選を行う。

インパクト
  • 構造未解明 GPCR や PPI ターゲットで実用的な VS パスを開く
  • 論文記述・特許文・MoA テキストから直接ヒット探索する新ワークフロー
  • SciBERT/ChemFormer/ESM の組合せが「ドラッグディスカバリ基盤モデル」のレシピに