CoDrug: Text-Driven Molecular Virtual Screening

CoDrug: A Text-Driven Molecular Virtual Screening and Multiproperty Optimization Framework

J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02499 | Category: machine_learning

「ACE阻害剤を探す」と書くだけで分子VS。SciBERT × ChemFormer × ESM の対照学習で 3D 構造不要・ゼロショット可能なテキスト駆動スクリーニング基盤。

(1) 背景と課題

従来の VS は LBVS（配列・指紋）と SBVS（3D 構造ドッキング）の二極化で、いずれも専門的な入力整形と計算設定が必要だった。化学者が「BBB 透過性の高い GABA-A 受容体リガンド」のように自然言語で意図を直接クエリする手段は乏しい。

SBVS は標的の 3D 構造（実験 or AlphaFold）品質に強く依存し、構造未解明・低品質構造の標的では性能が劣化する。

LBVS は既知活性化合物が必要で、新規標的（コールドスタート）に弱い。

→ テキスト・SMILES・タンパク配列を共通潜在空間に揃え、3D 不要のゼロショット VS を実現したい。

(2) 手法の概要 — Tri-modal Contrastive Alignment

(3) 本研究で示したこと

(4a) ゼロショット VS ベンチマーク

(4b) 3D 構造が不完全な標的での EF1%

(4c) テキスト駆動多目的最適化

(4d) 推論ワークフロー: テキスト → ヒット

Step	入力	処理
1	"ACE阻害剤を探す" 等	SciBERT で text → embedding
2	ChEMBL / 自社ライブラリ	ChemFormer で SMILES → embedding（事前計算）
3	—	cosine 類似度でランキング (zero-shot)
4	top-k 候補	テキスト目標方向に潜在空間を移動 → 最適化候補を生成
5	候補 SMILES	QED / SA フィルタ + 化学者レビュー

3D 構造・ドッキング設定不要。embedding を事前計算しておけばテキストクエリから秒単位で候補リストが返る。

(5) テイクホームメッセージ

自然言語クエリで VS

「BBB 透過 GABA-A リガンド」のようなテキストを直接ヒットリストに変換できる、化学者向けの新しい入り口。

3D フリー・ゼロショット

標的の結晶構造や AlphaFold 品質に依存せず、未登録ターゲットでも cosine ランキングで動く。

記述品質が性能を支配

記述が曖昧／不正確だと精度が落ちる。アサイ記述・MoA 記述のキュレーションが鍵。

線形補間最適化の限界

潜在空間の線形補間で最適化するためスキャフォールドホップなど大きな構造変化は苦手。

計算化学パイプラインへの応用

lib/docking: テキスト→候補の事前フィルタとして UniDockRunner の前段に配置。10万 → 数千への絞り込みでドッキング工数を大幅削減。

lib/molgen: MolgenYaml の scorer に CoDrug embedding 距離を追加し、「ACE 阻害＋低毒性」のようなテキスト目的関数を直接最適化。

lib/fep: 候補を MMGBSAEngine に流し込む前段でテキスト整合性スコアによる精選を行う。

インパクト