Molecular Deep Learning at the Edge of Chemical Space

DOI: 10.1038/s42256-026-01216-w | Nature Machine Intelligence, 2026 | Category: Machine Learning | Grisoni Lab, Eindhoven Univ. of Technology

X投稿: オートエンコーダの再構成損失を「非馴染み度」指標に転用し、化学空間の外縁でのML予測信頼性を定量化。33データセットで実証、キナーゼ2標的のwet lab検証で7ヒットを発見。#DrugDiscovery #MachineLearning

(1) 背景と課題

機械学習モデルはトレーニング化学空間の内部では高い予測精度を発揮するが、構造的に新規な分子（Out-of-Distribution, OOD）に対しては信頼性が著しく低下する。十億規模の化合物ライブラリをスクリーニングする際に多数の誤予測が生じる原因となり、ドラッグディスカバリーで深刻な障害となっている。

従来の applicability domain はTanimoto類似度閾値に依存し、構造的に新規な「真のヒット」を排除してしまう。一方、MC Dropout や深層アンサンブルなどの不確実性推定は OOD で過信頼に陥る既知の弱点を抱える。

Gap: 化学空間外縁で「モデルが本当に何を知らないか」を定量化し、類似度閾値に依存せずに信頼可能な OOD 化合物を選別する手段が欠けていた。

(2) 手法の概要 — Joint Molecular Modelling (JMM)

半教師ありオートエンコーダで 分子特性予測 と SMILES再構成 を同時最適化。推論時は再構成損失をそのまま unfamiliarity として OOD 指標に転用する。

(3) 本研究で示したこと

再構成損失 = unfamiliarity という新指標を定式化
33 ChEMBL データセットの系統評価で従来手法を一貫して上回る OOD 検出性能
Tanimoto閾値 / MC Dropout / 深層アンサンブルより優れた AUROC
20億超ライブラリへのスケーラビリティを実証
2 キナーゼ標的の wet lab 検証で 7 化合物の低μMヒットを獲得
従来 applicability domain では棄却される新規骨格からヒット発見

(4a) 主な結果 — OOD 検出性能

JMMはランダム分割ではなく、スペクトルクラスタリングOOD分割下で評価

(4b) 検証パイプライン

(1) 系統評価: 33 ChEMBL バイオアクティビティデータセット。Tanimoto類似度行列に対するスペクトルクラスタリングでクラスタを同定し、エルボー法でクラスタ数を自動決定、クラスタ単位で ID/OOD 分割。

(2) 大規模スクリーニング: 数億〜20億超の化合物ライブラリでJMM unfamiliarityによる事前フィルタリング。

(3) Wet lab検証: 臨床的に重要な 2 キナーゼ標的に対し、unfamiliarity でフィルタした候補群を実験的にスクリーニング。低μM活性を 7 化合物で確認。これらはトレーニングデータと低類似度であり、従来 AD では棄却される新規骨格。

(4c) Wet lab ヒット獲得実績

(4d) 限界点

適度なサイズのラベル付きデータが必要 (数十化合物以下では困難)
トレーニングデータが偏っている場合、ドラッガブル空間を OOD と誤判定するリスク
SMILES 表現に強く依存; グラフ/3D 表現との統合は今後の課題
Wet lab 検証は2 標的・7 ヒットのみで、より広い対象での検証が必要
再構成損失の閾値設定にはタスク依存のチューニングが残る

(5) テイクホームメッセージ

再構成損失=OOD指標
オートエンコーダの副産物だった再構成損失を、unfamiliarity という解釈可能な OOD スコアに転用する設計が核心。

類似度閾値からの脱却
恣意的な Tanimoto 閾値に頼らず、モデル自身の内部表現から「知らなさ」を測れる。

スケーラブル
20億超ライブラリの事前フィルタとして機能し、ドッキングや FEP の前段で計算資源を集中させられる。

Wet lab で実証
新規骨格 7 ヒット獲得は、AD で棄却される領域に真のヒットが眠ることを示唆。

ケムインフォマティクス応用

適用先モジュール	ユースケース
lib/docking (UniDockRunner)	20億規模ライブラリの事前フィルタとして JMM unfamiliarity を適用しヒット率向上
lib/molgen (MolgenYaml)	生成分子の novelty/reliability トレードオフ評価スコアラー
lib/fep (MMGBSAEngine)	高コスト計算前の信頼性担保フィルタとして

本研究のインパクト

OOD 信頼性指標の標準アーキテクチャとして広く採用される可能性
VS パイプラインの前段に組み込むことで、新規骨格ヒット発見率を底上げ
類似度閾値依存のスクリーニング文化からのパラダイム転換を促す