ML Guided Docking Screens

1背景と課題

Make-on-demand ライブラリは現在 300 億超の化合物に達し、全化合物を直接ドッキングするのは計算コスト的に不可能。

2 段階 ML 誘導ドッキングワークフロー。

a計算コスト削減 vs Top-Hit Recall

0.2 億規模で 3〜5% の予算でトップヒットの ≥ 90% を回収。ランダム選択比 ~18 倍のヒット濃縮。

b3.5 億ライブラリへのスケーリング Funnel

3.5 億化合物のうち実ドッキングしたのは Stage-1 + 推奨抽出で計 ~5%。残り 95% は CP により安全に除外。

c分類器比較（精度 × スループット）

3 分類器のうち CatBoost が最高 recall（≈0.94）と最大スループット（>10⁷/h）を両立し、本ワークフロー標準として採用。

dCP誘導ドッキングのアーキテクチャ

Stage1 で軽くドッキング → 上位ラベルで CatBoost を学習 → CP がエラー率 α 以下で残し → Stage2 で本ドッキング。 α を下げれば回収率↑、計算コスト↑。

SCALE ML サロゲート + CP の組合せにより、3.5 億超のメイクオンデマンドライブラリを実用時間内に網羅探索可能。Stage1 + Stage2 合計でも ~5% のドッキング工数で済む。

RECIPE 本ワークフローの推奨レシピ: ECFP4 + CatBoost + Conformal Prediction。 DNN・Transformer も同等精度だがスループットで CatBoost が圧勝。 α=0.05〜0.1 でトップ 90% 以上を回収。

CAVEAT 本手法はあくまで ドッキングスコアの再現高速化。ドッキング自体の精度問題（活性との低相関）は別問題。初期サンプルが化学空間を覆わない場合は active learning 拡張が必要。実装は Carlsson lab GitHub に公開。