- 典型的なドッキングヒット率は ≤ 0.1% の極不均衡データ。
- 従来の ML サロゲート(Graff 2021, Gentile 2020 等)は 数億規模に未対応、しかも 誤発見率の統計的保証がない。
- 「どの程度のヒット見落としを許容するか」をユーザーが定量制御できる枠組みが欠如。
0.2 億規模で 3〜5% の予算でトップヒットの ≥ 90% を回収。ランダム選択比 ~18 倍のヒット濃縮。
3.5 億化合物のうち実ドッキングしたのは Stage-1 + 推奨抽出で計 ~5%。残り 95% は CP により安全に除外。
3 分類器のうち CatBoost が最高 recall(≈0.94)と最大スループット(>10⁷/h)を両立し、本ワークフロー標準として採用。
Stage1 で軽くドッキング → 上位ラベルで CatBoost を学習 → CP がエラー率 α 以下で残し → Stage2 で本ドッキング。 α を下げれば回収率↑、計算コスト↑。