Ultra-large Library Screening with an Evolutionary Algorithm in Rosetta (REvoLd)
Eisenhuth, Liessmann, Moretti & Meiler · Commun Chem 2025 · DOI: 10.1038/s42004-025-01758-x
🎯 200億分子Enamine REALをフレキシブルドッキング×進化的アルゴリズムで探索。69,000分子のドッキングでランダム比最大1,622倍のヒット率富化。全現行アルゴリズム中最高性能。
① REvoLd 進化的ループ
① 200分子ランダム初期集団(反応重み付きサンプリング)
② RosettaLigand フレキシブルドッキング → スコアリング
③ 上位50分子を選択(選択的圧力)
④ 突然変異3種 + 交叉(モチーフ組み合わせ)
⑤ ② に戻る(30世代 × 20独立実行)

突然変異3種:

  • 断片置換(低類似度代替) — 広域探索
  • 反応切替 + 類似断片 — 中程度変化
  • 局所変化(接続位置・立体) — 局所最適化
② make-on-demand空間での優位性

反応ルール × 合成ブロックの組み合わせに直接操作を適用

合成可能性を自動担保(全生成分子が実際に合成可能)
全ライブラリを列挙せずに200億分子空間を探索
進化的操作がmedicinal chemistの設計パターンを自然に模倣
Rosetta + Enamine REALへの依存性あり
200億
探索化学空間(分子数)
~70,000
実際にドッキングした分子数
③ ベンチマーク結果(5ターゲット、20回独立実行)

富化率 = REvoLdのヒット率 / ランダムサンプリングのヒット率

ABL1キナーゼ
最大 1,622× 富化
その他ターゲット
869〜1,200× 富化
ターゲットドッキング数最大富化率既知活性体以上の分子
Tyrosyl-tRNA合成酵素~60,000>200×多数
Orexin 1受容体~55,000>200×多数
Muscarinic M1受容体~65,000>200×多数
Y1受容体~49,000>200×多数
ABL1キナーゼ~76,0001,622×99(ランダム=0)
④ 計算効率とスケーリング
  • 全計算時間の>99%がドッキング — EA操作のオーバーヘッドほぼ無視可能
  • 20-100コア並列で24-48時間/ラン(HPC向け設計)
  • 23 GBメモリでEnamine REAL全体を1コアにロード
  • 富化率はライブラリサイズに依存しない(スケーラブル)
フレキシブルドッキング = リジッドより高コスト(ただし精度向上に価値あり)
⑤ 限界点
スコアリング関数のアーティファクトを最適化するリスクあり
局所最適収束の可能性(複数独立実行で緩和)
RosettaLigandへの依存(他エンジンへの移植に改造必要)
仮想ヒットから実験活性への相関は検証されていない
⑥ lib/docking 実装提案

UniDockRunner × 進化的探索ループの統合

  • make-on-demand空間を「反応 × 断片リスト」として表現
  • 断片置換・反応切替・交叉の3操作を実装
  • 富化率(EF)を自動計算・ログ出力
  • RDKitでTanimoto重複除去

実装公開:

Rosetta app: docs.rosettacommons.org/docs/latest/revold