MAIP: An Open-Source Tool to Enrich High-Throughput Screening Output and Identify Novel, Druglike Molecules with Antimalarial Activity
DOI: 10.1021/acsmedchemlett.3c00369  |  Published: 2023  |  Category: machine_learning
複数機関データで学習したconsensus QSAR「MAIP」で抗マラリア活性をランダム比12倍エンリッチ、8ヒットをwet labで確認。ChEMBL APIで無償公開。 #Malaria #QSAR #VirtualScreening
(1) 背景と課題

マラリアは世界人口の約半数(約32億人)が感染リスクにさらされる重大な感染症であり、既存薬への耐性が拡大する中で構造的に新規な化学型の抗マラリア薬が切実に求められている。従来 QSAR モデルの多くは単一機関の限定された化合物コレクションで訓練されており、訓練化学空間外への外挿が困難であった。また、外部研究者が即座にスクリーニングへ適用できる公開ツールも限定的であり、HTS(高スループットスクリーニング)の活性ヒット率改善に貢献する事例は少なかった。

課題: 単一機関データに依存する QSAR モデルでは化学空間カバレッジが狭く、外部 HTS への汎化性能が頭打ちになる。さらに公開 API としてすぐ使える事前学習モデルが不足。
12× エンリッチメント (vs ランダム選択)
(2) 手法の概要
GSK + MMV multi-org compound libraries Consensus QSAR (multi-descriptor + multi-ML) MAIP score 0-1 (ChEMBL public API) ADME / drug-like Diversity select HTS cascade -> 8 hits

SMILES 入力に対し 0-1 の活性予測スコアを返す consensus モデル。スコアでフィルタリング後、ADME/druglike フィルター、ダイバーシティ選択を経て HTS カスケードで実験検証する 4 ステップ構成。

(3) 本研究で示したこと
  • 複数製薬機関(GSK・MMV 等)の独立データセットを統合した consensus QSAR が抗マラリア活性予測で有効であることを実証。
  • MAIP スコアによる事前フィルタリングで、ランダム選択比 12 倍のエンリッチメント率を達成。
  • HTS カスケードを通過した最終 8 化合物が良好な Pf IC50 と ADME プロファイルを示した。
  • 選定ヒットには既存抗マラリア薬とは構造的に多様な新規化学型が含まれた。
  • ChEMBL 経由の 公開ウェブ APIとして無償提供され、外部研究者が即座に利用可能。
(4a) エンリッチメント率の比較
14 10 6 2 0 Enrichment (x) 1x Random 12x MAIP filter Hit enrichment vs random selection
(4b) HTS カスケード検証

MAIP スコアで上位選抜した化合物群を実際の HTS カスケードへ投入し、抗マラリア活性 (Pf IC50)・細胞毒性・ADME プロファイル測定で多段階に評価。

8 最終ヒット数 (active & druglike)
12x vs Random baseline hit rate

確認された 8 ヒットは Pf IC50 で良好な活性域を示し、細胞毒性・代謝安定性・透過性などの ADME プロファイルも実用範囲。既知抗マラリア薬とは Tanimoto 距離が離れた新規化学型が含まれた。

(4c) ヒット選定ファネル
Compound selection funnel Public libraries (ZINC/Enamine) MAIP score > threshold ADME / druglike filter Diversity selection 8 hits
(4d) 限界点
  • 訓練化学空間から大きく逸脱した新規スキャフォールドへの外挿信頼性は保証されない。
  • consensus モデル内部のサブモデル重み・訓練データ詳細は非公開で、予測の解釈が困難。
  • 8 ヒットは in vitro 活性確認のみで、in vivo 有効性検証は今後の課題。
  • HTS カスケードの選択バイアス(評価可能な化学型が事前に偏る)は完全には排除されない。
(5) テイクホームメッセージ
Multi-org consensus が効く
単一機関データの限界を超え、12x エンリッチメントを達成。複数製薬機関データの統合は QSAR の汎化性能向上に直結する。
API 公開でツール民主化
ChEMBL 経由の無償ウェブ API として誰でも即座に活用可能。事前学習モデルの shareable 化が VS の標準パターンに。
新規化学型の発掘
既存抗マラリア薬と構造的に乖離した 8 ヒットを獲得。耐性回避を視野に入れた diverse hit discovery にも有効。
Wet-lab 検証込みのワークフロー
VS スコア → ADME/druglike → diversity → HTS カスケードの 4 段は他疾患への移植テンプレートとして機能する。
ケムインフォマティクス応用
適用先ユースケース
lib/dockingUniDockRunner の前段/後段フィルターに MAIP API を組み込み、活性期待化合物に計算リソースを集中
lib/molgenMolgenYaml のスコアラーへ抗マラリア活性スコアを統合し、活性誘導型の de novo 生成を実現

consensus + 公開 API のアーキテクチャは結核・リーシュマニア症・COVID-19 など他感染症のテンプレートとして再利用可能。

本研究のインパクト
  • 事前学習 QSAR の API 公開モデルが、外部研究室の HTS をエンリッチできることを wet-lab で実証した先駆的事例。
  • 消失しがちな multi-org データ統合の価値を可視化し、業界横断的な事前学習資産化を促進。
  • 抗マラリア創薬の "新規化学型枯渇" 問題に対し、低コストで使える計算前処理を提示。