Active Learning FEP Using 3D-QSAR for Prioritizing Bioisosteres in Medicinal Chemistry
DOI: 10.1021/acsmedchemlett.4c00554  |  Published: April 2025  |  Category: Computational Chemistry
バイオアイソスター500候補を16%(80本)のFEP計算で効率的にランキング。3D-QSARによる能動学習ループがカギ。Q2=0.89を小データ(30件)で達成、2D-QSARを上回る。 #FEP #ActiveLearning
1. 背景と課題

創薬リード最適化において、特定置換基をバイオアイソスター(同等の生物活性を持つ代替フラグメント)に置き換える戦略は、薬物動態の改善・特許回避・選択性向上に有用である。Cresset Spark のようなツールは 3D 形状・静電相補性に基づいて数百〜数千の候補を自動生成するが、生成された全候補を FEP(Free Energy Perturbation)で評価することは計算コストが大きく現実的でない。

先行研究では FEP+アクティブラーニングの枠組みは存在したが、いずれも 2D 分子フィンガープリントを QSAR の特徴量として用いており、Spark で生成された候補群の 3D アライメント情報が活かされていなかった。

課題: Spark の 3D コンテキストを活かした能動学習スキームが未整備。500候補のうち最高活性体を最少 FEP 回数で同定する効率的ワークフローが必要。
2. 手法の概要
Spark: 500 bioisosteres (cmp126起点) Round 1: Spark上位30本 -> FEP (Flare V10) -> 3D-QSAR (Consensus + GP) Round 2 (explore): Top10活性 + 高sigma 20本 -> FEP 30本 -> モデル更新 Round 3 (exploit): 残440から上位20本 -> FEP 20本 合計 80本 / 500本 (16%) で最高活性体特定
3. 本研究で示したこと
  • 3D-field QSAR は小データ(30件)で Q2=0.89 を達成し、2D-QSAR(RDKit)を明確に上回った
  • Spark 由来候補は 3D アライメントが揃っており 3D 記述子の優位性が際立つ
  • explore(高不確実性優先)→ exploit(高活性優先)の2段戦略が早期収束を実現
  • 合計 80本(16%)の FEP のみで全 500 本評価時の最高活性体を網羅
  • 既知 ALR2 阻害剤 32 化合物が予測上位に正しく配置され、外部妥当性を確保
4a. 3D vs 2D QSAR 性能 (Q2)
Q2 0.0 0.2 0.4 0.6 0.8 1.0 0.89 3D Cons. 0.82 3D GP 0.55 2D Cons. 0.48 2D GP Train n=30, ALR2 dataset
4b. 検証手順と結果

500候補の中に既知の実験 pIC50 を持つ ALR2 阻害剤 32 化合物を埋め込み、能動学習終了時の 3D-QSAR モデルがそれらを高優先度として正しく抽出できるかを検証した。

80 / 500
FEP実施数 (16%) で最高活性体を網羅
Kendall tau = 0.79
Round 1 後の 3D-Consensus モデルの順位相関

起点化合物 cmp126 (pIC50=5.21) より高活性なバイオアイソスターが優先的に FEP バッチに含まれた。

4c. ラウンド別 FEP 計算量と発見率
FEP本数 Round (active learning) 0 20 40 60 80 100 30 R1: Spark上位 30 R2: explore 20 R3: exploit 累積80(16%) cumulative
4d. 限界点
  • Spark + Flare V10 商用ソフト依存。OSS環境への移植は独自実装が必要
  • 3D アライメント品質に依存。汎用ライブラリでは性能劣化の可能性
  • ラウンド数・バッチサイズの最適値は系依存。本論文は2ラウンドのみ検証
  • 単一ターゲット (ALR2) のみで実証。他標的への一般化は未確認
  • FEP の絶対精度 (RMSE) は明示されておらず、ランキング相関のみで評価
5. テイクホームメッセージ
3D 記述子 x 小データ
Spark 由来の整合された 3D アライメントは、わずか 30 件の訓練でも Q2=0.89 を実現する強力な特徴量空間となる。
explore -> exploit 二段戦略
初期は GP 不確実性最大化、後期は予測活性最大化に切り替えることで、FEP リソースを最も情報量の多い領域に集中できる。
16% で十分
500 候補全件 FEP が事実上不可能でも、80 件で最高活性体が特定可能。能動学習はバイオアイソスター置換の標準手段になりうる。
コンセンサス + GP の併用
コンセンサスは安定した予測値を、GP は不確実性推定を提供。役割分担が能動学習で本質的に重要。
ケムインフォマティクス応用
適用先応用シナリオ
lib/fepDockFEP に AL ループを追加。GP+Consensus の二重モデルで FEP 計算回数を 1/6 に削減
lib/molgenMolgenYaml の生成候補プールを 3D-QSAR で事前ランキング、FEP スコアラーへの送出を絞り込む
lib/dockingUniDockRunner 後段に 3D-field QSAR フィルタを実装し、FEP 投入前の品質ゲートに利用
本研究のインパクト
  • FEP コスト 84% 削減 — リード最適化の意思決定スピードを大幅短縮
  • 3D-field QSAR が小データ AL のキー特徴量として有望と実証
  • 商用ツール組合せだが OSS 再実装の道筋 (scikit-learn) が明確