Active Learning FEP Using 3D-QSAR for Prioritizing Bioisosteres in Medicinal Chemistry

DOI: 10.1021/acsmedchemlett.4c00554 | Published: April 2025 | Category: Computational Chemistry

バイオアイソスター500候補を16%(80本)のFEP計算で効率的にランキング。3D-QSARによる能動学習ループがカギ。Q2=0.89を小データ(30件)で達成、2D-QSARを上回る。 #FEP #ActiveLearning

1. 背景と課題

創薬リード最適化において、特定置換基をバイオアイソスター（同等の生物活性を持つ代替フラグメント）に置き換える戦略は、薬物動態の改善・特許回避・選択性向上に有用である。Cresset Spark のようなツールは 3D 形状・静電相補性に基づいて数百〜数千の候補を自動生成するが、生成された全候補を FEP（Free Energy Perturbation）で評価することは計算コストが大きく現実的でない。

先行研究では FEP+アクティブラーニングの枠組みは存在したが、いずれも 2D 分子フィンガープリントを QSAR の特徴量として用いており、Spark で生成された候補群の 3D アライメント情報が活かされていなかった。

課題: Spark の 3D コンテキストを活かした能動学習スキームが未整備。500候補のうち最高活性体を最少 FEP 回数で同定する効率的ワークフローが必要。

2. 手法の概要

3. 本研究で示したこと

3D-field QSAR は小データ(30件)で Q2=0.89 を達成し、2D-QSAR(RDKit)を明確に上回った
Spark 由来候補は 3D アライメントが揃っており 3D 記述子の優位性が際立つ
explore（高不確実性優先）→ exploit（高活性優先）の2段戦略が早期収束を実現
合計 80本（16%）の FEP のみで全 500 本評価時の最高活性体を網羅
既知 ALR2 阻害剤 32 化合物が予測上位に正しく配置され、外部妥当性を確保

4a. 3D vs 2D QSAR 性能 (Q2)

4b. 検証手順と結果

500候補の中に既知の実験 pIC50 を持つ ALR2 阻害剤 32 化合物を埋め込み、能動学習終了時の 3D-QSAR モデルがそれらを高優先度として正しく抽出できるかを検証した。

80 / 500

FEP実施数 (16%) で最高活性体を網羅

Kendall tau = 0.79

Round 1 後の 3D-Consensus モデルの順位相関

起点化合物 cmp126 (pIC50=5.21) より高活性なバイオアイソスターが優先的に FEP バッチに含まれた。

4c. ラウンド別 FEP 計算量と発見率

4d. 限界点

Spark + Flare V10 商用ソフト依存。OSS環境への移植は独自実装が必要
3D アライメント品質に依存。汎用ライブラリでは性能劣化の可能性
ラウンド数・バッチサイズの最適値は系依存。本論文は2ラウンドのみ検証
単一ターゲット (ALR2) のみで実証。他標的への一般化は未確認
FEP の絶対精度 (RMSE) は明示されておらず、ランキング相関のみで評価

5. テイクホームメッセージ

3D 記述子 x 小データ
Spark 由来の整合された 3D アライメントは、わずか 30 件の訓練でも Q2=0.89 を実現する強力な特徴量空間となる。

explore -> exploit 二段戦略
初期は GP 不確実性最大化、後期は予測活性最大化に切り替えることで、FEP リソースを最も情報量の多い領域に集中できる。

16% で十分
500 候補全件 FEP が事実上不可能でも、80 件で最高活性体が特定可能。能動学習はバイオアイソスター置換の標準手段になりうる。

コンセンサス + GP の併用
コンセンサスは安定した予測値を、GP は不確実性推定を提供。役割分担が能動学習で本質的に重要。

ケムインフォマティクス応用

適用先	応用シナリオ
lib/fep	DockFEP に AL ループを追加。GP+Consensus の二重モデルで FEP 計算回数を 1/6 に削減
lib/molgen	MolgenYaml の生成候補プールを 3D-QSAR で事前ランキング、FEP スコアラーへの送出を絞り込む
lib/docking	UniDockRunner 後段に 3D-field QSAR フィルタを実装し、FEP 投入前の品質ゲートに利用

本研究のインパクト

FEP コスト 84% 削減 — リード最適化の意思決定スピードを大幅短縮
3D-field QSAR が小データ AL のキー特徴量として有望と実証
商用ツール組合せだが OSS 再実装の道筋 (scikit-learn) が明確