Chemprop v2: Efficient, Modular ML for Chemical Property Prediction
D-MPNN完全再実装 — 速度2×・メモリ1/3・モジュラーPython API(J. Chem. Inf. Model. 2025, Graff, Greenman et al.)
🎯 CLIのみから完全Python APIへ転換。SBVS前スクリーニング・分子生成スコアラーとして即活用できる分子MLの標準基盤
① 背景と動機

chemprop v1はGitHub 2,200+スター・PyPI 1.5M+ダウンロードの人気分子MLライブラリだが、CLI中心設計のためPythonワークフローへの統合が困難だった。フィールドの進化とともに、モジュラーなPython APIへの需要が顕在化した。

2,200+
GitHub Stars
1.5M+
PyPI Downloads
訓練高速化
1/3
メモリ削減

D-MPNNは有向エッジへのメッセージ伝播によりグラフtotter問題を回避し、無向GNNより高い分子特性予測精度を実現

② 5サブパッケージ構成
data: MolGraph・astartes分割

featurizers: 原子/結合ベクトル化(共鳴不変対応)

nn: MPNNエンコーダ・アグリゲーション・FFN

models: PyTorch Lightning(分子/原子/ボンド/混合物/反応)

uncertainty: キャリブレーション付き不確実性推定
③ 新機能ハイライト
  • 完全モジュラー Python API(CLI も維持)
  • 共鳴不変グラフフェーチャライザー
  • 不確実性定量化(Evidential / MCdropout / Ensemble)
  • Shapley 値による原子/結合重要度解析
  • Ray Tune ハイパーパラメータ最適化
  • マルチ GPU スケーリング対応
  • v1 → v2 モデル変換コマンド
  • Jupyter チュートリアル(Google Colab 対応)
④ 速度・メモリベンチマーク
データ規模訓練(V100, s)訓練(RTX4090, s)VRAM(MB)
1k2915776
10k12069776
100k1043607802

v1比: 速度2×・VRAM 1/3 改善。100k分子でも800MB程度のVRAMで動作

④ 精度ベンチマーク (v1 vs v2)
タスク指標v1v2
UV/vis吸収波長MAE↓15.516.9
SAMPL7 logPMAE↓0.320.33
HIV (ROC-AUC)0.8030.771
PCBAROC-AUC↑0.9090.909

v1モデル重みをv2でロードすると完全に同一の予測値を再現

④ 予測サポートレベル
分子レベル 原子レベル 結合レベル 混合物 反応
  • 回帰・分類・マルチタスク
  • 転移学習・アクティブラーニング
  • 不確実性付き予測
  • Google Colab 即実行可能
⑤ テイクホームメッセージ
🚀 速度2×・メモリ1/3
100k分子を RTX4090 で 10分以内に学習完了。大規模SBVS前スクリーニングに即活用可能。
🔧 モジュラー Python API
5サブパッケージに整理されたクリーンなPython API。既存パイプラインへの統合が容易。
📊 不確実性定量化
Evidential回帰・MCドロップアウト・アンサンブル対応。アクティブラーニングに直結。
🔄 v1完全後方互換
v1重みをv2でロードすると同一予測値。移行コストゼロ。CLIも後方互換性を維持。
ケムインフォパイプライン適用先
適用先ユースケース優先度
lib/dockingUniDockスコアのサロゲートモデル + AL🔴 高
lib/molgenMolgenYamlのADMETスコアラー統合🔴 高
lib/fepFEP前トリアージ(結合スコア予測)🟡 中
lib/dockingShapley値で活性寄与アトム可視化🟡 中

pip install chemprop で即利用可能