AI-MedCraft: A Strategy-Driven AI Platform for Multi-Objective Molecular Design

J. Chem. Inf. Model. 2026, 66, 3424-3431 | Published 2026 | DOI: 10.1021/acs.jcim.6c00329

Pareto誘導の多目的RLで活性・溶解性・選択性を同時最適化。固定重みなしでREINVENT 4より広いパレートフロントを獲得。

1. 背景と課題：固定重みスカラー化の限界

創薬の小分子最適化は、活性・溶解性・選択性・ADMET・合成容易性が相互依存する多目的問題である。従来の生成モデル（REINVENT 4 など）は、複数目的を 固定重みのスカラー合成スコア に圧縮して RL で最適化するため、トレードオフが暗黙の重み設定に閉じ込められてしまう。

重みの最適値はプロジェクト依存で、試行錯誤の手動チューニングが必須。

スカラー化により、活性-溶解性のような競合軸の中間解集団が得にくい。

→ Pareto 支配を一級概念として扱い、最適化圧力を学習進行に応じて自動再調整できる多目的 RL を構築したい。

2. 手法の概要：Strategy-Driven Pareto MORL

3. 本研究で示したこと

4-(a) Pareto フロント：活性 vs 溶解性

4-(b) BTK ケース：GDC-0834 溶解性レスキュー

出発化合物

GDC-0834（BTK 阻害剤）

REINVENT 4 と 同一目的関数セット（活性 + 溶解性 + 薬物様性 + SA Score）で比較。

→ 同じ予算で活性を保ちつつ溶解性を改善する中間解集団を多数獲得。

4-(c) Efavirenz：on/off-target 二重最適化

4-(d) 同時最適化される目的関数群

→ 各軸への圧力は学習中に集団の収束度から自動再配分される。

5. テイクホームメッセージ

Pareto を一級概念に
スカラー合成スコアではなく非支配集合に選択圧をかけ、トレードオフを暗黙化しない。

重み調整から解放
集団の多様性・収束度を見て圧力を自動再調整するため、目的重みの試行錯誤が不要。

同じ計算コストで広いフロント
REINVENT 4 と同一目的・同一予算で活性–溶解性のパレート被覆を拡大（BTK ベンチ）。

Off-target 抑制を内蔵設計
on/off-target 二重スコアの組込みでポリファーマコロジー設計（Efavirenz / 5-HT2A）に対応。

Physics-aware モード
構造既知ならドッキング・ファーマコフォアフィットを目的に直接組み込み可能。

残課題：単一ベンチ依存
BTK 1 ケースのみで定量比較。アブレーションとコード公開が今後の検証鍵。

応用補足：lib/molgen への移植

インパクト