Autonomous Drug Design — RL, MAB, Active Learning (PhD Thesis 2025)

Learning to Make Decisions for Autonomous Drug Design

PhD Thesis 2025 — Hampus Gummesson Svensson, Chalmers University of Technology | DOI: 10.63959/chalmers.dt/5792

🎯 DMTA の「実験予算制約下での最適意思決定」を MAB・RL・DPP・AL で体系化 — lib/molgen に直接統合可能な5つの実装志向手法

① 博士論文の全体像（5 論文構成）

共通テーマ: 「限られたデータ・実験予算で最大の情報を得る逐次的意思決定」

② DMTA サイクルの問題設定

② RL アルゴリズム比較（Paper 3）

計5手法・全10アルゴリズムを DRD2/GSK3β/JNK3 で比較

③ 多様性対応 RL（Paper 4）

多様性 ↑

活性を維持しながら scaffold 多様性が向上

④ DPP ミニバッチ選択（Paper 5）

行列式点過程（DPP）でミニバッチ多様性を保証

ランダム選択比: distance-based / reference-based 多様性が有意に向上

④ 能動学習（Paper 1）反応データ規模

④ 評価環境

④ 限界点

in silico スコアラーのみ評価 → 実験との乖離は未検証

SMILES RNN に限定 → Graph/Flow/Diffusion への拡張は今後

DPP は O(n³) → 大規模候補には近似が必要

MAB の Volatile Arms は実際の候補変動の近似に過ぎない

⑤ テイクホームメッセージ

🎲 MAB で DMTA 選択を最適化
実験予算制約という現実的制約を理論的に解く。ZVMA で探索・活用バランスを自動調整。JobManager に直接統合可能。

🧩 DPP が化学探索の鍵
ミニバッチの多様性を行列式点過程で保証。モード崩壊の根本的な解決策として有望。MolgenYaml の RL 訓練に追加可能。

🌈 多様性は報酬に組み込む
外発的ペナルティ + 内発的ボーナスの組み合わせが最も効果的。MolgenYaml のスコアラーに即実装できる設計。

🔬 RL アルゴリズムは on-policy が安定
PPO + Diversity Filter が最もバランス良い。SAC は収束不安定で非推奨。実務選択の明確なガイドラインを提供。

ケムインフォマティクスへの応用

5つの手法すべてが lib/molgen の JobManager + MolgenYaml に統合可能な実装志向設計

本研究のインパクト