Learning to Make Decisions for Autonomous Drug Design
PhD Thesis 2025 — Hampus Gummesson Svensson, Chalmers University of Technology | DOI: 10.63959/chalmers.dt/5792
🎯 DMTA の「実験予算制約下での最適意思決定」を MAB・RL・DPP・AL で体系化 — lib/molgen に直接統合可能な5つの実装志向手法
① 博士論文の全体像(5 論文構成)
#論文手法掲載先
1反応収率予測への能動学習AL + NN/RF/BMFMol. Informatics 2022
2MAB による自律的分子選択ZVMA (Zooming + MAB)IEEE Big Data 2022
3RL アルゴリズム比較PPO/A2C/ACER/SAC 比較Machine Learning 2024
4Diversity-Aware RL 報酬内発的+外発的ペナルティIJCAI 2025
5DPP ミニバッチ選択DPP / Maximum Coverage投稿中

共通テーマ: 「限られたデータ・実験予算で最大の情報を得る逐次的意思決定」

② DMTA サイクルの問題設定
生成モデル(SMILES RNN)
↓ 大量の分子候補を生成
予算制約: 合成できるのは N 件のみ
↓ どの N 件を選ぶか?(Paper 2: MAB)
↓ 実験・活性測定
↓ 報酬フィードバックで RL 改善
↓ 次サイクルへ

ZVMA: 各分子をアームとして探索-活用のバランスを自動調整

② RL アルゴリズム比較(Paper 3)
手法タイプ評価
RMLE (REINFORCE)on-policy安定・多様
PPOon-policyバランス良
A2Con-policy高速収束
ACERoff-policy速いが多様性↓
SACoff-policy高活性だが収束不安定

On-policy + Diversity Filter が最もバランス良好

③ 多様性対応 RL(Paper 4)
  • 外発的ペナルティ: Tanimoto ≥ 閾値の既生成分子に報酬ペナルティ
  • 内発的報酬: 新規スキャフォールド発見にボーナス
  • 組み合わせが最大の多様性を達成
  • DRD2 / GSK3β / JNK3 で検証
多様性 ↑
活性を維持しながら scaffold 多様性が向上
④ DPP ミニバッチ選択(Paper 5)

行列式点過程(DPP)でミニバッチ多様性を保証

候補分子 → Tanimoto カーネル行列 K
↓ DPP サンプリング or k-Medoids
↓ 多様なミニバッチで RL 訓練
↓ より広い化学空間を探索

ランダム選択比: distance-based / reference-based 多様性が有意に向上

④ 能動学習(Paper 1)
データ手法AL 効果
B-H 反応NN + 不確実性AUROC ↑
鈴木反応BMF + 多様性少データで高精度
AL
同データ量でランダムより高い AUROC を達成
④ 評価環境
  • 標的: DRD2, GSK3β, JNK3(標準ベンチマーク)
  • 生成器: SMILES RNN(REINVENT スタイル)
  • 反応データ: Buchwald-Hartwig, 鈴木
  • 多様性指標: Scaffold ダイバーシティ・Tanimoto 分散
④ 限界点
in silico スコアラーのみ評価 → 実験との乖離は未検証
SMILES RNN に限定 → Graph/Flow/Diffusion への拡張は今後
DPP は O(n³) → 大規模候補には近似が必要
MAB の Volatile Arms は実際の候補変動の近似に過ぎない
⑤ テイクホームメッセージ
🎲 MAB で DMTA 選択を最適化
実験予算制約という現実的制約を理論的に解く。ZVMA で探索・活用バランスを自動調整。JobManager に直接統合可能。
🧩 DPP が化学探索の鍵
ミニバッチの多様性を行列式点過程で保証。モード崩壊の根本的な解決策として有望。MolgenYaml の RL 訓練に追加可能。
🌈 多様性は報酬に組み込む
外発的ペナルティ + 内発的ボーナスの組み合わせが最も効果的。MolgenYaml のスコアラーに即実装できる設計。
🔬 RL アルゴリズムは on-policy が安定
PPO + Diversity Filter が最もバランス良い。SAC は収束不安定で非推奨。実務選択の明確なガイドラインを提供。
ケムインフォマティクスへの応用
適用先手法優先度
lib/molgenZVMA MAB 分子選択器 → JobManagerHigh
lib/molgenDPP ミニバッチ選択 → RL 訓練ループHigh
lib/molgen多様性ペナルティ + 内発的報酬 → MolgenYamlHigh
lib/molgenAL → 反応収率スコアラー再学習Med

5つの手法すべてが lib/molgen の JobManager + MolgenYaml に統合可能な実装志向設計

本研究のインパクト
  • DMTA 実運用での予算制約を初めて理論的に定式化(MAB)
  • DPP を分子生成 RL ミニバッチに適用した先駆的研究
  • RL アルゴリズム 5 種の創薬専用体系的比較は実務的ガイドラインに
  • 5 論文の統合で「データ効率的な創薬 AI」の包括的な設計原則を提供