| # | 論文 | 手法 | 掲載先 |
|---|---|---|---|
| 1 | 反応収率予測への能動学習 | AL + NN/RF/BMF | Mol. Informatics 2022 |
| 2 | MAB による自律的分子選択 | ZVMA (Zooming + MAB) | IEEE Big Data 2022 |
| 3 | RL アルゴリズム比較 | PPO/A2C/ACER/SAC 比較 | Machine Learning 2024 |
| 4 | Diversity-Aware RL 報酬 | 内発的+外発的ペナルティ | IJCAI 2025 |
| 5 | DPP ミニバッチ選択 | DPP / Maximum Coverage | 投稿中 |
共通テーマ: 「限られたデータ・実験予算で最大の情報を得る逐次的意思決定」
ZVMA: 各分子をアームとして探索-活用のバランスを自動調整
| 手法 | タイプ | 評価 |
|---|---|---|
| RMLE (REINFORCE) | on-policy | 安定・多様 |
| PPO | on-policy | バランス良 |
| A2C | on-policy | 高速収束 |
| ACER | off-policy | 速いが多様性↓ |
| SAC | off-policy | 高活性だが収束不安定 |
On-policy + Diversity Filter が最もバランス良好
行列式点過程(DPP)でミニバッチ多様性を保証
ランダム選択比: distance-based / reference-based 多様性が有意に向上
| データ | 手法 | AL 効果 |
|---|---|---|
| B-H 反応 | NN + 不確実性 | AUROC ↑ |
| 鈴木反応 | BMF + 多様性 | 少データで高精度 |
| 適用先 | 手法 | 優先度 |
|---|---|---|
| lib/molgen | ZVMA MAB 分子選択器 → JobManager | High |
| lib/molgen | DPP ミニバッチ選択 → RL 訓練ループ | High |
| lib/molgen | 多様性ペナルティ + 内発的報酬 → MolgenYaml | High |
| lib/molgen | AL → 反応収率スコアラー再学習 | Med |
5つの手法すべてが lib/molgen の JobManager + MolgenYaml に統合可能な実装志向設計