MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization

MolMem: Memory-Augmented Agentic RL for Sample-Efficient Molecular Optimization

Wang, Wen, Pandey, Liu, Ding (Northwestern University / AbbVie) | arXiv:2604.12237 | 2026年4月

🎯 デュアルメモリ（静的ExemplarDB + 成長型Skillバンク）×マルチターンRLで500オラクルコール以内での高効率リード最適化を実現

① 背景と課題

各オラクル評価（wet-lab assay・MD/FEPシミュレーション）が高コストなため、限られた予算内での「サンプル効率」が分子最適化の最重要課題。既存手法は長期メモリを持たず有用な知見が再利用されない。

Noviceパラダイム（Graph-GA・REINVENT）：trial-and-errorで多数のオラクルコールを要する

Apprenticeパラダイム（ChemDrug等）：困難な目標や既知テンプレートから逸脱した探索では苦戦

→ 人間専門家のように「参考例を参照しながら経験から再利用可能な戦略を蓄積」するメモリ機構

② Static Exemplar Memory

ChEMBL 2.8M分子+物性値をFAISS+ECFP4でインデックス化した静的外部メモリ。最適化停滞時に現在分子のANN検索→Tanimoto類似度フィルタ→Top-K exemplarsを返す。

2.8M

ChEMBL分子数（FAISS検索インデックス）

ECFP4

radius=2, 2048-bit フィンガープリント

完全一致コピーにはペナルティ → パターン学習を促進

② Evolving Skill Memory

高報酬改善（Δr>δ）の遷移からedit cardを構築。GPT-4oが1文スキル（"Replace methoxy with F on aromatic ring"）に変換。停滞時にエージェントの作業メモリに注入。

③ 本研究で示したこと（要点）

④ 主な結果 (a) 生物活性タスク成功率

④ 主な結果 (b) 多物性タスク成功率

1.5×

最良ベースライン比のサンプル効率改善

④ 主な結果 (c) モデルサイズ効率

④ 主な結果 (d) lib/molgen統合シナリオ

DockFEP

高精度FEPオラクル連携：軽量ドッキングでスキル蓄積→FEPウォームスタート

UniDockRunner

Static Exemplar MemoryにChEMBLドッキングスコアを事前計算DB化

GitHub: REAL-Lab-NU/MolMem 公開済み

⑤ テイクホームメッセージ

デュアルメモリの威力
静的ExemplarDB（参照）+ 成長型Skillバンク（経験）の組み合わせが不可欠

サンプル効率1.5倍
500オラクルコール以内でDRD2 96%・JNK3 98.5%。高コストFEP連携で特に有効

組織知識の蓄積
Evolving Skill Memoryにより過去プロジェクトの成功パターンが次プロジェクトに自動転用

lib/molgen最優先統合
コード公開済み、Qwen2.5-1.5B使用。FEPオラクルのウォームスタート戦略で計算コスト削減

既存パラダイムとの比較

機能	Novice	Apprentice	MolMem
外部DBの活用	×	○	○
成功経験の蓄積	×	×	○
マルチターンRL	△	×	○
困難なターゲット	△	×	○

本研究のインパクト