MolMem: Memory-Augmented Agentic RL for Sample-Efficient Molecular Optimization
Wang, Wen, Pandey, Liu, Ding (Northwestern University / AbbVie) | arXiv:2604.12237 | 2026年4月
🎯 デュアルメモリ(静的ExemplarDB + 成長型Skillバンク)×マルチターンRLで500オラクルコール以内での高効率リード最適化を実現
① 背景と課題

各オラクル評価(wet-lab assay・MD/FEPシミュレーション)が高コストなため、限られた予算内での「サンプル効率」が分子最適化の最重要課題。既存手法は長期メモリを持たず有用な知見が再利用されない。

Noviceパラダイム(Graph-GA・REINVENT):trial-and-errorで多数のオラクルコールを要する
Apprenticeパラダイム(ChemDrug等):困難な目標や既知テンプレートから逸脱した探索では苦戦

→ 人間専門家のように「参考例を参照しながら経験から再利用可能な戦略を蓄積」するメモリ機構

② Static Exemplar Memory

ChEMBL 2.8M分子+物性値をFAISS+ECFP4でインデックス化した静的外部メモリ。最適化停滞時に現在分子のANN検索→Tanimoto類似度フィルタ→Top-K exemplarsを返す。

2.8M
ChEMBL分子数(FAISS検索インデックス)
ECFP4
radius=2, 2048-bit フィンガープリント

完全一致コピーにはペナルティ → パターン学習を促進

② Evolving Skill Memory

高報酬改善(Δr>δ)の遷移からedit cardを構築。GPT-4oが1文スキル("Replace methoxy with F on aromatic ring")に変換。停滞時にエージェントの作業メモリに注入。

高報酬遷移 (mt→mt+1) Edit Card MCS差分・官能基 記述子デルタ GPT-4o 1文スキル Morganフィンガープリント+官能基タグのハイブリッド検索 停滞時に作業メモリへ注入 → ポリシーが活用を自律学習
③ 本研究で示したこと(要点)
  • DRD2: 50.5% → 96.0%、JNK3: 44.0% → 98.5%(500コール以内)
  • 1.5Bパラメータ小型LLMが7〜8Bタスク特化LLMを大幅に上回る
  • 多物性タスクでも既存手法を大幅上回る(QED+plogP: 18% → 58%)
  • 両メモリコンポーネントが相補的に不可欠(アブレーション確認)
④ 主な結果 (a) 生物活性タスク成功率
成功率 SR (%) — DRD2 & JNK3 DRD2 prev DRD2 MolMem JNK3 prev JNK3 MolMem 50.5% 96.0% 44.0% 98.5%
④ 主な結果 (b) 多物性タスク成功率
タスクベスト既存MolMem
QED+plogP18%58%
plogP+DRD2大差
DRD2+SA改善
全5多物性大幅改善
1.5×
最良ベースライン比のサンプル効率改善
④ 主な結果 (c) モデルサイズ効率
モデルサイズ vs 成功率 7〜8B特化LLM 8B汎用LLM 1.5B MolMem 最高 メモリ機構で小型モデルが大型特化モデルを凌駕
④ 主な結果 (d) lib/molgen統合シナリオ
DockFEP
高精度FEPオラクル連携:軽量ドッキングでスキル蓄積→FEPウォームスタート
UniDockRunner
Static Exemplar MemoryにChEMBLドッキングスコアを事前計算DB化

GitHub: REAL-Lab-NU/MolMem 公開済み

⑤ テイクホームメッセージ
デュアルメモリの威力
静的ExemplarDB(参照)+ 成長型Skillバンク(経験)の組み合わせが不可欠
サンプル効率1.5倍
500オラクルコール以内でDRD2 96%・JNK3 98.5%。高コストFEP連携で特に有効
組織知識の蓄積
Evolving Skill Memoryにより過去プロジェクトの成功パターンが次プロジェクトに自動転用
lib/molgen最優先統合
コード公開済み、Qwen2.5-1.5B使用。FEPオラクルのウォームスタート戦略で計算コスト削減
既存パラダイムとの比較
機能NoviceApprenticeMolMem
外部DBの活用×
成功経験の蓄積××
マルチターンRL×
困難なターゲット×
本研究のインパクト
  • 「高コストオラクル下での分子最適化」というSBDD実務の核心課題に正面から応答
  • 組織レベルでの化学的知識蓄積(Evolving Skill Memory)という新しいパラダイム提示
  • lib/molgenへの統合でFEP予算を最小化しながら最高精度の最適化が実現