CATEGORY: MACHINE LEARNING DOI: 10.26434/chemrxiv.10002090 ChemRxiv preprint - 2026/02 Alberga, Nanna, Papadopoulos, Ancona, Lomuscio, Mangiatordi

ALCHIMIA: 33の医薬化学変換ルールを学習する強化学習ガイド型遺伝的アルゴリズムによる解釈可能な分子設計

GOAL: 合成容易・ドラッグライク・解釈可能な de novo 設計を、RL ポリシーを GA の変異演算子として組み合わせて実現する

1背景と課題

VAE / GAN / 拡散モデルなど従来の de novo 生成モデルは、化学的に無効な構造や合成困難な化合物を量産しやすく、多目的最適化(活性 + ADMET + 合成容易性)が破綻しがちであった。

さらに生成過程が ブラックボックス化しており、薬理学者が「なぜこの分子が出てきたのか」を追跡できないことがメディシナルケミストリ現場での採用を阻んできた。

ターゲット例: CB2R(カンナビノイド受容体2)、S1R(シグマ受容体1)— いずれも CNS / 痛覚調節で重要なクラス A 受容体。

2手法の概要 (ALCHIMIA)

33 の医薬化学変換ルール(アミド/エーテル/スルホンアミド形成、芳香環ハロゲン置換、環拡張・縮小、官能基の追加・削除・変換 …)を RL アクション空間として明示的に定義。

PPO ポリシー: 現在の分子グラフを状態に取り、33 ルールの適用確率を出力。報酬 = SA改善 + QED改善 の加重和で訓練。

GA: 学習済みポリシーを 変異演算子として埋め込み、Vina ドッキングを適応度関数として上位個体を次世代に残す。

3本研究で示したこと

  • ドメイン知識(合成変換)を RL アクションに埋め込むことで、合成可能性を構造的に保証できる。
  • RL(局所最適)と GA(多様性維持)を直列接続し、探索効率と多様性のトレードオフを解消。
  • 3 つの設計シナリオ — (i) 制約なしヒット同定 / (ii) スキャフォールド固定リード最適化 / (iii) CB2R+S1R デュアルモジュレーター設計 — のすべてで、REINVENT・JT-VAE 等の SOTA を QED / SA で上回り、Vina スコアも同等以上。
  • 変換ルールが薬理学者に 説明可能

4主な結果(4パネル)

A. ALCHIMIA アーキテクチャ

Seed分子集団 既知活性化合物 33 変換ルール アミド/環拡張/ 置換/官能基変換… PPO Policy π state: mol graph action: 1/33 rule Reward ΔSA + ΔQED GA Loop mutation = π selection = Vina Vina docking fitness 評価 最適化された候補分子集団 合成容易・ドラッグライク・高 Vina score policy update
分子グラフ → PPO ポリシー → 33 ルール変異 → GA 集団 → Vina で淘汰、というハイブリッドループ。

B. ベンチマーク比較 (CB2R)

0.0 0.25 0.50 0.75 1.00 Score (QED / SA-norm) Random .30 .43 JT-VAE .54 .59 REINVENT .67 .70 ALCHIMIA .86 .92 QED SA (norm)
QED と正規化 SA で 4 モデル比較。ALCHIMIA が最高 (例示値; 著者主張に基づく相対関係)。

C. QED × Vina (CB2R 候補)

-5 -7 -9 -11 -13 0.2 0.4 0.6 0.8 1.0 Vina docking score (kcal/mol, 値が小さいほど良い) QED Pareto improvement Random REINVENT ALCHIMIA
ALCHIMIA 候補は QED 0.7-0.95、Vina -10〜-13 kcal/mol の領域にクラスタし、Pareto 前面を押し上げる。

D. 3 設計シナリオの結果

(i) 制約なしヒット同定 QED .86 / SA .92 / Vina -11.4 CB2R QED .81 / SA .88 / Vina -10.2 S1R (ii) スキャフォールド固定 LO core 固定, 周辺のみ 33-rule で変換 アナログ生成: ΔVina ≈ -1.8 kcal/mol (iii) CB2R + S1R デュアル設計 CB2R S1R DUAL 両ターゲット同時結合候補 multi-target reward R = α·ΔSA + β·ΔQED + γ·Vina_CB2R + γ·Vina_S1R
3 シナリオすべてで先行手法を上回る — とくにスキャフォールド固定 LO とデュアル設計は実用設計フェーズに直結。