CATEGORY: MACHINE LEARNING DOI: 10.26434/chemrxiv.10002090 ChemRxiv preprint - 2026/02 Alberga, Nanna, Papadopoulos, Ancona, Lomuscio, Mangiatordi

ALCHIMIA: 33の医薬化学変換ルールを学習する強化学習ガイド型遺伝的アルゴリズムによる解釈可能な分子設計

GOAL: 合成容易・ドラッグライク・解釈可能な de novo 設計を、RL ポリシーを GA の変異演算子として組み合わせて実現する

1背景と課題

VAE / GAN / 拡散モデルなど従来の de novo 生成モデルは、化学的に無効な構造や合成困難な化合物を量産しやすく、多目的最適化（活性 + ADMET + 合成容易性）が破綻しがちであった。

さらに生成過程が ブラックボックス化しており、薬理学者が「なぜこの分子が出てきたのか」を追跡できないことがメディシナルケミストリ現場での採用を阻んできた。

ターゲット例: CB2R（カンナビノイド受容体2）、S1R（シグマ受容体1）— いずれも CNS / 痛覚調節で重要なクラス A 受容体。

33 の医薬化学変換ルール（アミド/エーテル/スルホンアミド形成、芳香環ハロゲン置換、環拡張・縮小、官能基の追加・削除・変換 …）を RL アクション空間として明示的に定義。

PPO ポリシー: 現在の分子グラフを状態に取り、33 ルールの適用確率を出力。報酬 = SA改善 + QED改善の加重和で訓練。

GA: 学習済みポリシーを 変異演算子として埋め込み、Vina ドッキングを適応度関数として上位個体を次世代に残す。

ドメイン知識（合成変換）を RL アクションに埋め込むことで、合成可能性を構造的に保証できる。
RL（局所最適）と GA（多様性維持）を直列接続し、探索効率と多様性のトレードオフを解消。
3 つの設計シナリオ — (i) 制約なしヒット同定 / (ii) スキャフォールド固定リード最適化 / (iii) CB2R+S1R デュアルモジュレーター設計 — のすべてで、REINVENT・JT-VAE 等の SOTA を QED / SA で上回り、Vina スコアも同等以上。
変換ルールが薬理学者に 説明可能。

分子グラフ → PPO ポリシー → 33 ルール変異 → GA 集団 → Vina で淘汰、というハイブリッドループ。

QED と正規化 SA で 4 モデル比較。ALCHIMIA が最高 (例示値; 著者主張に基づく相対関係)。

ALCHIMIA 候補は QED 0.7-0.95、Vina -10〜-13 kcal/mol の領域にクラスタし、Pareto 前面を押し上げる。

3 シナリオすべてで先行手法を上回る — とくにスキャフォールド固定 LO とデュアル設計は実用設計フェーズに直結。