MolAI: NMT Autoencoder for Data-Driven Molecular Descriptor Generation (512D Latent Space)
Mahdizadeh & Eriksson (Univ. of Gothenburg) · DOI:10.1021/acs.jcim.5c00491 · J. Chem. Inf. Model. 2025, 65, 9892–9909
🎯 221M化合物学習のNMT Autoencoderで512D連続記述子。再構成>99.8%、iLP ROC-AUC 0.99、gefitinib誘導体でREINVENT比3倍活性
① MolAIアーキテクチャ
SMILES → one-hot encoding

LSTM encoder (3層)

512D bottleneck(潜在ベクトル)

LSTM decoder (3層)

再構成SMILES + 13物性予測(補助損失)
221M
学習化合物数(Winter et al.比200%以上増)
512D
連続潜在ベクトル次元数
② 再構成精度 vs 複雑度
>99.8%
再構成精度(100万ZINC22分子)
99.81%
OOD再構成精度(200K MolPort分子)
失敗分子の傾向: BertzCT複雑度 900(成功: 734)、SA_score 4.9(成功: 3.5)、SMILES長 57.1字(成功: 45.1)
③ Euclidean距離 vs Tanimoto類似度:プロトネーション状態識別

MolAIのEuclidean距離はTanimotoが見落とすプロトネーション状態・物理化学的差異を捉える。

課題Tanimoto (Morgan)MolAI Euclidean
上位1000件中同一スコア化合物数704件(区別不可)0件(全て一意)
プロトネーション異性体(同一分子)0.52(同一)3.01 vs 3.94(区別)
類似分子ランキング4位→11位にズレ多発物理化学的に直感的な順序
④ iLP プロトネーション状態予測(ROC-AUC 0.97-0.99)
テストセットAccuracyROC-AUC
Enamine (10K)0.9870.99
ZINC22 (10K)0.8910.98
iGen-1/2/30.843-0.8510.97

ドッキング前処理に組み込んで偽陽性削減に直接貢献

⑤ gefitinib誘導体生成(EGFR TKI)
モデルgefitinib超活性率(%)
MolAI22.4%
NP-VAE15.2%
REINVENT 3.06.8%

3650分子生成→817分子がgefitinib超え。キナゾリンモチーフを保持し新規相互作用(Asn842, Thr854等)を獲得。

記述子ベクトル方向サンプリングでlogP/TPSA等を制御した誘導体生成も可能
⑥ lib/docking + lib/molgen統合提案
  • lib/docking前処理: iLPでUniDockRunner入力のプロトネーション状態を修正(ROC-AUC 0.99)
  • LBVS強化: 512D Euclidean距離でProLIFCalculatorのスクリーニング精度向上
  • lib/molgen: 記述子ベクトルサンプリングでlogP/MW制御の誘導体生成
  • lib/fep前段: iADMETフィルタでMMGBSA計算対象を絞り込み