Hybrid ChemBERTa & DFT Machine Learning Framework for Predicting Enantioselectivity in Organosilane-Mediated Carbonyl Reduction

DOI: 10.26434/chemrxiv-2025-zhr57 Category: machine_learning Dataset: 289 carbonyls × 13 silanes
Goal: SMILES埋め込み(ChemBERTa) と DFT記述子を統合し、ヒドロシリル化の %ee を実験誤差オーダー (RMSE=8.381 %ee) で予測する。

1背景と課題

不斉ヒドロシリル化はカルボニルからキラルアルコールへ至る基盤反応だが、選択性 (%ee) は基質-シラン-触媒の立体・電子・配座の相互作用に左右され、事前予測は難しい。

2手法の概要

2段ハイブリッドパイプライン:

3本研究で示したこと

4主な結果 (4 panels)

aモデル比較 (RMSE %ee)
0 5 10 15 20 ElasticNet 18.6 SVR 15.9 RF 12.7 GBT 10.1 LightGBM* 8.381 RMSE (%ee)
LightGBM (ハイブリッド) が RMSE=8.381 %ee で最良。実験誤差 (±5 %ee) と同オーダー。
bSHAP 上位記述子
0 0.05 0.10 0.15 Sterimol B5 (C2) 0.135 C=O 結合長 0.118 Si–H 結合強度 0.098 HOMO–LUMO ギャップ 0.076 NPA charge (Cα) 0.060 Sterimol L (silane) 0.042 mean |SHAP value|
立体因子 (B5) と幾何因子 (C=O) が支配的。Si–H 結合強度・HOMO–LUMO ギャップが続く。
c予測 vs 実測 %ee (test)
0 25 50 75 100 0 25 50 75 100 Observed %ee Predicted %ee y = x ±8.4 %ee band
テスト集合 (8:2 分割)。点群はほぼ y=x 上に分布し、±8.4 %ee 帯内に収まる。
dパイプライン構成
Substrate + Silane + Cat. DFT (B3LYP/ def2-TZVP, SMD) ChemBERTa SMILES embed. Sterimol / NPA / HOMO-LUMO 768-d learned vector Concat (DFT ⊕ ChemBERTa) LightGBM Regressor %ee 予測 (RMSE 8.381)
DFT記述子と ChemBERTa 埋め込みを連結 → LightGBM で %ee を回帰。SHAP で機構解釈。

5テイクホームメッセージ

ChemBERTa(SMILES) + DFT 記述子 + LightGBM のハイブリッドで、ヒドロシリル化の %ee を RMSE = 8.381 %ee (実験誤差オーダー) で予測可能に。SHAP 解析が Sterimol B5 / C=O 結合長 / Si–H 結合強度 を支配因子として同定し、機構的に解釈可能なモデルを実現。MolgenYaml のスコアラーや UniDockRunner 後段の選択性フィルターとして組み込めば、立体選択的合成可能性を設計段階で評価する道が開ける。