Hybrid ChemBERTa+DFT for Enantioselectivity Prediction

1背景と課題

不斉ヒドロシリル化はカルボニルからキラルアルコールへ至る基盤反応だが、選択性 (%ee) は基質-シラン-触媒の立体・電子・配座の相互作用に左右され、事前予測は難しい。

従来 ML は Sterimol / Hammett など DFT 記述子のみで構築。
機構解釈 (どの幾何因子が支配的か) が定量化されていない。
反応特化型ハイブリッド埋め込みの検証が不足。

2手法の概要

2段ハイブリッドパイプライン:

DFT 記述子: B3LYP/def2-SVP 最適化 → def2-TZVP/SMD 単点 (Gaussian 16) で結合長/角度/二面角・HOMO-LUMO・NPA電荷・Sterimol B1/B5/L を抽出。
ChemBERTa 埋め込み: seyonec/ChemBERTa-zinc-base-v1 で基質・シラン・リガンドの SMILES を符号化し連結。
Elastic Net / SVR / RF / GBT / LightGBM を 8:2 split + CV で比較し、SHAP TreeExplainer で機構解釈。

3本研究で示したこと

LightGBM + ChemBERTa + DFT が全モデル中ベスト (RMSE=8.381 %ee)。
ChemBERTa 埋め込みの追加で DFT 単独より RMSE が改善 — 学習済み表現が DFT 記述子を補完。
SHAP により C2 の Sterimol B5、ケトン C=O 結合長、Si–H 結合強度 が支配因子と判明。
機構的に妥当な特徴重要度 → 予測モデルが「ブラックボックスでない」ことを示した。

4主な結果 (4 panels)

aモデル比較 (RMSE %ee)

LightGBM (ハイブリッド) が RMSE=8.381 %ee で最良。実験誤差 (±5 %ee) と同オーダー。

bSHAP 上位記述子

立体因子 (B5) と幾何因子 (C=O) が支配的。Si–H 結合強度・HOMO–LUMO ギャップが続く。

c予測 vs 実測 %ee (test)

テスト集合 (8:2 分割)。点群はほぼ y=x 上に分布し、±8.4 %ee 帯内に収まる。

dパイプライン構成

DFT記述子と ChemBERTa 埋め込みを連結 → LightGBM で %ee を回帰。SHAP で機構解釈。

5テイクホームメッセージ

ChemBERTa(SMILES) + DFT 記述子 + LightGBM のハイブリッドで、ヒドロシリル化の %ee を RMSE = 8.381 %ee (実験誤差オーダー) で予測可能に。SHAP 解析が Sterimol B5 / C=O 結合長 / Si–H 結合強度 を支配因子として同定し、機構的に解釈可能なモデルを実現。MolgenYaml のスコアラーや UniDockRunner 後段の選択性フィルターとして組み込めば、立体選択的合成可能性を設計段階で評価する道が開ける。

Hybrid ChemBERTa & DFT Machine Learning Framework for Predicting Enantioselectivity in Organosilane-Mediated Carbonyl Reduction

1背景と課題

2手法の概要

3本研究で示したこと

4主な結果 (4 panels)

5テイクホームメッセージ