1背景と課題
不斉ヒドロシリル化はカルボニルからキラルアルコールへ至る基盤反応だが、選択性 (%ee) は基質-シラン-触媒の立体・電子・配座の相互作用に左右され、事前予測は難しい。
- 従来 ML は Sterimol / Hammett など DFT 記述子のみで構築。
- 機構解釈 (どの幾何因子が支配的か) が定量化されていない。
- 反応特化型ハイブリッド埋め込みの検証が不足。
2手法の概要
2段ハイブリッドパイプライン:
- DFT 記述子: B3LYP/def2-SVP 最適化 → def2-TZVP/SMD 単点 (Gaussian 16) で結合長/角度/二面角・HOMO-LUMO・NPA電荷・Sterimol B1/B5/L を抽出。
- ChemBERTa 埋め込み:
seyonec/ChemBERTa-zinc-base-v1 で基質・シラン・リガンドの SMILES を符号化し連結。
- Elastic Net / SVR / RF / GBT / LightGBM を 8:2 split + CV で比較し、SHAP TreeExplainer で機構解釈。
3本研究で示したこと
- LightGBM + ChemBERTa + DFT が全モデル中ベスト (RMSE=8.381 %ee)。
- ChemBERTa 埋め込みの追加で DFT 単独より RMSE が改善 — 学習済み表現が DFT 記述子を補完。
- SHAP により C2 の Sterimol B5、ケトン C=O 結合長、Si–H 結合強度 が支配因子と判明。
- 機構的に妥当な特徴重要度 → 予測モデルが「ブラックボックスでない」ことを示した。
4主な結果 (4 panels)
aモデル比較 (RMSE %ee)
LightGBM (ハイブリッド) が RMSE=8.381 %ee で最良。実験誤差 (±5 %ee) と同オーダー。
bSHAP 上位記述子
立体因子 (B5) と幾何因子 (C=O) が支配的。Si–H 結合強度・HOMO–LUMO ギャップが続く。
c予測 vs 実測 %ee (test)
テスト集合 (8:2 分割)。点群はほぼ y=x 上に分布し、±8.4 %ee 帯内に収まる。
dパイプライン構成
DFT記述子と ChemBERTa 埋め込みを連結 → LightGBM で %ee を回帰。SHAP で機構解釈。
5テイクホームメッセージ
ChemBERTa(SMILES) + DFT 記述子 + LightGBM のハイブリッドで、ヒドロシリル化の %ee を RMSE = 8.381 %ee (実験誤差オーダー) で予測可能に。SHAP 解析が Sterimol B5 / C=O 結合長 / Si–H 結合強度 を支配因子として同定し、機構的に解釈可能なモデルを実現。MolgenYaml のスコアラーや UniDockRunner 後段の選択性フィルターとして組み込めば、立体選択的合成可能性を設計段階で評価する道が開ける。