GCN-LLM: Hybrid Virtual Screening Model

GCN-LLM: Combining GCN Structural Learning with LLM Chemical Knowledge for Virtual Screening

Berreziga, Brahimi, Kraim & Azzoune · DOI:10.1021/acs.jcim.5c00950 · J. Chem. Inf. Model. 2025, 65, 11510–11520

🎯 各GCN層にChemBERTa埋め込みを逐次注入する「層ごと融合」でAUC-ROC 91.7%。GCN単独比+1.4pt、XGBoost比+4.6pt

① 提案手法：Layer-wise GCN + ChemBERTa融合

GCNは局所的な分子グラフ構造（結合・原子近傍）を捉えるが、グローバルな化学文脈（官能基相互作用・長距離依存性）の取得が苦手。ChemBERTaのSMILS事前学習知識を各GCN層に注入することで両者を統合する。

SMILES → ChemBERTa（768D）→ Linear(10D)投影 [事前計算・キャッシュ]

GCN Layer 1 → BN → ReLU → ＋ 10D LLM埋め込みをconcatenate

GCN Layer 2 → BN → ReLU → ＋ 10D LLM埋め込みをconcatenate

GCN Layer 3 → BN → ReLU → ＋ 10D LLM埋め込みをconcatenate

Global Mean Pooling → MLP(64→2) → 活性/非活性分類

総パラメータ: わずか34,728（軽量・高速推論）

② 投影次元アブレーション実験

投影次元	CB1	erbB1	A2A
8次元	85.1%	87.5%	82.3%
10次元 ✓	87.8%	91.0%	86.8%
12次元	86.7%	90.4%	86.0%
14次元	86.5%	88.8%	82.2%

原子特徴数(14)に近い10Dが最適。低次元は情報損失、高次元は過適合リスク。

③ データセット概要（8標的・計39,510分子）

39,510

総分子数（ChEMBLから取得）

④ モデル比較（平均、8データセット）

モデル	精度(%)	F1(%)	AUC-ROC(%)
GCN-LLM	88.7	88.9	91.7
GCN	86.8	87.6	90.3
Molformer	85.1	84.6	90.1
XGBoost	85.0	84.9	87.1
SVM	84.7	84.4	87.3

erbB1では精度91.0%・AUC-ROC 94.7%を達成

⑤ 先行研究との差別化

制限: ChemBERTa品質に依存。3D構造・反応情報は未統合。希少化学空間での汎化は課題。

⑥ lib/dockingへの統合案