GCN-LLM: Combining GCN Structural Learning with LLM Chemical Knowledge for Virtual Screening
Berreziga, Brahimi, Kraim & Azzoune · DOI:10.1021/acs.jcim.5c00950 · J. Chem. Inf. Model. 2025, 65, 11510–11520
🎯 各GCN層にChemBERTa埋め込みを逐次注入する「層ごと融合」でAUC-ROC 91.7%。GCN単独比+1.4pt、XGBoost比+4.6pt
① 提案手法:Layer-wise GCN + ChemBERTa融合

GCNは局所的な分子グラフ構造(結合・原子近傍)を捉えるが、グローバルな化学文脈(官能基相互作用・長距離依存性)の取得が苦手。ChemBERTaのSMILS事前学習知識を各GCN層に注入することで両者を統合する。

SMILES → ChemBERTa(768D)→ Linear(10D)投影 [事前計算・キャッシュ]
GCN Layer 1 → BN → ReLU → + 10D LLM埋め込みをconcatenate
GCN Layer 2 → BN → ReLU → + 10D LLM埋め込みをconcatenate
GCN Layer 3 → BN → ReLU → + 10D LLM埋め込みをconcatenate
Global Mean Pooling → MLP(64→2) → 活性/非活性分類

総パラメータ: わずか34,728(軽量・高速推論)

② 投影次元アブレーション実験
投影次元CB1erbB1A2A
8次元85.1%87.5%82.3%
10次元 ✓87.8%91.0%86.8%
12次元86.7%90.4%86.0%
14次元86.5%88.8%82.2%

原子特徴数(14)に近い10Dが最適。低次元は情報損失、高次元は過適合リスク。

③ データセット概要(8標的・計39,510分子)
  • キナーゼ系: erbB1, CB1受容体, A2A受容体, ERK2
  • 非キナーゼ: 炭酸脱水酵素II, β-セクレターゼ, GR, PPARG
  • IC50≤200nMを活性(class 1)と定義
  • 5-fold stratified CV + Focal Loss(クラス不均衡対策)
39,510
総分子数(ChEMBLから取得)
④ モデル比較(平均、8データセット)
モデル精度(%)F1(%)AUC-ROC(%)
GCN-LLM88.788.991.7
GCN86.887.690.3
Molformer85.184.690.1
XGBoost85.084.987.1
SVM84.784.487.3

erbB1では精度91.0%・AUC-ROC 94.7%を達成

⑤ 先行研究との差別化
  • SMILES埋め込みを各GCN層に逐次注入(最終層のみ注入より有意に高性能)
  • 事前計算キャッシュで大規模ライブラリへの適用効率を確保
  • Focal Lossでクラス不均衡に対応
制限: ChemBERTa品質に依存。3D構造・反応情報は未統合。希少化学空間での汎化は課題。
⑥ lib/dockingへの統合案
  • UniDockRunner前段LBVSフィルタ: GCN-LLMスコアで候補を事前絞り込み
  • MolgenYamlスコアラー: 生成分子の活性フィルタとして組み込み
  • 軽量(34K params): 高スループット推論・バッチ処理が容易

実装: github.com/radiaberreziga/gcn-llm-virtual-screening