GCNは局所的な分子グラフ構造(結合・原子近傍)を捉えるが、グローバルな化学文脈(官能基相互作用・長距離依存性)の取得が苦手。ChemBERTaのSMILS事前学習知識を各GCN層に注入することで両者を統合する。
総パラメータ: わずか34,728(軽量・高速推論)
| 投影次元 | CB1 | erbB1 | A2A |
|---|---|---|---|
| 8次元 | 85.1% | 87.5% | 82.3% |
| 10次元 ✓ | 87.8% | 91.0% | 86.8% |
| 12次元 | 86.7% | 90.4% | 86.0% |
| 14次元 | 86.5% | 88.8% | 82.2% |
原子特徴数(14)に近い10Dが最適。低次元は情報損失、高次元は過適合リスク。
| モデル | 精度(%) | F1(%) | AUC-ROC(%) |
|---|---|---|---|
| GCN-LLM | 88.7 | 88.9 | 91.7 |
| GCN | 86.8 | 87.6 | 90.3 |
| Molformer | 85.1 | 84.6 | 90.1 |
| XGBoost | 85.0 | 84.9 | 87.1 |
| SVM | 84.7 | 84.4 | 87.3 |
erbB1では精度91.0%・AUC-ROC 94.7%を達成