従来のケモインフォマティクスAIはタスクごとに個別モデルを設計・学習しており、スケーラビリティの欠如と異タスク間の汎化能力の欠如という2つの根本的課題を抱えていた。
→ スケーリング則分析でUniChemを選定し、30億パラメータ規模で汎用化学基盤モデルを構築
UniChem 178M分子からSMILS拡張(10倍)で8180億トークンを生成。GPT系Transformerで自己回帰Causal LMを1エポック学習。
LoRA(rank=16)でsingle GPU fine-tuning可能
| タスク | 指標 | 改善幅 |
|---|---|---|
| BACE (分類) | ROC-AUC | +0.034 |
| HIV (分類) | ROC-AUC | +0.030 |
| FreeSolv (回帰) | RMSE | -0.245 |
| 全34ベンチマーク | 各種 | 最大+67.48% |
抗生物質活性スクリーニングにも応用実証済み