ChemFM: Scaling Law Guided Chemical Foundation Model (3B params)
Cai, Zacour, Zhu et al. (Clemson Univ.) · DOI:10.1038/s42004-025-01793-8 · Commun. Chem. 2025
🎯 スケーリング則でUniChemを選定 → 178M分子をCausal LMで学習した3Bパラメータ基盤モデルが34ベンチマーク全でSOTA超え
① 背景と課題:タスク特化AIの限界

従来のケモインフォマティクスAIはタスクごとに個別モデルを設計・学習しており、スケーラビリティの欠如異タスク間の汎化能力の欠如という2つの根本的課題を抱えていた。

ZINC20(18億分子)はモデルサイズ60M超で検証損失が飽和 → 医薬化学スキャフォールドの多様性不足が原因
既存基盤モデルはスケーリング実験なしにZINC20/PubChemを盲目的に採用していた

→ スケーリング則分析でUniChemを選定し、30億パラメータ規模で汎用化学基盤モデルを構築

② UniChem vs ZINC20 スケーリング比較
ZINC20(1.8B分子)
↓ 60M params超で飽和
多様性不足・情報ボトルネック

UniChem(178M分子)✓
↓ 冪乗則に沿った単調改善
化学空間の多様性が豊富
ChemFM-1B
970M params
ChemFM-3B
3.0B params, 818B tokens学習
③ 事前学習方式

UniChem 178M分子からSMILS拡張(10倍)で8180億トークンを生成。GPT系Transformerで自己回帰Causal LMを1エポック学習。

×10
SMILES augmentation倍率(非正規SMILES)
818B
学習トークン総数(飽和なし)

LoRA(rank=16)でsingle GPU fine-tuning可能

④ 特性予測ベンチマーク(34データセット全SOTA超え)
タスク指標改善幅
BACE (分類)ROC-AUC+0.034
HIV (分類)ROC-AUC+0.030
FreeSolv (回帰)RMSE-0.245
全34ベンチマーク各種最大+67.48%

抗生物質活性スクリーニングにも応用実証済み

⑤ 条件付き分子生成・反応予測
  • 条件付き生成:単一モデルで任意条件組み合わせを制御
  • 条件乖離を最大33.80%削減
  • 反応予測:4データセットでtop-1精度最大+3.7%
  • 無条件生成:有効率0.996、新規性55.8%
[LOGP=2.5][QED=0.8]SMILES
条件付き生成の特殊トークン形式
⑥ パイプライン適用案
  • lib/molgen: ChemFM-3BをMolgenYamlのジェネレータとして統合 → ADMET/logP制御分子生成
  • lib/docking: ChemFM埋め込みでUniDockRunner前段LBVS → 計算コスト削減
  • lib/fep: fine-tuned分類ヘッドでMMGBSAEngine投入候補絞り込み
制限: 3B params学習に大規模GPU必要。SMILESの立体化学表現に限界あり。