ChemFM: Scaling Law Guided Chemical Foundation Model

ChemFM: Scaling Law Guided Chemical Foundation Model (3B params)

Cai, Zacour, Zhu et al. (Clemson Univ.) · DOI:10.1038/s42004-025-01793-8 · Commun. Chem. 2025

🎯 スケーリング則でUniChemを選定 → 178M分子をCausal LMで学習した3Bパラメータ基盤モデルが34ベンチマーク全でSOTA超え

① 背景と課題：タスク特化AIの限界

従来のケモインフォマティクスAIはタスクごとに個別モデルを設計・学習しており、スケーラビリティの欠如と異タスク間の汎化能力の欠如という2つの根本的課題を抱えていた。

ZINC20（18億分子）はモデルサイズ60M超で検証損失が飽和 → 医薬化学スキャフォールドの多様性不足が原因

既存基盤モデルはスケーリング実験なしにZINC20/PubChemを盲目的に採用していた

→ スケーリング則分析でUniChemを選定し、30億パラメータ規模で汎用化学基盤モデルを構築

② UniChem vs ZINC20 スケーリング比較

ZINC20（1.8B分子）
↓ 60M params超で飽和
多様性不足・情報ボトルネック

UniChem（178M分子）✓
↓ 冪乗則に沿った単調改善
化学空間の多様性が豊富

ChemFM-1B

970M params

ChemFM-3B

3.0B params, 818B tokens学習

③ 事前学習方式

UniChem 178M分子からSMILS拡張（10倍）で8180億トークンを生成。GPT系Transformerで自己回帰Causal LMを1エポック学習。

×10

SMILES augmentation倍率（非正規SMILES）

818B

学習トークン総数（飽和なし）

LoRA（rank=16）でsingle GPU fine-tuning可能

④ 特性予測ベンチマーク（34データセット全SOTA超え）

抗生物質活性スクリーニングにも応用実証済み

⑤ 条件付き分子生成・反応予測

[LOGP=2.5][QED=0.8]SMILES

条件付き生成の特殊トークン形式

⑥ パイプライン適用案

制限: 3B params学習に大規模GPU必要。SMILESの立体化学表現に限界あり。