Understanding Structural Representation in Foundation Models for Polymers
Park*, Brazil* et al. (IBM Research Almaden & IBM Research Brazil) — arXiv:2512.11881 [cond-mat.soft] Dec 2025
🎯 SMILES系列モデルの表現設計原則を再考:CPG表現で28ポリマーベンチマーク多数SOTA達成
① 背景と課題

ポリマー基盤モデルはAlphaFoldと異なり産業・学術的インパクトに乏しい。その根本原因はSMILES由来の構造表現の限界にある。

PSMILESはランダム/ブロックコポリマーを区別できず、物性予測で系統的誤りを生む
データが希少・ライセンス制限・数社のソースに集中し、標準ベンチマークが不在
「表現を変えたら精度向上」という報告が対照実験なしで氾濫しており信頼性が低い

→ SMILES文法の最小拡張(CPG)でコポリマー構造を正確に表現し、系統的対照実験で表現設計の実態を解明

② CPG表現の仕組み

CMDL Polymer Graph(CPG)は番号付きアスタリスク+エッジ定義の形式を採用。

PSMILES: *C(CCCCN*)=O ← ランダム/ブロック区別不能

CPG: [*:1]C(CCCCN[*:2])=O|1->2|DP|D

エッジ定義でブロック比率・接続パターンを明示

ホモポリマー・コポリマー・電解質混合系すべてを同一形式でカバー。既存PSMILESデータセットへの後方互換も確保。

③ SMI-TED-POLYMER289M

CPGを入力とする289M paramの事前学習済みポリマー基盤モデル。

Phase 1: MLM(マスク15%→80%置換/10%ランダム/10%保持)
↓ トークン埋め込み学習
Phase 2: エンコーダ-デコーダ再構成ロス
↓ 潜在空間最適化
289M params
ibm/materials.smi-ted (HuggingFace公開済み)
④ ベンチマーク結果(28データセット)
カテゴリ代表データセット性能
電子特性Chain/Bulk Bandgap, EPSSOTA達成
光学特性屈折率 (2種)SOTA達成
ガスバリアCO₂/CH₄/N₂透過性・選択性SOTA達成
熱特性Tg (3種), Td,50%SOTA近傍
電子特性コポリマー Eea, Ei既存手法に劣後
④ 重要な知見:表現不変性

コントロール実験(CPG vs. PSMILES vs. 意味的に無効な変種)の衝撃的な結果:

invariant
多くの変種がSOTA水準を達成 — 表現形式への強い不変性

SMILES系列モデルは化学的意味よりも配列空間全体を内挿しており、表現の化学的妥当性が必ずしも性能向上に必要でないことが判明。アテンションマップも同知見を支持。

④ 限界点
  • ポリマーMLデータの希少性・ライセンス問題は未解決
  • コポリマー電子特性では既存手法に劣後(データセット固有課題)
  • 「表現不変性」の根拠は示したが建設的代替設計指針は薄い
  • デンドリマー・スター型ポリマー等への対応は将来課題
⑤ テイクホームメッセージ
🧱 CPG表現でコポリマー曖昧性を解消
SMILES拡張によりランダム/ブロックコポリマーを明示的に区別可能に。既存データセットとの後方互換を維持。
🏆 28ベンチマーク中多数でSOTA
電子・光学・ガスバリア・熱特性の幅広い物性予測で既存最高水準に匹敵または上回る性能。
⚠️ 表現不変性という衝撃的知見
意味的に無効な表現変種でもSOTA水準の性能。モデルは配列分布を内挿しており、表現設計の前提を問い直す。
🔓 HuggingFaceで公開済み
ibm/materials.smi-ted から事前学習済みモデルを取得可能。289M params、ファインチューニングに対応。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenCPG表現対応スコアラーでポリマー賦形剤最適化
lib/molgenMolgenYamlのTg/透過性制約にSMI-TED-POLYMER統合
lib/fepポリマー溶媒の物性事前フィルタリングでFEP対象を絞込み

HuggingFaceから289Mモデルをロードするだけでポリマー物性予測をlib/molgenに追加できる

本研究のインパクト
  • ポリマー基盤モデル設計の「思い込み」を系統的対照実験で解体
  • コポリマー表現問題をSMILES拡張で解決しつつ後方互換維持
  • 公開済みモデルでlib/molgenへの即時統合が可能