ポリマー基盤モデルはAlphaFoldと異なり産業・学術的インパクトに乏しい。その根本原因はSMILES由来の構造表現の限界にある。
→ SMILES文法の最小拡張(CPG)でコポリマー構造を正確に表現し、系統的対照実験で表現設計の実態を解明
CMDL Polymer Graph(CPG)は番号付きアスタリスク+エッジ定義の形式を採用。
*C(CCCCN*)=O ← ランダム/ブロック区別不能[*:1]C(CCCCN[*:2])=O|1->2|DP|Dホモポリマー・コポリマー・電解質混合系すべてを同一形式でカバー。既存PSMILESデータセットへの後方互換も確保。
CPGを入力とする289M paramの事前学習済みポリマー基盤モデル。
| カテゴリ | 代表データセット | 性能 |
|---|---|---|
| 電子特性 | Chain/Bulk Bandgap, EPS | SOTA達成 |
| 光学特性 | 屈折率 (2種) | SOTA達成 |
| ガスバリア | CO₂/CH₄/N₂透過性・選択性 | SOTA達成 |
| 熱特性 | Tg (3種), Td,50% | SOTA近傍 |
| 電子特性 | コポリマー Eea, Ei | 既存手法に劣後 |
コントロール実験(CPG vs. PSMILES vs. 意味的に無効な変種)の衝撃的な結果:
SMILES系列モデルは化学的意味よりも配列空間全体を内挿しており、表現の化学的妥当性が必ずしも性能向上に必要でないことが判明。アテンションマップも同知見を支持。
| 適用先 | ユースケース |
|---|---|
| lib/molgen | CPG表現対応スコアラーでポリマー賦形剤最適化 |
| lib/molgen | MolgenYamlのTg/透過性制約にSMI-TED-POLYMER統合 |
| lib/fep | ポリマー溶媒の物性事前フィルタリングでFEP対象を絞込み |
HuggingFaceから289Mモデルをロードするだけでポリマー物性予測をlib/molgenに追加できる