創薬の多くの実用問題では実験データが数十〜数千件という低〜中規模に限られる。既存の分子基盤モデルはタスク特化ファインチューニングを必要とし、ML専門知識・計算コストを要求する上に古典的なXGBoost+フィンガープリントに勝てないことも多い。
→ 新しいタスク/データが到着してもすぐに予測できる「ファインチューニング不要」アプローチ
TabPFN/TabICLは合成表形式データセットで事前学習された変換器モデル。推論時に訓練+テストデータを1シーケンスとして入力し、パラメータ更新なしに直接ラベルを予測する。
分子をTFMの入力特徴に変換する方法として凍結分子基盤モデル埋め込みまたは古典的記述子を使用する。Morganフィンガープリント(スパースバイナリ)より密な実数値記述子がTFMと相性良好。
| 分子表現 | 次元 | TFM相性 |
|---|---|---|
| CheMeleon(基盤モデル埋込) | 連続値 | ◎ 最良 |
| RDKit2d(古典記述子) | 200次元 | ○ 次点 |
| Morganフィンガープリント | 2048bit | △ |
CheMeleon ≈ RDKit2d >> Morgan(複数タスクで一貫して確認)
| 表現 | Polaris+ACE | 化学工学 |
|---|---|---|
| TFM+CheMeleon | 最強 | 競合 |
| TFM+RDKit2d | 次点 | 競合 |
| TFM+Morgan | 劣る | 劣る |
| XGBoost+Morgan | 中程度 | 中程度 |
密な実数値記述子がTFMと特に相性が良い
MLエンジニアリング専門知識不要 → DrugDiscoveryチームが自力でカスタマイズ可能
| データセット | タスク数 | TFM勝率 |
|---|---|---|
| MoleculeACE | 30 | 100% |
| Polaris+ACE計 | 58 | 競合 |
| 化学工学(燃料・ポリマー) | 11 | 競合 |