Tabular Foundation Models for In-Context Prediction of Molecular Properties
Ben Hicham, Rittig, Grohe, Mitsos (RWTH Aachen) | arXiv:2604.16123 | 2026年4月
🎯 ファインチューニング不要のin-context学習(TFM+CheMeleon)でMoleculeACE 30タスク100%勝率を達成。低データ分子物性予測の新標準
① 背景と課題

創薬の多くの実用問題では実験データが数十〜数千件という低〜中規模に限られる。既存の分子基盤モデルはタスク特化ファインチューニングを必要とし、ML専門知識・計算コストを要求する上に古典的なXGBoost+フィンガープリントに勝てないことも多い。

Uni-Mol・MolBERT:小データでは過学習リスク、ファインチューニングにGPU時間が必要
Chemprop:数百件以上のデータを要求、新プロジェクト立ち上げ時に不利

→ 新しいタスク/データが到着してもすぐに予測できる「ファインチューニング不要」アプローチ

② TFMのin-context推論

TabPFN/TabICLは合成表形式データセットで事前学習された変換器モデル。推論時に訓練+テストデータを1シーケンスとして入力し、パラメータ更新なしに直接ラベルを予測する。

訓練サンプル features+labels テストサンプル features のみ TFM(TabPFN) 行注意+列注意 予測ラベル (勾配更新なし) Amortized Bayesian Inference — パラメータ凍結
② 分子表現の統合設計

分子をTFMの入力特徴に変換する方法として凍結分子基盤モデル埋め込みまたは古典的記述子を使用する。Morganフィンガープリント(スパースバイナリ)より密な実数値記述子がTFMと相性良好。

分子表現次元TFM相性
CheMeleon(基盤モデル埋込)連続値◎ 最良
RDKit2d(古典記述子)200次元○ 次点
Morganフィンガープリント2048bit

CheMeleon ≈ RDKit2d >> Morgan(複数タスクで一貫して確認)

③ 本研究で示したこと(要点)
  • MoleculeACE 30タスクで100%勝率を達成(ファインチューニング不要)
  • 数十件のデータでも動作、Chemprop等が要求する数百件不要
  • 化学工学データセット(燃料・ポリマー)でもドメイン特化ベースラインと競合
  • pip installable(tabpfn・tabicl・chemmeleon)で即座に導入可能
④ 主な結果 (a) MoleculeACE 30タスク勝率
勝率 Win Rate (%) — MoleculeACE 30タスク XGBoost FT分子基盤M TFM+CheMeleon ~50% ~70% 100%
④ 主な結果 (b) データ規模依存性
有効な訓練データ規模(概念図) 訓練データ規模 → 性能 TFM(20件〜有効) Chemprop等 有効
④ 主な結果 (c) 分子表現比較
表現Polaris+ACE化学工学
TFM+CheMeleon最強競合
TFM+RDKit2d次点競合
TFM+Morgan劣る劣る
XGBoost+Morgan中程度中程度

密な実数値記述子がTFMと特に相性が良い

④ 主な結果 (d) 実用導入コスト
pip install
tabpfn / tabicl / chemmeleon — 即座に導入可能
20〜500件
有効な訓練データ規模。新プロジェクト立ち上げ初期フェーズでも動作

MLエンジニアリング専門知識不要 → DrugDiscoveryチームが自力でカスタマイズ可能

⑤ テイクホームメッセージ
ファインチューニング不要の革新
新タスク/データが到着してもすぐに予測。MLエンジニアリングの専門知識が不要に
低データ設定での圧倒的優位
20〜500件のデータでも動作。従来手法が苦手とする新プロジェクト初期フェーズに最適
lib/docking直接応用
新規プロジェクト立ち上げ時に少量の実験データで即座に活性予測スコアラーを構築
lib/fep・lib/molgenにも統合可能
FEP優先候補選定やMolgenYamlのMPO評価スコアラーとして低コストで統合
評価データセット
データセットタスク数TFM勝率
MoleculeACE30100%
Polaris+ACE計58競合
化学工学(燃料・ポリマー)11競合
本研究のインパクト
  • 「ファインチューニング不要でMoleculeACE 100%勝率」という明確な成果が示す汎用性
  • DrugDiscoveryチームが自力で活性予測スコアラーを構築できるパラダイムシフト
  • lib/docking・lib/fep・lib/molgenの全モジュールで低コスト活用が可能