Tabular Foundation Models for In-Context Prediction of Molecular Properties

Ben Hicham, Rittig, Grohe, Mitsos (RWTH Aachen) | arXiv:2604.16123 | 2026年4月

🎯 ファインチューニング不要のin-context学習（TFM+CheMeleon）でMoleculeACE 30タスク100%勝率を達成。低データ分子物性予測の新標準

① 背景と課題

創薬の多くの実用問題では実験データが数十〜数千件という低〜中規模に限られる。既存の分子基盤モデルはタスク特化ファインチューニングを必要とし、ML専門知識・計算コストを要求する上に古典的なXGBoost+フィンガープリントに勝てないことも多い。

Uni-Mol・MolBERT：小データでは過学習リスク、ファインチューニングにGPU時間が必要

Chemprop：数百件以上のデータを要求、新プロジェクト立ち上げ時に不利

→ 新しいタスク/データが到着してもすぐに予測できる「ファインチューニング不要」アプローチ

② TFMのin-context推論

TabPFN/TabICLは合成表形式データセットで事前学習された変換器モデル。推論時に訓練+テストデータを1シーケンスとして入力し、パラメータ更新なしに直接ラベルを予測する。

② 分子表現の統合設計

分子をTFMの入力特徴に変換する方法として凍結分子基盤モデル埋め込みまたは古典的記述子を使用する。Morganフィンガープリント（スパースバイナリ）より密な実数値記述子がTFMと相性良好。

CheMeleon ≈ RDKit2d >> Morgan（複数タスクで一貫して確認）

③ 本研究で示したこと（要点）

④ 主な結果 (a) MoleculeACE 30タスク勝率

④ 主な結果 (b) データ規模依存性

④ 主な結果 (c) 分子表現比較

密な実数値記述子がTFMと特に相性が良い

④ 主な結果 (d) 実用導入コスト

pip install

tabpfn / tabicl / chemmeleon — 即座に導入可能

20〜500件

有効な訓練データ規模。新プロジェクト立ち上げ初期フェーズでも動作

MLエンジニアリング専門知識不要 → DrugDiscoveryチームが自力でカスタマイズ可能

⑤ テイクホームメッセージ

ファインチューニング不要の革新
新タスク/データが到着してもすぐに予測。MLエンジニアリングの専門知識が不要に

低データ設定での圧倒的優位
20〜500件のデータでも動作。従来手法が苦手とする新プロジェクト初期フェーズに最適

lib/docking直接応用
新規プロジェクト立ち上げ時に少量の実験データで即座に活性予測スコアラーを構築

lib/fep・lib/molgenにも統合可能
FEP優先候補選定やMolgenYamlのMPO評価スコアラーとして低コストで統合

評価データセット

本研究のインパクト