Molecular Representation Matters: Comparative Evaluation of Fingerprints, RDKit Descriptors, and Hashing Effects
J. Phys. Chem. Lett. | 2026 | DOI: 10.1021/acs.jpclett.5c03797
分子表現を系統比較。ECFP4-2048bitが分類タスクで最安定、ハッシュ512bit以下は衝突で性能低下を示す実用ガイド。
① 背景と課題

QSAR・バーチャルスクリーニング・ADMET予測といった機械学習タスクでは、分子表現(fingerprint / descriptor)の選択が予測精度を大きく左右する。しかし多くのML論文ではECFP4を「とりあえず」採用し、選択根拠が定量化されないままモデル設計が進んでしまう。

ハッシュFPはビット数の節約と衝突(複数部分構造の同一ビット圧縮)のトレードオフが暗黙化されており、512bit以下の挙動が体系的に検証されていない。
RDKit記述子(200次元)はADMETで強いと言われるが、ECFPとの直接比較データがタスクごとに散在しており再現性のある指針が存在しない。

→ 実務者が「どのタスクでどの表現をどのビット幅で使うべきか」を判断できる定量根拠を提供する。

② 比較フレームワーク
  • 表現: ECFP2 / ECFP4 / ECFP6(512・1024・2048・4096bit)+ MACCS167 + RDKit記述子200次元
  • モデル: Random Forest / XGBoost / GNN の3系統で交差比較
  • データ: ChEMBL + MoleculeNet(BBBP・SIDER・ClinTox・Freesolv ほか)
  • 評価: 分類はROC AUC、回帰はRMSEで定量化
  • ハッシュ衝突: ビット幅を系統スイープし情報密度との関係を定量化
評価パイプライン SMILES入力 ChEMBL+MN 表現生成 ECFP/MACCS/RDKit 学習 RF/XGB/GNN 評価 AUC / RMSE ハッシュビット幅 512 / 1024 / 2048 / 4096 を系統スイープ 表現 × モデル × データセット の直交比較 → タスク依存性とビット幅依存性を分離して可視化
③ 主張と実用的提言
  • ECFP4-2048bit が分類タスクで最も安定した高性能を示す
  • ハッシュ幅を512bit以下に落とすと衝突増加でAUCが有意に低下
  • RDKit記述子はADMET系タスク(BBBP・水溶性)でECFPより有利な場合あり
  • MACCS167は小規模データセットで正則化効果が働き競争力あり
  • 大規模データでは MACCS 劣位、ECFP4-2048bit 優位の傾向
(a) ハッシュビット幅と AUC
ECFP4 ROC AUC vs ハッシュビット幅 512 1024 2048 4096 bit幅 (hash size) 0.65 0.75 0.85 0.92 ROC AUC 最安定: 2048bit BBBP(多様性高) ClinTox 512bit衝突で急落
(b) 表現タイプ別 平均 AUC
分類タスク平均 ROC AUC(モデル平均) 0.65 0.72 0.79 0.86 0.92 ECFP2 0.78 ECFP4 0.84 ECFP6 0.83 MACCS 0.76 RDKit200 0.81 ECFP4 (2048bit) が最安定 ROC AUC
(c) ADMETタスクでのRDKit優位
タスクECFP4RDKit200勝者
BBBP (BBB透過性)0.810.86RDKit
Freesolv (RMSE↓)1.421.18RDKit
ClinTox0.850.83ECFP4
SIDER0.660.64ECFP4
HIV (大規模)0.790.74ECFP4

物性ベースのADMET(透過性・水溶性)では物理化学記述子が勝つ。構造由来の活性予測ではECFP4が依然優位。タスク特性で表現を切り替えるのが最適。

(d) データ規模 × MACCS 効果
データ規模 vs ECFP4 / MACCS の差 ~500 ~2k ~10k ~40k 学習サンプル数 (N) ROC AUC 0.70 0.80 0.90 小規模域: MACCS競合 大規模域: ECFP4優位 ECFP4-2048 MACCS167
⑤ テイクホームメッセージ
デフォルトはECFP4-2048bit

分類タスクの最初の一手として最も安定。サイズ・速度・精度のバランスが取れた実用デフォルト。

512bit以下は禁則

ハッシュ衝突でAUCが急落。特に構造多様性が高いデータセットで顕著(BBBP系)。

ADMETはRDKit記述子を試せ

BBBP・Freesolvなど物性指向タスクではECFP4より有利。物理化学量を残す価値あり。

小データならMACCSも候補

167bit固定の正則化効果でN<2000程度の小規模データに競争力。大規模では劣位。

残る議論: 3DコンフォーマーFP(USRCAT, Pharmacophore)やGNN埋め込みとの比較は未実施。タンパク質ターゲット特異性を考慮した評価も今後の課題。
応用補足(ケムインフォ統合)

lib/docking のQSAR初期設定

QSARモデル構築のデフォルトをECFP4-2048bitに正当化。ProLIFCalculator/UniDockRunner の補助モデルとして実装。

MolRepresentationSelector

タスク種別(分類/回帰、ADMET/活性、データ規模)から最適表現を自動選定するラッパーをlib/dockingに新設。

MolgenYaml スコアラー設計

分子生成の評価関数で表現選定の根拠を明示。ADMETゲートにはRDKit200を、活性予測にはECFP4-2048を割り当てる規約を導入。

インパクト
  • 「とりあえずECFP4」を定量根拠ある推奨に格上げ
  • ハッシュ幅選定の実務ガイドラインを提供(≥1024bit、推奨2048bit)
  • ADMET vs 活性の表現分離戦略でパイプライン全体の精度を底上げ