Molecular Representation Matters

Molecular Representation Matters: Comparative Evaluation of Fingerprints, RDKit Descriptors, and Hashing Effects

J. Phys. Chem. Lett. | 2026 | DOI: 10.1021/acs.jpclett.5c03797

分子表現を系統比較。ECFP4-2048bitが分類タスクで最安定、ハッシュ512bit以下は衝突で性能低下を示す実用ガイド。

① 背景と課題

QSAR・バーチャルスクリーニング・ADMET予測といった機械学習タスクでは、分子表現（fingerprint / descriptor）の選択が予測精度を大きく左右する。しかし多くのML論文ではECFP4を「とりあえず」採用し、選択根拠が定量化されないままモデル設計が進んでしまう。

ハッシュFPはビット数の節約と衝突（複数部分構造の同一ビット圧縮）のトレードオフが暗黙化されており、512bit以下の挙動が体系的に検証されていない。

RDKit記述子（200次元）はADMETで強いと言われるが、ECFPとの直接比較データがタスクごとに散在しており再現性のある指針が存在しない。

→ 実務者が「どのタスクでどの表現をどのビット幅で使うべきか」を判断できる定量根拠を提供する。

② 比較フレームワーク

③ 主張と実用的提言

(a) ハッシュビット幅と AUC

(b) 表現タイプ別平均 AUC

タスク	ECFP4	RDKit200	勝者
BBBP (BBB透過性)	0.81	0.86	RDKit
Freesolv (RMSE↓)	1.42	1.18	RDKit
ClinTox	0.85	0.83	ECFP4
SIDER	0.66	0.64	ECFP4
HIV (大規模)	0.79	0.74	ECFP4

物性ベースのADMET（透過性・水溶性）では物理化学記述子が勝つ。構造由来の活性予測ではECFP4が依然優位。タスク特性で表現を切り替えるのが最適。

(d) データ規模 × MACCS 効果

⑤ テイクホームメッセージ

デフォルトはECFP4-2048bit

分類タスクの最初の一手として最も安定。サイズ・速度・精度のバランスが取れた実用デフォルト。

512bit以下は禁則

ハッシュ衝突でAUCが急落。特に構造多様性が高いデータセットで顕著（BBBP系）。

ADMETはRDKit記述子を試せ

BBBP・Freesolvなど物性指向タスクではECFP4より有利。物理化学量を残す価値あり。

小データならMACCSも候補

167bit固定の正則化効果でN<2000程度の小規模データに競争力。大規模では劣位。

残る議論: 3DコンフォーマーFP（USRCAT, Pharmacophore）やGNN埋め込みとの比較は未実施。タンパク質ターゲット特異性を考慮した評価も今後の課題。

応用補足（ケムインフォ統合）

lib/docking のQSAR初期設定

QSARモデル構築のデフォルトをECFP4-2048bitに正当化。ProLIFCalculator/UniDockRunner の補助モデルとして実装。

MolRepresentationSelector

タスク種別（分類/回帰、ADMET/活性、データ規模）から最適表現を自動選定するラッパーをlib/dockingに新設。

MolgenYaml スコアラー設計

分子生成の評価関数で表現選定の根拠を明示。ADMETゲートにはRDKit200を、活性予測にはECFP4-2048を割り当てる規約を導入。

インパクト