QSAR・バーチャルスクリーニング・ADMET予測といった機械学習タスクでは、分子表現(fingerprint / descriptor)の選択が予測精度を大きく左右する。しかし多くのML論文ではECFP4を「とりあえず」採用し、選択根拠が定量化されないままモデル設計が進んでしまう。
→ 実務者が「どのタスクでどの表現をどのビット幅で使うべきか」を判断できる定量根拠を提供する。
| タスク | ECFP4 | RDKit200 | 勝者 |
|---|---|---|---|
| BBBP (BBB透過性) | 0.81 | 0.86 | RDKit |
| Freesolv (RMSE↓) | 1.42 | 1.18 | RDKit |
| ClinTox | 0.85 | 0.83 | ECFP4 |
| SIDER | 0.66 | 0.64 | ECFP4 |
| HIV (大規模) | 0.79 | 0.74 | ECFP4 |
物性ベースのADMET(透過性・水溶性)では物理化学記述子が勝つ。構造由来の活性予測ではECFP4が依然優位。タスク特性で表現を切り替えるのが最適。
分類タスクの最初の一手として最も安定。サイズ・速度・精度のバランスが取れた実用デフォルト。
ハッシュ衝突でAUCが急落。特に構造多様性が高いデータセットで顕著(BBBP系)。
BBBP・Freesolvなど物性指向タスクではECFP4より有利。物理化学量を残す価値あり。
167bit固定の正則化効果でN<2000程度の小規模データに競争力。大規模では劣位。
lib/docking のQSAR初期設定
QSARモデル構築のデフォルトをECFP4-2048bitに正当化。ProLIFCalculator/UniDockRunner の補助モデルとして実装。
MolRepresentationSelector
タスク種別(分類/回帰、ADMET/活性、データ規模)から最適表現を自動選定するラッパーをlib/dockingに新設。
MolgenYaml スコアラー設計
分子生成の評価関数で表現選定の根拠を明示。ADMETゲートにはRDKit200を、活性予測にはECFP4-2048を割り当てる規約を導入。