計算化学・機械学習研究においてタンパク質-リガンド複合体構造は中核データだが、PDB・PDBbind・BioLiP は アノテーション規約が異種混在 であり、ML 学習や仮想スクリーニング向け前処理に多大な手作業を要する。
→ メタデータに依存せず、座標グラフから直接リガンドを抽出・分類する自動パイプラインが必要。
| データベース | 更新 | 分類 | メタデータ依存 |
|---|---|---|---|
| RCSB PDB | 毎週 | 無 | HETATM 名 |
| PDBbind | 不定期 | 有(限定) | 独自規約 |
| BioLiP / BioLiP2 | 遅延 | 有 | 注釈ベース |
| LigandExplorer | 再実行で追従 | 6カテゴリ | 原子座標のみ |
座標グラフのみで済むため、HETATM 名・鎖 ID の欠損や DB 間の命名揺れに左右されず一貫したリガンド集合を生成できる。