LigandExplorer: An Automated Tool for Ligand Extraction from PDB Structures

J. Chem. Inf. Model. 2026, 66, 3026-3035 | Published: 2026 | DOI: 10.1021/acs.jcim.5c02921

PDB座標グラフ + LightGBM でリガンドを自動抽出・6カテゴリ分類。PDBbind v2020 と 98.38% 一致。メタデータ欠損に頑健で、DB更新に追従する再実行可能設計。

① 背景と課題

計算化学・機械学習研究においてタンパク質-リガンド複合体構造は中核データだが、PDB・PDBbind・BioLiP は アノテーション規約が異種混在 であり、ML 学習や仮想スクリーニング向け前処理に多大な手作業を要する。

RCSB PDB: カバレッジ最大だが ML 用リガンド分類は提供されない。HETATM 残基名のみが頼り。

PDBbind: 高品質キュレーションだが溶媒・添加物・共有結合リガンドの命名規約が RCSB と乖離する。

BioLiP/BioLiP2: 生物学的関連性は強いが定期更新の遅延が指摘される。

→ メタデータに依存せず、座標グラフから直接リガンドを抽出・分類する自動パイプラインが必要。

② 手法の概要

③ 本研究で示したこと

(a) PDBbind v2020 一致率

(b) PepBDB ペプチド処理

(d) 既存DBとの設計対比

データベース	更新	分類	メタデータ依存
RCSB PDB	毎週	無	HETATM 名
PDBbind	不定期	有(限定)	独自規約
BioLiP / BioLiP2	遅延	有	注釈ベース
LigandExplorer	再実行で追従	6カテゴリ	原子座標のみ

98.38% / 97.52%

PDBbind v2020 一致率 / PepBDB 処理成功率

座標グラフのみで済むため、HETATM 名・鎖 ID の欠損や DB 間の命名揺れに左右されず一貫したリガンド集合を生成できる。

⑤ テイクホームメッセージ

座標グラフ表現が鍵
HETATM 名や著者注釈に頼らず、原子間距離と結合性のみでリガンドを同定する設計が DB 横断の命名揺れを根本的に吸収する。

LightGBM 6 カテゴリで実用到達
ペプチド・核酸・リン脂質・糖質・有機低分子・イオンの分類とリガンド/溶媒判別が PDBbind v2020 と 98.38% 整合する水準に達した。

再実行可能性が運用価値
原始データを変更せず、新規 PDB/PDBbind リリースに同一パイプラインを当てるだけで派生データセットを更新できる。

境界ケースが今後の論点
複雑環状ペプチド・メタロセン/ポルフィリン系の配位化学・PROTAC 様の複合カテゴリ分子の取り扱いは要拡張。

応用補足（ケムインフォ pipeline）

lib/docking: UniDockRunner の入力複合体プールを LigandExplorer 出力で自動更新、共有結合リガンド/溶媒/イオンを除外したクリーン PDB を供給
lib/fep: DockFEP / MMGBSAEngine の参照構造選定に「有機低分子」カテゴリのみを通すフィルタとして利用
lib/molgen: MolgenYaml 学習用ペア (タンパク質, 真リガンド) の自動キュレーションに直結

インパクト