LigandExplorer: An Automated Tool for Ligand Extraction from PDB Structures
J. Chem. Inf. Model. 2026, 66, 3026-3035 | Published: 2026 | DOI: 10.1021/acs.jcim.5c02921
PDB座標グラフ + LightGBM でリガンドを自動抽出・6カテゴリ分類。PDBbind v2020 と 98.38% 一致。メタデータ欠損に頑健で、DB更新に追従する再実行可能設計。
① 背景と課題

計算化学・機械学習研究においてタンパク質-リガンド複合体構造は中核データだが、PDB・PDBbind・BioLiP は アノテーション規約が異種混在 であり、ML 学習や仮想スクリーニング向け前処理に多大な手作業を要する。

RCSB PDB: カバレッジ最大だが ML 用リガンド分類は提供されない。HETATM 残基名のみが頼り。
PDBbind: 高品質キュレーションだが溶媒・添加物・共有結合リガンドの命名規約が RCSB と乖離する。
BioLiP/BioLiP2: 生物学的関連性は強いが定期更新の遅延が指摘される。

→ メタデータに依存せず、座標グラフから直接リガンドを抽出・分類する自動パイプラインが必要。

② 手法の概要
  • 残基レベルグラフ構築:原子座標のみから残基・低分子をノード化、共有結合と近接接触をエッジ化
  • メタデータ非依存:HETATM 名・鎖 ID・著者注釈に頼らず空間情報で同定
  • LightGBM 6 カテゴリ分類:ペプチド/核酸/リン脂質/糖質/有機低分子/イオン
  • 関連性スコアリング:真のリガンド vs 溶媒・結晶化添加物を判定
  • 再実行可能設計:原始データ非破壊、新リリースで自動再生成
処理パイプライン PDB 座標 残基ノード +結合エッジ 候補リガンド サブグラフ抽出 LightGBM 6カテゴリ分類 関連性スコアリング 再実行可能データセット出力 入力 PDB → グラフ → サブグラフ → 分類 → クリーン済み複合体集合
③ 本研究で示したこと
  • PDBbind v2020 refined set との対応基準統一比較で 98.38% 一致
  • 残り 1.62% の不一致は RCSB 原始エントリ vs PDBbind キュレーションの相違に起因
  • PepBDB の 5005 タンパク質-ペプチド複合体中 4881 件 (97.52%) を正常処理
  • 処理失敗例は主に複雑環状ペプチドおよび上流データ記録エラー
  • 原子座標ベース設計により複数 DB 間の命名差異を回避できることを実証
(a) PDBbind v2020 一致率
refined set 対応比較 98.38% 一致率 一致 98.38% 不一致 1.62% 基準: 原子座標の対応 で統一比較 不一致主因: RCSB と PDBbind の命名差
(b) PepBDB ペプチド処理
PepBDB 5005 件処理ファネル 入力 5005 複合体 グラフ構築 → サブグラフ抽出 正常処理 4881 件 (97.52%) 失敗 124 件 (2.48%) ← 複雑環状ペプチド・上流エラー
(c) 6カテゴリ分類軸
LightGBM 出力ラベル ペプチド amide 主鎖 核酸 phosphate 骨格 リン脂質 P + 長鎖脂肪酸 糖質 ピラノース環 有機低分子 drug-like イオン 単原子・小錯体 入力特徴量: 原子組成・環構造・分子量・官能基 + 関連性スコア(真リガンド vs 溶媒/添加物) PROTAC など複合カテゴリ分子は今後の課題
(d) 既存DBとの設計対比
データベース更新分類メタデータ依存
RCSB PDB毎週HETATM 名
PDBbind不定期有(限定)独自規約
BioLiP / BioLiP2遅延注釈ベース
LigandExplorer再実行で追従6カテゴリ原子座標のみ
98.38% / 97.52%
PDBbind v2020 一致率 / PepBDB 処理成功率

座標グラフのみで済むため、HETATM 名・鎖 ID の欠損や DB 間の命名揺れに左右されず一貫したリガンド集合を生成できる。

⑤ テイクホームメッセージ
座標グラフ表現が鍵
HETATM 名や著者注釈に頼らず、原子間距離と結合性のみでリガンドを同定する設計が DB 横断の命名揺れを根本的に吸収する。
LightGBM 6 カテゴリで実用到達
ペプチド・核酸・リン脂質・糖質・有機低分子・イオンの分類とリガンド/溶媒判別が PDBbind v2020 と 98.38% 整合する水準に達した。
再実行可能性が運用価値
原始データを変更せず、新規 PDB/PDBbind リリースに同一パイプラインを当てるだけで派生データセットを更新できる。
境界ケースが今後の論点
複雑環状ペプチド・メタロセン/ポルフィリン系の配位化学・PROTAC 様の複合カテゴリ分子の取り扱いは要拡張。
応用補足(ケムインフォ pipeline)
  • lib/docking: UniDockRunner の入力複合体プールを LigandExplorer 出力で自動更新、共有結合リガンド/溶媒/イオンを除外したクリーン PDB を供給
  • lib/fep: DockFEP / MMGBSAEngine の参照構造選定に「有機低分子」カテゴリのみを通すフィルタとして利用
  • lib/molgen: MolgenYaml 学習用ペア (タンパク質, 真リガンド) の自動キュレーションに直結
インパクト
  • PDB → ML 学習データ化の前処理コストを大幅削減
  • DB 更新追従の自動化で派生データセットの陳腐化を回避
  • 座標ベース同定がメタデータ品質依存の脆弱性を解消