HAPPIER: AI-powered Drug Target Identification via Iterative Hypothesis Generation
KG-RAG + DiffDock 統合グラフUIで薬学化学者のPPI探索を支援(arXiv:2512.11105, Jeon, Chen et al. 2025)
🎯 3基準(PPI・治療的影響・ドッキング)を統合インタフェースで一括評価し、月単位の作業を大幅短縮する
① 背景と課題

新薬開発では、標的タンパク質同定(Target ID)に月単位の時間が必要。薬学化学者は3基準を別々ツールで手動確認している: C1(物理・機能的相互作用 → STRING)、C2(治療的影響 → Google Scholar)、C3(ドッキングポテンシャル → SwissTargetPrediction)。

各ツールが断片化しており、200〜300のPPI候補を3基準で同時評価できない
Wet-lab検証コスト $1,400/タンパク質 → 仮説の質が直接コストに影響
STRINGの大規模グラフは認知負荷が高く、未探索PPIの発見を阻害する

→ KG-RAGとDiffDockを統合グラフUIに組み込み、発散・収束思考の反復サイクルを設計原理として実装

② HAPPIERの3基準統合
基準従来ツールHAPPIER
C1: PPI相互作用STRING(手動)サブグラフ自動分割
C2: 治療的影響Google Scholar検索KG-RAG (0-100スコア)
C3: ドッキングSwissTarget 1件ずつDiffDock 並列実行
初期タンパク質(PDB) + 治療的影響(text) + リガンド(SDF)
↓ STRINGからPPIグラフ取得
↓ 50-60件のサブグラフに分割(10サブグラフ)
↓ KG-RAGスコア + DiffDockポーズを同時表示
③ 設計原理: 発散・収束思考
  • 発散思考: サブグラフ切り替えで既知〜未探索PPIを広く探索
  • 収束思考: C1/C2/C3を同一画面で確認しAI説明+論文で検証
  • 反復サイクル: ブックマーク→マイPPIグラフ構築で精製
Both-DC効果
発散+収束両方で訪問されたPPIの信頼スコアが有意に最高(β=−2.83 vs Neither-DC, p<.001)
④ KG-RAGの仕組み(C2)
STRING REST API
↓ PPI グラフ(タンパク質記述・論文・相互作用ポテンシャル)
↓ サブグラフ → パス分解
↓ LLM (RAG) → 治療的関連スコア 0-100 + 根拠論文
↓ グラフエッジカラーで可視化(C2)

実装: LangChain + Neo4j でナレッジグラフ構築。Cypherクエリで関連パスを抽出してLLMに渡す。

④ DiffDock並列ドッキング(C3)
リガンド(SDF) + 複数タンパク質(PDB)
↓ DiffDock(拡散モデル)
↓ 複数3Dドッキングポーズ生成
↓ ポーズ一貫性・結合部位でスコア算出
↓ ノードカラーで可視化(C3)

従来の1件ずつ→一括並列実行。複数ポーズの分布で信頼性を評価。GitHub: gcorso/DiffDock

④ ユーザースタディ結果
指標結果
仮説数(提出PPI数)有意差あり (p<.05)
信頼スコア有意差あり (p<.05)
Both-DC vs Either-DCβ=−1.886 (p<.001)
Both-DC vs Neither-DCβ=−2.829 (p<.001)
個人差影響最小 (σ²=0.008)

参加者10名(実務経験7〜18年)。LMER + Tukey HSD検定。

④ 限界点
サンプルサイズ10名・1疾患(Alzheimer/MAPT)のみ
KG-RAG・DiffDock精度の独立ベンチマークなし
AI出力のトレーサビリティ(論文の引用箇所特定)が不十分
ヒューマン・イン・ザ・ループ(自己知識追加)機能が未実装

公開実装なし(HCI会議プレプリント)

⑤ テイクホームメッセージ
🔗 3基準統合が最大の差別化
STRING + KG-RAG + DiffDockを単一グラフUIに統合。断片化ツール切り替えの認知負荷を解消し、発散・収束サイクルを設計原理として組み込んだ初のシステム。
🧠 Both-DC原則が設計指針
発散・収束両プロセスで検討されたPPIが最高信頼スコアを獲得。分子生成パイプラインにも応用可能: 多様生成(発散)→SAR収束フィルタ。
DiffDock並列バッチ化の実装価値
複数候補タンパク質への一括ドッキングはlib/dockingに直接応用可能。UniDockRunnerのDiffDockバリアント追加で複数ポーズ信頼性評価が実現。
📚 KG-RAGセカンドフィルタ構想
STRING REST API(無料)+ LangChain/Neo4j でKG-RAGを構築し、dockingスコア通過タンパク質の治療的関連性をLLMで自動評価するフィルタを追加できる。
ケムインフォマティクスへの応用
適用先ユースケース
lib/dockingDiffDockバッチラッパー → 複数候補並列ドッキング
lib/dockingKG-RAGスコアを UniDock後段のセカンドフィルタに追加
lib/molgenKG-RAGスコアをMolgenYamlスコアラーに統合
lib/molgenBoth-DC原則: 多様生成→SAR収束フィルタの2段階設計

STRING REST API は無料で即実装可能。KG-RAGの社内文献適用で研究特化スコアを構築できる。

本研究のインパクト
  • Target ID工程の月単位作業をAI統合UIで大幅短縮
  • 発散・収束思考の反復サイクルが仮説品質を統計的に向上させる設計原理を確立
  • DiffDock+KG-RAGの計算化学パイプライン統合への実装指針を提供