DIVINE: Deterministic Top-Down Clustering Framework for MD Trajectories

DIVINE: Deterministic Top-Down Clustering Framework for Molecular Dynamics Trajectories

J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02740

305 μsのHP35フォールディング軌跡をO(N^2)行列不要・決定論的にクラスタリング。NANI初期化＋n-ary分割でbisecting k-means同等品質を再現性100%で達成。

(1) 背景と課題：MDクラスタリングの再現性とスケーラビリティ

長時間MDトラジェクトリ（μs〜ms、数百万フレーム）からコンフォメーション状態を抽出するクラスタリングは、構造遺伝子の発見・代表構造選定・FEPテンプレート選択など下流解析の基盤を成す。しかし現行の主流手法には根本的な制約がある。

k-means／bisecting k-means：初期重心を確率的にサンプリングするため、同一入力でも実行ごとに異なる解を返し、論文・パイプラインの再現性が担保されない。

HAC（階層凝集クラスタリング）：O(N^2)のペアワイズ距離行列が必要。HP35の305 μs軌跡（10^6オーダーのフレーム）ではメモリ・時間ともに実用域を超える。

→ 確率的変動を排し、行列計算を回避し、複数分解能を一度に探索できる決定論的トップダウン手法を提案する。

(2) 手法の概要：DIVINE（DIVIsive N-ary Ensembles）

(3) 本研究で示したこと

(4a) HP35 D-E状態遷移の階層分解能

single-pass 階層から K=2,3,4 を同時取得し、D-E 状態遷移が K=3 以上で初めて可視化される。

(4b) bisecting k-means とのクラスタ品質比較

(4c) 再現性：同一入力に対する解の一致率

(4d) スケーラビリティ：HACとの計算量比較

手法	距離行列	305μs HP35	再現性
HAC（凝集型）	O(N^2)	メモリ不足	OK
k-means	不要	実行可	NG
bisecting k-means	不要	実行可	NG
DIVINE	不要	実行可	完全

行列フリー設計

トップダウン分割でHACのO(N^2)を回避

1 pass → K=2..k

単一実行で複数分解能を網羅、最適K選定が効率化

(5) テイクホームメッセージ

決定論で再現性問題を解決
NANI 初期化により乱数シードに依存しない。論文・パイプラインの再現実験で乱数依存問題を根本的に取り除く。

行列フリーで長時間軌跡へ
O(N^2)行列を計算しないトップダウン分割で、HP35級（305 μs）以上のms軌跡にもスケール可能。

単一パスで分解能を網羅
K=2,3,4… を1回の実行で同時取得。最適クラスタ数の選定をシルエット等で外側から閉ループ化できる。

MDANCEパッケージで即適用可
mqcomplab/MDANCE が公開済み。lib/md の既存 RMSDAnalyzer 系列に新クラスタ層として直接組み込める。

応用補足：lib/md パイプラインへの統合

インパクト

残課題：大クラスタ内の全ペアn-ary類似度評価は依然コスト要因。最悪軌跡で局所最適に陥る可能性。3-ary 以上の粗分割の実証は限定的。