DIVINE: Deterministic Top-Down Clustering Framework for Molecular Dynamics Trajectories
J. Chem. Inf. Model. | 2026 | DOI: 10.1021/acs.jcim.5c02740
305 μsのHP35フォールディング軌跡をO(N^2)行列不要・決定論的にクラスタリング。NANI初期化+n-ary分割でbisecting k-means同等品質を再現性100%で達成。
(1) 背景と課題:MDクラスタリングの再現性とスケーラビリティ

長時間MDトラジェクトリ(μs〜ms、数百万フレーム)からコンフォメーション状態を抽出するクラスタリングは、構造遺伝子の発見・代表構造選定・FEPテンプレート選択など下流解析の基盤を成す。しかし現行の主流手法には根本的な制約がある。

k-means/bisecting k-means:初期重心を確率的にサンプリングするため、同一入力でも実行ごとに異なる解を返し、論文・パイプラインの再現性が担保されない。
HAC(階層凝集クラスタリング):O(N^2)のペアワイズ距離行列が必要。HP35の305 μs軌跡(10^6オーダーのフレーム)ではメモリ・時間ともに実用域を超える。

→ 確率的変動を排し、行列計算を回避し、複数分解能を一度に探索できる決定論的トップダウン手法を提案する。

(2) 手法の概要:DIVINE(DIVIsive N-ary Ensembles)
  • 全フレームを1クラスタから開始し、再帰的に2分割するトップダウン構造
  • NANI初期化:n-ary類似度が最も低い(最も多様な)スナップショットを決定論的にシード選択
  • n-ary類似性スコアの差異が最大になる分割点でクラスタを2分割
  • 加重分散メトリクスでクラスタ内多様性を評価し、階層の切り捨て位置を決定
  • シングルパスで複数のクラスタ数(K=2,3,…)を1回の実行から取得
DIVINE 二分木分割パイプライン All frames Folded Unfolded Native D-state E-state Disordered NANI seed: argmin(n-ary sim) Split: max delta n-ary similarity Single pass to K=2,3,4,...
(3) 本研究で示したこと
  • 305 μsのHP35(ビリンヘッドピース)折りたたみ軌跡で検証
  • D-E状態遷移を含む長時間軌跡で品質評価
  • bisecting k-meansと同等以上のDavies-Bouldin / Calinski-Harabasz指標
  • 確率的変動を完全排除:同一入力 → 同一結果(再現性100%)
  • 実行時間はbisecting k-meansと同程度〜短縮
  • MDANCEパッケージとして公開済み(GitHub: mqcomplab/MDANCE)
(4a) HP35 D-E状態遷移の階層分解能
305 μs HP35:1パスで K=2/3/4 を同時取得 K=2 K=3 K=4 0 152 μs 305 μs trajectory time Native D-state E-state Unfolded

single-pass 階層から K=2,3,4 を同時取得し、D-E 状態遷移が K=3 以上で初めて可視化される。

(4b) bisecting k-means とのクラスタ品質比較
クラスタ品質指標(HP35, K=4) Davies-Bouldin (lower better) bk-means ~1.0 DIVINE ~0.9 Calinski-Harabasz (higher better) bk-means 100% DIVINE >=100% relative score DIVINE は両指標で同等以上
(4c) 再現性:同一入力に対する解の一致率
独立実行間の割当一致率(イメージ) 1.0 0.5 0.0 bisecting k-means 変動あり (初期重心依存) DIVINE 完全一致 (NANI 決定論) 同入力→同結果 DIVINE は乱数シードに依存しない
(4d) スケーラビリティ:HACとの計算量比較
手法距離行列305μs HP35再現性
HAC(凝集型)O(N^2)メモリ不足OK
k-means不要実行可NG
bisecting k-means不要実行可NG
DIVINE不要実行可完全
行列フリー設計
トップダウン分割でHACのO(N^2)を回避
1 pass → K=2..k
単一実行で複数分解能を網羅、最適K選定が効率化
(5) テイクホームメッセージ
決定論で再現性問題を解決
NANI 初期化により乱数シードに依存しない。論文・パイプラインの再現実験で乱数依存問題を根本的に取り除く。
行列フリーで長時間軌跡へ
O(N^2)行列を計算しないトップダウン分割で、HP35級(305 μs)以上のms軌跡にもスケール可能。
単一パスで分解能を網羅
K=2,3,4… を1回の実行で同時取得。最適クラスタ数の選定をシルエット等で外側から閉ループ化できる。
MDANCEパッケージで即適用可
mqcomplab/MDANCE が公開済み。lib/md の既存 RMSDAnalyzer 系列に新クラスタ層として直接組み込める。
応用補足:lib/md パイプラインへの統合
  • DockFEP / MMGBSAEngine 投入用の代表構造選定(クラスタ重心)を決定論化
  • HBondAnalyzer / RMSDAnalyzer の出力との直結(フレーム→状態ラベル付与)
  • テンプレートMD選定スクリプトのCI化(同一入力で同一結果が保証される)
  • 分子生成(lib/molgen)の構造制約サンプリング元として使用可能
インパクト
  • 長時間MD解析の再現性危機に直接対処:論文・規制提出ワークフローでの引用・再計算が可能に
  • HACのメモリ壁を超えてms領域の軌跡解析が現実解に
  • n-ary類似性 + NANI を共通基盤にしたクラスタリング標準として MDANCE が拡張中
残課題:大クラスタ内の全ペアn-ary類似度評価は依然コスト要因。最悪軌跡で局所最適に陥る可能性。3-ary 以上の粗分割の実証は限定的。