DeepMIF: A Multiview Interactive Fusion-Based Deep Learning Method for RNA-Small Molecule Binding Affinity Prediction
J. Chem. Inf. Model. 2026, 66, 3575-3589 | DOI: 10.1021/acs.jcim.5c02946 | Category: Machine Learning
RNA標的創薬の鍵:L-ESKmer+RNA言語モデル+GNNをクロスアテンションで融合し、PCC 0.796でRNA-低分子親和性を予測。コールドRNA/コールド低分子でも既存超え。
① 背景:RNA標的創薬の予測手法の未成熟さ

RNA標的創薬は遺伝病や感染症などタンパク質標的が困難な疾患への新規アプローチとして注目されているが、結合親和性予測の体系的な計算手法はタンパク質標的に比べて大きく遅れている。学習データ規模も大差があり、PDBbindの数万件に対してRNA-低分子データセットは1000件強に留まる。

既存k-mer表現は位置情報を無視し、RNA二次構造由来の局所モチーフを捉えきれない
RNA-低分子間の双方向相互作用が独立学習的で、特徴融合が不十分

→ 局所コンテキスト保持+クロスアテンション融合で、限られたデータでも高精度を引き出すモデルを設計

② 手法:4要素のマルチビュー融合アーキテクチャ
  • L-ESKmer:周辺コンテキスト付きk-merでRNA二次構造モチーフを反映
  • RNA-LM 埋め込み:事前学習済みRNA言語モデルから配列表現を取得
  • GNN:原子-結合グラフから低分子の構造化学特徴を抽出
  • マルチヘッドクロスアテンション:RNA特徴と低分子特徴を相互参照
  • 融合値ベクター:双方向に重み付けして親和性を回帰
DeepMIF アーキテクチャ概略 RNA seq L-ESKmer RNA-LM emb Multi-view RNA SMILES → Graph GNN encoder Molecule feat Multi-head Cross-Attention + Fusion vec pKd 回帰
③ 本研究で示したこと
  • 1439ペアの公開データセットで5分割CVを実施
  • PCC 0.796 / RMSE 0.874 を達成し既存手法を凌駕
  • コールドRNA・コールド低分子の双方で外挿性能が向上
  • L-ESKmerとRNA-LMのマルチビューが単独使用より相補的に効くことを確認
  • クロスアテンションがRNA領域と部分構造の対応を解釈可能に提示
④-a 全体性能:PCC / RMSE
5-fold CV (n=1439 ペア) 1.0 0.5 0.0 0.796 PCC 0.874 RMSE SOTA超 vs 既存
0.796 PCC(5-fold CV平均)
④-b コールドスタート評価の優位
コールドスタート時のPCC(概念図) 0.8 0.4 0.0 DeepMIF 既存 cold RNA DeepMIF 既存 cold 低分子

学習に含まれないRNA / 学習に含まれない低分子双方で既存手法より高い相関を維持。新規RNA標的・新規ライブラリへの外挿適性を示唆。

④-c マルチビュー寄与の分解
表現位置情報事前学習役割
k-mer (従来)××頻度のみ
L-ESKmer○ (局所)×二次構造モチーフ
RNA-LM emb○ (大域)進化的文脈
L-ESKmer + LM○○相補的マルチビュー

L-ESKmerとRNA-LMの併用が単独使用より一貫して上回り、両者が捉える情報が異なることを示す。

④-d クロスアテンションの解釈
RNA領域 × 低分子部分構造アテンション(模式) RNA領域 ←低分子の部分構造→ stem-loop bulge pseudoknot internal loop 芳香環 アミン 水素結合 疎水鎖 カルボン酸 グアニジニウム 注意重みがRNA二次構造単位×官能基の対応を可視化
⑤ テイクホームメッセージ
RNA表現は二刀流が効く
L-ESKmerの局所構造シグナルとRNA-LMの大域進化文脈を併用することで、限られた1439ペアでもPCC 0.796という実用域に届く。
クロスアテンションが融合の本質
RNA側と低分子側を独立に潰さず、双方向の重み付けで相互作用特徴を保持する設計が、コールド条件での外挿性能の鍵となった。
外挿性=VS適性
未知RNA・未知化合物のいずれでも既存手法を上回る挙動は、RNA標的の事前選抜やヒット拡張にそのまま応用できる。
RNA創薬基盤化への前哨
3D構造や非コードRNAクラスはまだ未対応。配列駆動のスクリーニング層として位置づけ、構造ベース手法と直列で組み合わせるべき。
RNA標的パイプラインへの応用
  • lib/docking: UniDockRunner の RNA-低分子ドッキング後段に DeepMIF をリスコアラとして組込み、物理スコア+ML親和性のハイブリッド順位付け
  • lib/molgen: MolgenYaml のスコアラに登録し、RNA選択性を誘導する化合物生成
  • 共通基盤: PDB/mmCIF からの RNA 配列抽出 → L-ESKmer / RNA-LM 埋め込み計算を標準化し、RNA-protein 二系統対応に拡張
インパクト
  • タンパク質中心だった親和性予測ML基盤を、RNA標的にまで拡張する設計指針を提示
  • 1000オーダの小規模RNA-低分子データでも実用レベルに到達することを実証
  • コールドスタート性能の改善が、新規RNA標的探索の現実的なフィルターとして機能