RNA標的創薬は遺伝病や感染症などタンパク質標的が困難な疾患への新規アプローチとして注目されているが、結合親和性予測の体系的な計算手法はタンパク質標的に比べて大きく遅れている。学習データ規模も大差があり、PDBbindの数万件に対してRNA-低分子データセットは1000件強に留まる。
→ 局所コンテキスト保持+クロスアテンション融合で、限られたデータでも高精度を引き出すモデルを設計
学習に含まれないRNA / 学習に含まれない低分子双方で既存手法より高い相関を維持。新規RNA標的・新規ライブラリへの外挿適性を示唆。
| 表現 | 位置情報 | 事前学習 | 役割 |
|---|---|---|---|
| k-mer (従来) | × | × | 頻度のみ |
| L-ESKmer | ○ (局所) | × | 二次構造モチーフ |
| RNA-LM emb | ○ (大域) | ○ | 進化的文脈 |
| L-ESKmer + LM | ○○ | ○ | 相補的マルチビュー |
L-ESKmerとRNA-LMの併用が単独使用より一貫して上回り、両者が捉える情報が異なることを示す。