創薬AIの予測精度は学習データの品質に強く依存する。しかし公共DB(ChEMBL等)に蓄積されたIC50/Ki値は、論文ごとに異なるアッセイ条件(pH・バッファー・温度・塩濃度・基質濃度)で測定されており、同一化合物・同一標的でも報告値が大きく食い違う。これは単なる実験ノイズではなく、標的タンパク質のコンフォメーション可塑性に由来する物理化学的本質を持つ問題である。
DENV2プロテアーゼ・SARS-CoV-2 Mproの実測データを再解析し、条件別モデルクラスタリング+アンサンブル戦略を提案。アッセイ条件メタデータはDL/LLMを用いて文献から自動抽出することを提唱。
非共有結合阻害剤はアッセイ条件で2桁の変動を示すが、共有結合阻害剤(ボロン酸)は条件耐性が高い。共有結合相互作用が条件依存性を抑制する。
本論文はViewpoint/Commentaryであり、新規実験は実施していない。著者らの先行研究(参考文献7・8)で報告されたDENV2プロテアーゼ阻害剤の実測データを再解析して論点を提示する形式。
条件3: pH 9 / Tris / 10°C ethylene glycol / 1 mM CHAPS / RT。条件5: pH 7 / phosphate / 1 mM CHAPS / 37°C。基質同一・濃度固定でもバッファー組成変更のみで変動が再現。
非共有阻害剤は最大117倍の変動を示すのに対し、共有結合ボロン酸は約2倍以下に収束。結合機構そのものがアッセイ条件耐性を決定する重要因子。
| 適用先 | 提案ユースケース | 期待効果 |
|---|---|---|
| lib/fep | FEP/MM-GBSAベンチマーク構築時にChEMBLメタデータ(pH/buffer/temp)でフィルタ | RMSE低減・系統誤差排除 |
| lib/docking | UniDockRunnerのスコア較正時、IC50ラベルをアッセイ条件クラスタ別に分離 | QSAR的疑似ラベルの信頼度向上 |
公開実装はないが、本論文の警告は実験データ駆動MLモジュール全般に直接影響。MMGBSAEngineの校正・molgenスコアラーでも同様のメタデータフィルタリングを導入すべき。