1背景と課題
FBDD(フラグメントベース創薬)では2つのフラグメントを橋渡しするリンカーの設計が律速。
DiffLinker等の3Dモデルは幾何学的整合性には強いが、生成分子の化学的妥当性が約35%に留まり、PAINSアラートやノンドラッグライク構造を高頻度で生成してしまう。
- 幾何学制約(距離・角度)と化学的妥当性の両立が困難
- 3Dグラフ生成は学習データの薬物様分布を継承しにくい
- RLによる事後alignmentは学習コストが高い
2手法の概要
LinkLlama = Meta Llama 3 を ChEMBL36 由来 826万件の (FragA, FragB, Linker) 三つ組みで Supervised Fine-Tuning。
- 2,665,082分子から sp3-acyclic 単結合を2カット → 8,303,935 triplet
- 5フィルタ(PAINS 590 / Brenk 105 / iMiner / 複雑橋頭環 / ChEMBL稀少環)通過のみ採用
- プロンプト = FragA・FragB SMILES + 距離(Å)・角度(°) + Lipinski (MW/HBD/HBA/logP/RotB)
- RL 不使用。SFTのみで条件付き生成 = "alignment-by-design"
3本研究で示したこと
- 化学妥当性 35% → 80%超を達成(DiffLinker比 +45pt以上)
- 幾何学忠実性は3D専用モデルと競合的水準を維持
- 自然言語プロンプトで幾何学+物性制約を同時指定可能
- ALK/EGFR共選択阻害剤のスキャフォールドホッピングで結晶構造に近いリンカー提案
- ARV-110 等の PROTAC リンカー設計にも適用実証
4主な結果
a化学的妥当性 (%)
b幾何学忠実性 vs 妥当性
cデータキュレーション funnel
dプロンプト・出力フロー
5テイクホーム
Llama 3 + SFT によるリンカー設計は
化学妥当性 35→82% を達成しつつ
幾何学忠実性 も DiffLinker と同等。
プロンプトで 距離・角度・Lipinski を一括指定でき、
RL 不要 の "alignment-by-design"。
lib/molgen → UniDockRunner → MMGBSAEngine 統合で PROTAC/FBDD パイプラインを加速。