LinkLlama: Enabling Large Language Model for Chemically Reasonable Linker Design

Sun, Wang, Purnomo, Cavanagh, Alteri, Head-Gordon (UC Berkeley) — bioRxiv 2026.04

ゴール: FBDDリンカー設計の化学的妥当性を 35% → 80%超へ。LLM (Llama 3 SFT) で alignment-by-design を実現
DOI: 10.64898/2026.04.15.718690
Category: machine_learning
Target: lib/molgen, lib/docking

1背景と課題

FBDD(フラグメントベース創薬)では2つのフラグメントを橋渡しするリンカーの設計が律速。 DiffLinker等の3Dモデルは幾何学的整合性には強いが、生成分子の化学的妥当性が約35%に留まり、PAINSアラートやノンドラッグライク構造を高頻度で生成してしまう。

  • 幾何学制約(距離・角度)と化学的妥当性の両立が困難
  • 3Dグラフ生成は学習データの薬物様分布を継承しにくい
  • RLによる事後alignmentは学習コストが高い

2手法の概要

LinkLlama = Meta Llama 3 を ChEMBL36 由来 826万件の (FragA, FragB, Linker) 三つ組みで Supervised Fine-Tuning。

  • 2,665,082分子から sp3-acyclic 単結合を2カット → 8,303,935 triplet
  • 5フィルタ(PAINS 590 / Brenk 105 / iMiner / 複雑橋頭環 / ChEMBL稀少環)通過のみ採用
  • プロンプト = FragA・FragB SMILES + 距離(Å)・角度(°) + Lipinski (MW/HBD/HBA/logP/RotB)
  • RL 不使用。SFTのみで条件付き生成 = "alignment-by-design"

3本研究で示したこと

  • 化学妥当性 35% → 80%超を達成(DiffLinker比 +45pt以上)
  • 幾何学忠実性は3D専用モデルと競合的水準を維持
  • 自然言語プロンプトで幾何学+物性制約を同時指定可能
  • ALK/EGFR共選択阻害剤のスキャフォールドホッピングで結晶構造に近いリンカー提案
  • ARV-110 等の PROTAC リンカー設計にも適用実証

4主な結果

a化学的妥当性 (%)
0 20 40 60 80 100 35% DiffLinker 82% LinkLlama Validity (%) +47pt
b幾何学忠実性 vs 妥当性
0 25 50 75 100 poor good 幾何学忠実性 → Validity → ideal zone DiffLinker 35% / high geom LinkLlama 82% / 競合的
cデータキュレーション funnel
ChEMBL36: 2,665,082 mols 2-cut sp3-acyclic 切断 8,303,935 triplets 5フィルタ通過 → SFT 学習データ raw cut 8.3M curated
dプロンプト・出力フロー
FragA SMILES FragB SMILES 距離 / 角度 Lipinski/RotB LinkLlama Llama 3 + SFT Linker SMILES + PAINS/Brenk pass → Dock / MD 評価 No RL needed

5テイクホーム

Llama 3 + SFT によるリンカー設計は 化学妥当性 35→82% を達成しつつ 幾何学忠実性 も DiffLinker と同等。 プロンプトで 距離・角度・Lipinski を一括指定でき、 RL 不要 の "alignment-by-design"。 lib/molgen → UniDockRunner → MMGBSAEngine 統合で PROTAC/FBDD パイプラインを加速。