📚 週次論文レビュー — 🤖 機械学習・AI

対象期間: 2026-04-20 〜 2026-04-26 このページ: 71〜76件目 各ボタンは独立したトグル（複数同時ON可）

ページ: 1 2 3 4 5 6 7 8

71. SciDesignBench: A Benchmark for Scientific Design Reasoning with Reinforcement Learning from Scientific Feedback

DOI: null (arXiv:2603.12724) · 📅 March 2026 · 機械学習・AI

判断:

科学的設計推論（Scientific Design Reasoning）をLLMで評価するベンチマーク SciDesignBench と、科学フィードバックからの強化学習フレームワーク RLSF（Reinforcement Learning from Scientific Feedback）を提案した論文である。物理・化学・生物学・材料科学など14ドメインにわたる520のタスクで構成されており、LLMが科学的設計問題を解く能力を体系的に評価する。特に分子設計・材料設計タスクにおけるLLMの推論能力向上に直結する重要な研究である。

📣 14ドメイン・520タスクの科学設計ベンチマークSciDesignBench登場。RLSF（科学シミュレーターからの強化学習）で分子設計成功率+40%。LLM×化学設計の新指標。

72. Beyond Affinity: A Comprehensive Benchmark for Structure-Based Drug Design Methods

DOI: null (arXiv:2601.14283) · 📅 January 2026 · 機械学習・AI

判断:

構造ベース創薬（SBDD）の深層学習手法を包括的に評価するベンチマーク研究である。既存の親和性予測・ポーズ予測・ポケット検出手法15種を、単純な結合親和性以外の多様な評価軸（選択性・ADMETプロファイル・合成アクセス可能性・生物活性）で体系的に比較した。TMLR 2026（Transactions on Machine Learning Research）に採択された査読付き論文であり、SBDDコミュニティへの信頼できるリファレンスとなる。

📣 SBDDの深層学習15手法を親和性以外の軸（選択性・ADMET・合成アクセス性）で包括比較。単一手法が全軸で勝てず、多軸評価の重要性を実証。TMLR 2026採択。

73. TerraBind: Coarse-Grained Molecular Representations for Efficient Protein-Ligand Binding Affinity Prediction

DOI: null (arXiv:2602.07735) · 📅 February 2026 · 機械学習・AI

判断:

タンパク質-リガンド結合親和性予測において、原子レベルの詳細な表現ではなく粗視化（coarse-grained）分子表現を用いることで、計算コストを大幅に削減しながら高精度を維持するフレームワーク TerraBind を提案した論文である。粗視化表現によって入力特徴の次元を削減し、モデルの学習・推論を高速化しつつ、Boltz-2 等の最先端モデルを約20%上回る精度を達成した点が核心的な貢献である。推論速度は既存のアトミックモデルと比較して約26倍の高速化を実現しており、仮想スクリーニングへの実用的な適用が視野に入る。

📣 粗視化分子表現で結合親和性予測をBoltz-2比+20%精度・26倍高速化を実現したTerraBindが登場。仮想スクリーニングへの実用化に期待。#DrugDiscovery #AI

74. DrugR: Optimizing Molecular Drugs through LLM-Based Explicit Reasoning

DOI: null（arXiv:2602.08213） · 📅 2026年2月（プレプリント） · 機械学習・AI

判断:

明示的なステップバイステップの薬理学的推論を分子最適化プロセスに統合したLLMフレームワーク「DrugR」を提案した研究。ドメイン特化継続事前訓練・逆データエンジニアリングによるSFT・自己均衡型マルチグラニュラーRLという3段階の訓練パイプラインを採用し、ADMET複数特性を同時改善しながら元分子の構造類似性と標的結合親和性を保持する。各最適化ステップに人間可読の薬理的根拠テキストを生成することで、ブラックボックス最適化の「なぜ?」問題を解決する。

📣 薬理的根拠をステップバイステップで明示する分子最適化LLM DrugR。逆データエンジニアリング+マルチグラニュラーRLでADMET複数特性を同時改善。「なぜその修飾か」を説明できる初のLLM最適化手法。

75. Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

DOI: null（arXiv:2604.07669） · 📅 2026年4月（プレプリント） · 機械学習・AI

判断:

リード最適化を「バリデーション済み反応テンプレートで定義された合成制約アクション空間上のMDP（マルコフ決定過程）」として定式化し、tool-augmented LLMエージェントが状態依存の適用可能な変換を動的に絞り込み、GRPOポリシーが長期オラクル報酬を最大化するフレームワーク「MolReAct」を提案した研究。Emory大学のLiとYangらによる。全ての最適化ステップが反応テンプレートに基づくため合成経路付きで出力される点が最大の実用価値。

📣 反応テンプレートをアクション空間とするRL+LLMでリード最適化。TDC 14タスク中10タスクでサンプル効率1位、最強ベースラインを10.4%改善。全提案分子に合成経路付き。lib/molgen最優先統合候補。

76. Reference-Guided Policy Optimization for Molecular Optimization via LLM Reasoning

DOI: null（arXiv:2603.05900） · 📅 2026年（ICLR 2026 採択） · 機械学習・AI

判断:

LLMを用いたinstruction-based分子最適化においてSFT（Supervised Fine-Tuning）とRLVR（強化学習with検証可能報酬）が抱える根本的問題を同定し、両者を統合する訓練アルゴリズム「RePO（Reference-guided Policy Optimization）」を提案した研究。香港バプティスト大学のLiらによるICLR 2026採択論文。SFT-onlyのanswer-only設定では推論過程が崩壊し、RLVR-onlyでは類似度制約下で有効探索が希薄化して収束が遅い。RePOはRL探索項と参照分子への教師あり誘導項を同時適用することでこれら問題を解消する。

📣 SFTの推論崩壊・RLVRの希薄報酬という分子最適化LLMの双子の問題をRePOで解決。参照分子誘導+RL探索の組み合わせでICLR 2026採択。公開実装ありでlib/molgen統合の最有力候補。

ページ: 1 2 3 4 5 6 7 8