📚 月次論文レビュー — 🤖 機械学習・AI
対象期間: 2026-04-01 〜 2026-04-30このページ: 81〜90 件目各ボタンは独立したトグル(複数同時ON可)
81. ChemTSv3: Generalizing Molecular Design via Flexible Search Space Control▶ スライドあり
DOI: 10.26434/chemrxiv-2025-kdvrt · 📅 2025(ChemRxiv preprint) · 機械学習・AI
判断:
RIKEN・横浜市立大学・東京科学大学らが提案した汎用分子生成フレームワーク。モンテカルロ木探索(MCTS)と強化学習を基盤に、分子の表現(SMILES・分子グラフ・3D 配座・タンパク質配列)と生成操作(フラグメント編集・逐次変異・LLM 変換)を抽象化することで、ヒット探索からリード最適化まで単一フレームワーク内で柔軟に対応できる設計 AI 基盤 ChemTSv3 を提示した。探索フェーズに応じて探索空間定義を動的に切り替えられる点が前作 ChemTSv2 からの主要な進化。
📣 ChemTSv3:SMILES・グラフ・3D・LLMを統一MCTSフレームワークで扱う汎用分子生成AI。探索空間を動的切替でヒット探索→リード最適化を一気通貫。RIKEN・横浜市大から。
82. Hybrid ChemBERTa and DFT Machine Learning Framework for Predicting Enantioselectivity in Organosilanes Mediated Carbonyl Reduction Reactions▶ スライドあり
DOI: 10.26434/chemrxiv-2025-zhr57 · 📅 2025(ChemRxiv preprint) · 機械学習・AI
判断:
有機シラン媒介カルボニル還元反応(ヒドロシリル化)における不斉選択性(エナンチオマー過剰率 %ee)を予測するために、ChemBERTa の SMILES ベース分子埋め込みと DFT 量子化学記述子を組み合わせたハイブリッド ML フレームワークを開発した論文。289 種のカルボニル基質と 13 種のシランから構成されるデータセットで LightGBM が最高予測精度(RMSE=8.381 %ee)を達成し、SHAP 解析によって立体的・電子的・コンフォメーション的因子の選択性への寄与を定量的に解釈した。
📣 ChemBERTa+DFT ハイブリッドでヒドロシリル化の%ee予測。LightGBM RMSE=8.381。SHAP解析でSterimol幅・C=O結合長が主要因と判明。立体選択的合成の計算設計ツールとして有望。
83. Decoding of Inconsistent Biological Data: A Critical Step toward Enhanced AI Predictivity in Drug Discovery▶ スライドあり
DOI: 10.1021/acsptsci.5c00677 · 📅 2025 (online ahead of print) · 機械学習・AI
判断:
SARS-CoV-2 主プロテアーゼ(Mpro)とデング熱ウイルス(DENV2)プロテアーゼの実測データを用いて、アッセイ条件(pH・バッファー・温度・塩濃度・基質濃度)の違いが IC50/Ki 値に与える影響を定量的に示し、その結果として ML 訓練データに混入するノイズの問題を論じた Viewpoint 論文。アッセイ条件不一致に対処するデータキュレーション・モデリング戦略として、条件別モデルクラスタリングと DL・LLM の活用を提案する。
📣 アッセイ条件の違いでIC50が最大117倍変動。ChEMBLデータを単一MLモデルに混入するな。コンフォメーション可塑性ターゲットは条件別モデルクラスタリングが必要と警告。
84. MSFold: Multi-State Protein Structure Prediction via Parallel Tempering in Discrete Token Space▶ スライドあり
DOI: 10.64898/2026.03.03.708411 · 📅 March 2026 · 機械学習・AI
判断:
ESM3 の離散構造トークン空間においてパラレルテンパリング(レプリカ交換モンテカルロ)を実行することで、単一タンパク質の複数コンフォメーションを同時予測するフレームワーク MSFold を提案した論文である。新規に構築した 313 ペアの多重コンフォメーションベンチマーク(結合/未結合状態・アクティブ/インアクティブ状態などのペア)において、AlphaFold3(AF3)の確率的サンプリング・MSA クラスタリング手法を上回る成功率を達成した。特に代替コンフォメーション(alternative conformations)の予測で優位性を示し、新規 SLL(Sequence Log-Likelihood)信頼度メトリクスで高品質なコンフォメーションを効率的に選別できることを実証している。
📣 MSFold:ESM3の離散トークン空間でパラレルテンパリングを実行し多重コンフォメーションを予測。313ペアベンチマークでAF3を+12%上回る成功率。アンサンブルドッキングへの応用に期待。
85. Protenix-v1: A Fully Open-Source Structure Prediction Model Surpassing AlphaFold3▶ スライドあり
DOI: 10.64898/2026.02.05.703733 · 📅 February 2026 · 機械学習・AI
判断:
ByteDance Seed が開発した Protenix-v1 は、AlphaFold3(AF3)と同等の学習データカットオフ・モデルサイズ・推論コストを維持しながら AF3 を上回る構造予測精度を達成した、完全オープンソースの構造予測モデルである。タンパク質・核酸・低分子リガンドを含む複合体構造予測に対応し、タンパク質テンプレート統合・RNA MSA サポート・推論時スケーリング(信頼度スコアガイドのアンサンブルサンプリング)などの機能を備える。AF3 はモデルとコードの一部のみを公開するに留まるが、Protenix は学習コード・モデル重み・推論パイプライン全体を MIT ライセンスで公開しており、研究・産業利用の両面で重要な意義を持つ。
📣 ByteDance製Protenix-v1がAF3をオープンソースで超えた。RNA MSA・テンプレート統合・推論時スケーリングでAF3比+5〜10%精度。MITライセンスで商業利用可。
86. Beyond SMILES: Evaluating Agentic AI Systems for Chemistry▶ スライドあり
DOI: null (arXiv:2602.10163) · 📅 February 2026 · 機械学習・AI
判断:
化学タスクを遂行するエージェント型AI(Agentic AI)システムを体系的に評価するベンチマークフレームワークを提案した論文である。「SMILES生成・予測」という単純なタスクを超えて、ツール利用(RDKit・DFT・実験データベース検索)・複数ステップの計画立案・仮説生成・実験設計という複合的な化学タスクをLLMエージェントが実行できるかどうかを評価する。化学AIシステムの能力マトリクス(Capability Matrix)を提示し、各システムの強み・弱みを可視化した点が貢献。
📣 Beyond SMILES: 化学エージェントAIをツール利用・多段階計画・実験設計で体系評価。GPT-4o最強だが複雑な化学推論は全モデルが未到達。能力マトリクスが示す課題。
87. DESRO: Scientific Reasoning from Outcomes via Large Language Models▶ スライドあり
📅 2026 · 機械学習・AI
判断:
実験結果(outcomes)から科学的推論を行う LLM フレームワーク DESRO(Design-Experiment-Science-Reasoning-from-Outcomes)を提案した論文である。2.3M件の実験記録と18タスク・15SOTAを超える性能を達成した大規模評価が特徴。化学・生物学・材料科学の実験データから「なぜこの結果が得られたか」「次にどの実験をすべきか」という推論をLLMに学習させることで、実験サイクルを加速する狙いがある。
📣 DESRO:2.3M実験記録でLLMを訓練し18タスク・15SOTAを超える科学推論を実現。「次の実験をどうすべきか」をActive Learningより高精度に推薦。
88. SpaceGFN: Programmable Chemical Space Exploration via GFlowNet▶ スライドあり
📅 2026 · 機械学習・AI
判断:
GFlowNet(Generative Flow Network)を用いてプログラム可能な化学空間探索を実現する分子生成フレームワーク SpaceGFN を提案した論文である。単一の目的関数を最大化するRL的な生成とは異なり、GFlowNetは目的関数スコアに比例した確率でサンプリングすることで多様な高品質分子集合を生成できる。SpaceGFNでは化学空間の探索範囲(スペース)をプログラム的に定義・制限できる機能を付加し、特定の骨格・反応スキーム・合成経路制約に沿った分子生成を可能にした点が核心的な貢献である。
📣 SpaceGFN:化学空間の制約をプログラム定義してGFlowNetで多様な高品質分子を生成。合成経路制約下でREINVENTより合成アクセス性が大幅に向上。
89. SciDesignBench: A Benchmark for Scientific Design Reasoning with Reinforcement Learning from Scientific Feedback▶ スライドあり
DOI: null (arXiv:2603.12724) · 📅 March 2026 · 機械学習・AI
判断:
科学的設計推論(Scientific Design Reasoning)をLLMで評価するベンチマーク SciDesignBench と、科学フィードバックからの強化学習フレームワーク RLSF(Reinforcement Learning from Scientific Feedback)を提案した論文である。物理・化学・生物学・材料科学など14ドメインにわたる520のタスクで構成されており、LLMが科学的設計問題を解く能力を体系的に評価する。特に分子設計・材料設計タスクにおけるLLMの推論能力向上に直結する重要な研究である。
📣 14ドメイン・520タスクの科学設計ベンチマークSciDesignBench登場。RLSF(科学シミュレーターからの強化学習)で分子設計成功率+40%。LLM×化学設計の新指標。
90. Beyond Affinity: A Comprehensive Benchmark for Structure-Based Drug Design Methods▶ スライドあり
DOI: null (arXiv:2601.14283) · 📅 January 2026 · 機械学習・AI
判断:
構造ベース創薬(SBDD)の深層学習手法を包括的に評価するベンチマーク研究である。既存の親和性予測・ポーズ予測・ポケット検出手法15種を、単純な結合親和性以外の多様な評価軸(選択性・ADMETプロファイル・合成アクセス可能性・生物活性)で体系的に比較した。TMLR 2026(Transactions on Machine Learning Research)に採択された査読付き論文であり、SBDDコミュニティへの信頼できるリファレンスとなる。
📣 SBDDの深層学習15手法を親和性以外の軸(選択性・ADMET・合成アクセス性)で包括比較。単一手法が全軸で勝てず、多軸評価の重要性を実証。TMLR 2026採択。