📚 月次論文レビュー — 🤖 機械学習・AI 対象期間: 2026-04-01 〜 2026-04-30 このページ: 61〜70 件目 各ボタンは独立したトグル(複数同時ON可)
61. Extrapolating Foundation Generative Models with Physics: A Case Study of Exploring Peptide Conformations under Protein-Environment Interactions▶ スライドあり
DOI: 10.1021/acs.jpclett.5c02567 · 📅 2025年12月(J. Phys. Chem. Lett. 受理) · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
近年、AlphaFold や RFdiffusion を代表とする基盤的な深層生成モデルは、タンパク質構造予測において目覚ましい成果を上げている。しかし、これらのモデルはタンパク質単体の構造を学習しており、有機リンカーを持つ環状ペプチドや材料表面に吸着したペプチドのように、タンパク質-環境相互作用(Protein-Environment Interactions; PEI)を含む系のコンフォメーション予測には対応していない。本論文は、こうした学習分布外ドメインへのモデル外挿を、再訓練やファインチューニングなしに実現する DiffPIE(Diffusion model for Proteins Interacting with the Environment)を提案する。
📣 DiffPIEが基盤拡散モデルを再訓練なしに拡張。物理ポテンシャルを逆拡散に注入し、リンカー付き環状ペプチドや金表面吸着ペプチドのコンフォメーションをMDより数桁高速に生成🧬 DOI:10.1021/acs.jpclett.5c02567
62. Automated Machine Learning Pipeline: Large Language Models-Assisted Automated Data set Generation for Training Machine-Learned Interatomic Potentials▶ スライドあり
DOI: 10.1021/acs.jctc.5c01610 · 📅 2025年12月(J. Chem. Theory Comput. オンライン先行公開) · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
機械学習ポテンシャル(MLIP)の開発は、高品質訓練データセット生成・量子化学計算パラメータの選択・モデルトレーニングと検証という複数の専門的作業を要する。本論文が提案する **AMLP(Automated Machine Learning Pipeline)** は、これら全工程を一元自動化するパイプラインである。.cifや.xyzの構造ファイルを入力として、LLMマルチエージェントが適切な量子化学手法(汎関数・基底関数・分散補正)を提案し、VASP/CP2K/Gaussian等のDFTコードへの入力を自動生成する。AIMD(ab initio MD)シミュレーション後に出力を.json形式で整理し、HDF5変換を経てMACEアーキテクチャでMLIPをトレーニングする。
📣 LLMエージェントがDFTパラメータを提案し、AIMDデータ生成からMACEトレーニングまでを全自動化するAMLPを提案。アクリジン多形体でエネルギーMAE 2 meV/atom、ケミカルアキュラシーを大幅に下回る精度を達成。
63. DiffDec: Structure-Aware Scaffold Decoration with an End-to-End Diffusion Model▶ スライドあり
DOI: 10.1101/2023.10.08.561377 · 📅 2023年10月(bioRxiv preprint); J. Chem. Inf. Model. 2024掲載 · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
DiffDecは、タンパク質ポケットの3D構造を条件として分子スキャフォールドにR基(置換基)を付加するスキャフォールドデコレーション手法である。E(3)-equivariant GNN(EGNN)と確率的拡散モデル(DDPM)を組み合わせ、スキャフォールドとポケット原子をコンテキストとして固定しながらR基の3D座標と原子種を同時に生成する。R基サイズ予測を別モジュールとして持つ代わりに「フェイクアトム機構」を導入し、サイズの異なるR基を端から端まで(end-to-end)生成する点が特徴的である。アンカー(結合位置)は自動決定も可能で、実際の創薬シナリオにも対応する。
📣 EGNNと拡散モデルでポケット3D構造に条件付きR基生成。Recovery 69.67%でLibINVENT比2倍を達成。フェイクアトム機構でサイズ予測もend-to-end化。スキャフォールドデコレーション型リード最適化の新標準候補。
64. AlphaFold-RandomWalk and AlphaFold-Ensemble: Sampling Alternative Protein Conformations with Perturbed Versions of AlphaFold▶ スライドあり
DOI: 10.1021/acs.jcim.5c02004 · 📅 2025年12月(オンライン先行公開) · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
タンパク質は生物学的機能を発揮するために複数のコンフォメーションを採ることができるが、AlphaFold2(AF2)は単一の静的構造を予測することに最適化されており、代替配座の網羅的サンプリングには不向きである。本論文はこの問題に対し、AF2のモデル重みに系統的ガウスノイズを付加する **AlphaFold-RandomWalk(AF-RW)** と、2状態系タンパク質データセットでAF2をファインチューニングしたモデルアンサンブルを利用する **AlphaFold-Ensemble(AF-Ensemble)** を提案する。
📣 AlphaFold重みにノイズを注入してタンパク質の多様なコンフォメーションを生成するAF-RandomWalkとAF-EnsembleをMDパイプラインに統合。10タンパク質中5例でopen/closed両状態のサンプリングに成功し、構造ベース創薬への応用を示した。
65. Improving the Reliability of Molecular String Representations for Generative Chemistry▶ スライドあり
DOI: 10.1021/acs.jcim.4c02261 · 📅 2025年 · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
生成化学において最も広く使用されているSMILESと、それへの代替として提案されたSELFIESという2つの分子文字列表現の信頼性を包括的に評価し、両者の課題を解決するClearSMILESを提案した研究である。canonical SMILESは文法的に正しい文字列でも有効な分子を表さないケースが約20%存在するのに対し、SELFIESは全文字列が有効分子に対応するが学習データの物性分布から大きく逸脱する(fidelity低下)問題がある。これらを定量化するためにviabilityとfidelityという2つの評価基準を定義し、確率的SMILES拡張手法ClearSMILESによって無効サンプル率を2.2%まで削減しつつ忠実度も維持することを実証した。
📣 SMILES(無効率20%)とSELFIES(fidelity低)の課題を定量化。Kekulé形式+確率的拡張のClearSMILESで無効率を2.2%まで削減しfidelityも維持。生成モデルの表現選択に重要な知見。
66. TorchANI 2.0: An Extensible, High-Performance Library for the Design, Training, and Use of NN-IPs▶ スライドあり
DOI: 10.1021/acs.jcim.5c01853 · 📅 2025年10月 · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
ニューラルネットワーク原子間ポテンシャル(NN-IP)のオープンソースPyTorchライブラリTorchANIの大幅改良版(2.0)である。Behler-Parrinello型ネットワーク(BPNNスタイル)をベースとしたANIアーキテクチャを維持しながら、CUDA最適化原子環境ベクトル(CUAEV)・バッチアンサンブル推論・モジュラー近傍リストによる大幅な性能向上を実現した。さらに正確な物理的制約(正しい解離限界・短距離GFN2-xTB反発・長距離D3分散・スムーズGELU活性化)を組み込んだ三種の新ANIモデル(ANI-2xr, ANI-2xr-snn, ANI-2dr)を提供する。MITライセンスで公開(https://github.com/aiqm/torchani)。
📣 TorchANI 2.0公開。CUDA加速AEV+物理制約(正確な解離限界・GFN2-xTB反発・D3分散)付きNN-IP。ASE統合でMD対応。3新モデル提供。MIT公開で非標準リガンドMDの精度向上に期待。
67. ADvisor: An Open-Source Tool for Applicability Domain Definition and Optimization in Molecular Predictive Modeling▶ スライドあり
DOI: 10.1021/acs.jcim.5c01672 · 📅 2025年10月 · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
QSARや機械学習に基づく分子予測モデルの信頼性を担保するために不可欠な適用領域(Applicability Domain, AD)の定義・最適化を支援するオープンソースツール「ADvisor」を開発した研究である。ADは「モデルが信頼できる予測を行える化学空間の範囲」を定義するものであり、OECDガイドラインでも規制上の要件として明記されているが、単一の標準手法は存在しない。本研究ではOECD準拠データセットで学習した回帰モデルを対象に複数のAD手法を系統的にベンチマークし、規制機関で採用されているDaniali et al.の手法をオープンソースで再実装・最適化したうえで、モデル・データセット適応的なAD選択を可能にするモジュラーフレームワークを提供する。
📣 QSARモデルの適用領域(AD)定義を最適化するオープンソースツールADvisorを開発。複数AD手法のベンチマークとDaniali法の再実装でOECD準拠かつ柔軟なモデル信頼性評価を実現。
68. Navigating Ultralarge Virtual Chemical Spaces with Product-of-Experts Chemical Language Models▶ スライドあり
DOI: 10.1021/acs.jcim.4c01214 · 📅 2024年10月 · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
超大規模仮想化学空間(約100億化合物)を効率的に探索するため、Product-of-Experts(PoE)化学言語モデルを提案した論文である。ターゲット化学空間をスパース列挙したデータで学習したPriorモデルと、所望・非所望の物性でfine-tuningしたExpert/Anti-expertモデルを組み合わせ、三者のlogitsを加重和することで制御された化合物生成を実現する。生成された化合物の大多数がビルディングブロックベースの合成可能な化学空間内に存在し、かつDRD2ドッキングスコアやBBB透過性といった所望の物性を示すことを実証した。ソースコードはGitHubで公開されている(https://github.com/shuyana/poeclm)。
📣 超大規模仮想化学空間(100億化合物)をLLaMAベースのPoE言語モデルで効率ナビゲート。生成物の90%超が合成可能空間内に留まりつつDRD2ドッキングとBBB透過性を同時最適化。コード公開済み。
69. ProfhEX: Empowering Early Drug Discovery with Machine Learning-Based Target Profiling and Liability Prediction▶ スライドあり
DOI: 10.1021/acs.jcim.5c02250 · 📅 2025年(受理: 2025年10月15日) · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
ProfhEXは早期創薬を加速するために設計された多ターゲット活性予測プラットフォームの大規模アップデート版である。693のヒトタンパク質に対応する969の機械学習回帰モデルを搭載し、ChEMBL・PubChem・GOSTARから収集した500万件超の生物活性データポイントでトレーニングされている。ユーザーは最大100のSMILES文字列をバッチ入力として提出するだけで、インタラクティブなWebレポートと下流解析用のCSVファイルを受け取ることができる。プラットフォームはprofhex.exscalate.eu にて無償公開されている。
📣 ProfhEX: 693ヒトターゲット・969モデルのML活性予測プラットフォーム。5M超の生物活性データで訓練、R²=0.68・EF@5%=12.4達成。無償Web公開、バッチ100SMILES対応。早期創薬のオフターゲットリスク評価に活用できる。
70. gSelformer-MV: Multiview, Subgraph-Augmented Group SELFIES Transformer for Molecular Property Prediction▶ スライドあり
DOI: 10.1021/acs.jcim.5c02342 · 📅 2025年(受理: 2025年12月) · 機械学習・AI
判断: 🔧 実装 📖 精読 📉 後回し
gSelformer-MVは、Group SELFIES(官能基レベルのトークンを含むSELFIES拡張表現)の複数ビューを用いたサブグラフ拡張によって、分子の原子レベルと官能基レベルの両方を同時に考慮した表現学習を行うトランスフォーマーモデルである。ModernBERT-large(395Mパラメータ)をベースとし、MLM(Masked Language Modeling)事前学習とコントラスト学習(CL)の2段階事前学習を経て、QSPR予測タスクにfine-tuningする。MoleculeNet回帰ベンチマーク(ESOL・FreeSolv・Lipophilicity)で最先端性能を達成し、説明可能性・不確実性定量化においてもSELFIES単独モデルを上回ることを示した。
📣 Group SELFIES の複数ビューでトランスフォーマーを事前学習するgSelformer-MV。ESOL等の回帰SOTAを達成し、官能基レベルの説明可能性と不確実性定量化も改善。ADMET予測スコアラーとして即活用候補。