LLM Regression for Materials and Molecular Property Prediction

Regression with Large Language Models for Materials and Molecular Property Prediction

Jacobs, Polak, Schultz, Mahdavi, Honavar, Morgan（2024）— 機械学習カテゴリ

🎯 SMILES文字列 1 本でプロパティ回帰：記述子計算・グラフ構築ゼロの汎用 LLM 回帰エンジンを実証

① 背景と手法概要

分子・材料の物性予測は従来、記述子計算（RDKit フィンガープリント等）やグラフニューラルネットワーク（GNN）が主流であり、いずれも入力表現の設計や専用アーキテクチャが必要だった。本研究は LLaMA 3（8B）を4-bit 量子化 + LoRA（ランク 16）でファインチューニングし、SMILES 文字列を入力として数値プロパティを直接テキスト生成させる回帰手法を提案する。

損失関数：回帰ロス不使用 — 生成の交差エントロピーのみで最適化（カウンターインテュイティブ）

数値は桁ごとにトークン分割："1.234" → "1",".",2","3","4"（LLaMA 3 の桁分割特性を活用）

SMILES 文字列 → LoRA-FT LLaMA 3（4-bit） → テキスト生成 → 数値パース → プロパティ値

→ コンフォーマー生成・記述子計算・グラフ構築いずれも不要。新規スキャフォールドへの汎化が期待される。

② 主要結果

データセット	指標	LLaMA 3	RF	SOTA GNN
QM9 U0（形成E）	MAE (eV)	0.100	0.153	0.006
QM9 HOMO	MAE (eV)	0.171	0.261	0.030
QM9 Gap	MAE (eV)	0.207	0.306	0.049
OQMD（64 万件）	MAE (eV)	0.054	—	0.054（ElemNet）
24材料プロパティ（平均）	RMSE/σy	0.555	0.463	—

11/24

材料プロパティで RF ≥ LLaMA

25%↓

SMILES が InChI 比で低 MAE

GPT-3.5・GPT-4o ファインチューニング版を全プロパティで上回る（HP 調整自由度の差が主因）

③ LoRA 設定とスケーリング則

モデル: LLaMA 3 8B、4-bit NF4 量子化
LoRA ランク 16、alpha 32、約 4,200 万パラメータ更新
実装: Unsloth + HuggingFace TRL
エポック 5（QM9/SMILES 入力）、LR 2×10⁻⁴
入力: SMILES > InChI ≈ XYZ（精度順）

スケーリング則: MAE ∝ N^-0.74 — RF の -0.71 と同等

SELFIES・DeepSMILES との比較は未実施（今後の課題）

マルチタスク学習の効果も未検討

④ SVG: モデル別 MAE 比較（QM9 形成エネルギー U0）

LLaMA 3 LoRA は RF・FCNN を上回るが SOTA GNN には 17× 劣る。GPT-4o/3.5 ファインチューニングを大きく上回る。

⑤ SVG: スケーリング則（訓練データ数 vs MAE）

データ量を増やすと安定して精度向上。LLaMA と RF のスケーリング指数はほぼ同等（-0.74 vs -0.71）。

⑥ ケムインフォ応用と限界

計算化学パイプラインへの応用

lib/fep: SMILES のみで ΔG 粗推定 → FEP 候補の優先順位付け（前処理ゼロ）
lib/docking: Ki/ドッキングスコアでLoRA FT → 低データ QSAR（<500件）
lib/molgen: MolgenYaml のマルチプロパティスコアラーとして組み込み

SOTA GNN との差は 5〜17 倍 — 精度優先用途には不向き

推論速度・GPU メモリ要件の定量評価が未実施

マルチタスク学習・SELFIES 入力との比較が今後の課題

実装: Figshare にデータ・コード公開 (10.6084/m9.figshare.26928439.v1)

「記述子設計なしでも LLM は分子回帰に使える」— フィーチャーレス QSAR の新パラダイム