分子・材料の物性予測は従来、記述子計算(RDKit フィンガープリント等)やグラフニューラルネットワーク(GNN)が主流であり、いずれも入力表現の設計や専用アーキテクチャが必要だった。本研究は LLaMA 3(8B)を4-bit 量子化 + LoRA(ランク 16)でファインチューニングし、SMILES 文字列を入力として数値プロパティを直接テキスト生成させる回帰手法を提案する。
→ コンフォーマー生成・記述子計算・グラフ構築いずれも不要。新規スキャフォールドへの汎化が期待される。
| データセット | 指標 | LLaMA 3 | RF | SOTA GNN |
|---|---|---|---|---|
| QM9 U0(形成E) | MAE (eV) | 0.100 | 0.153 | 0.006 |
| QM9 HOMO | MAE (eV) | 0.171 | 0.261 | 0.030 |
| QM9 Gap | MAE (eV) | 0.207 | 0.306 | 0.049 |
| OQMD(64 万件) | MAE (eV) | 0.054 | — | 0.054(ElemNet) |
| 24材料プロパティ(平均) | RMSE/σy | 0.555 | 0.463 | — |
GPT-3.5・GPT-4o ファインチューニング版を全プロパティで上回る(HP 調整自由度の差が主因)
LLaMA 3 LoRA は RF・FCNN を上回るが SOTA GNN には 17× 劣る。GPT-4o/3.5 ファインチューニングを大きく上回る。
データ量を増やすと安定して精度向上。LLaMA と RF のスケーリング指数はほぼ同等(-0.74 vs -0.71)。
計算化学パイプラインへの応用
実装: Figshare にデータ・コード公開 (10.6084/m9.figshare.26928439.v1)
「記述子設計なしでも LLM は分子回帰に使える」— フィーチャーレス QSAR の新パラダイム