Advancing Reproducibility and Open Data in Computational Chemistry

Advancing Reproducibility and Open Data in Theoretical and Computational Chemistry

JCTC + JCIM 連名エディトリアル 2026 — Amaro, Gagliardi et al. | DOI: 10.1021/acs.jctc.6c00733

📋 2026年5月1日より「データ・コード投稿時公開」をJCTC/JCIM論文に義務化

① 背景と動機

AI/MLの計算化学への急速な普及と計算データ規模の指数的拡大により、再現性確保の重要性が増している。多段階ワークフロー・特殊ソフトウェア・大規模異種データセットへの依存が深まる中、結果の文書化・保存・共有がより一層困難になっている。

2021年のJCIMエディトリアル（DOI: 10.1021/acs.jcim.0c01389）では原則論のみ → 今回は義務化に格上げ

AI/ML論文でのデータリーケージ・不完全な分割情報が深刻な問題として顕在化

→ FAIR原則（Findable, Accessible, Interoperable, Reusable）に基づく実践的ポリシーを策定

② 公開対象 8 カテゴリ

③ AI/ML論文への特別要件

データリーケージ対策

同一分割強制によりML創薬の比較公正性を担保

④ 主要結果 (a) ポリシー適用タイムライン

④ 主要結果 (b) 推奨リポジトリ

一時的アクセス手段（ZIP添付等）は原則非推奨

④ 主要結果 (c) 例外・免除規定

「主要結論の再現に必須でない制限コンポーネント」の判断は投稿者・査読者裁量に委ねられる

④ 主要結果 (d) パイプラインへの示唆

⑤ ケムインフォマティクスパイプラインへの行動指針

📝 run_metadata.json の自動記録
各モジュール（lib/fep, lib/docking, lib/md, lib/molgen）の実行時に、ソフトウェアバージョン・パラメータ・乱数シードを自動的にJSONに記録するReproducibilityLoggerを実装。

🔢 random_seed の標準化
全モジュールで random_seed=42 をデフォルトとし、再現性テストを必須化。MLモデルのtrain/val/test分割をシード固定で固定化してCSVに保存。

📦 成果物のZenodoアーカイブ
重要な計算結果（スコアCSV・代表構造・モデル重み）をZenodoに自動アップロードするCI/CDスクリプトを整備。GitHub Actionsと連携してDOIを自動取得。

📊 MLモデル評価の公正化
JCIM/JCTC投稿を見据えて、ベンチマークデータセットのtrain/val/test分割をバージョン管理下に置き、比較モデル間で同一分割を強制する仕組みを整備。

パイプラインへの応用提案

対象	具体的アクション
全モジュール	ReproducibilityLogger 横断実装
lib/molgen	訓練データ分割・シード情報を MolgenYaml に追記
lib/fep	FEP 計算パラメータと結果を自動アーカイブ
lib/md	トラジェクトリ・代表構造をZenodoに保存

エディトリアルのインパクト