中国の三次病院では「自己紹介型アクセス」が主流で、初診から専門医への引き継ぎプロセスが時間を浪費し、希少な専門医の時間を圧迫している。問診の重複、紹介状の不足、不適切な診療科選択が日常的に発生し、専門医診察1回あたりの所要時間が医療システム全体のスループットを律速している。
医療向けLLMの先行研究は 性能ベンチマーク(USMLE 等)に偏っており、実臨床での RCT 設計による厳密な臨床アウトカム評価はほとんど存在しなかった。さらに、ドメイン特化LLMの効果的な展開方法論(fine-tune するのか、ステークホルダーと co-design するのか)が未確立。
基盤LLMに対し co-design(医師・患者・行政との反復共同設計)で問診フロー、推論ロジック、紹介状テンプレを構築。同一基盤を local fine-tune した対照と比較。
プライマリ評価項目を事前登録した RCT 設計で実施。PreA 単独群 vs 標準ケア群に加え、PreA+人的支援群を設定し自律運用妥当性を直接検証した。3群間比較により「LLMが単独で動作可能か」「co-design 版がローカル fine-tune 版より優れるか」をそれぞれ独立に同一プロトコル内で検証。
| 適用先 | 応用シナリオ | 期待効果 |
|---|---|---|
| lib/molgen MolgenYaml | 計算化学者と co-design したスコアラー / 制約条件設計(vs 大量in-houseデータfine-tune) | 少データで意思決定精度↑ |
| lib/docking lib/fep | RCT類似の 前向きベンチマーク設計(事前登録・対照群・プライマリ指標固定) | ベンチマーク信頼性↑ |
本論文の方法論的示唆は 計算創薬LLMエージェントの構築・評価フレーム双方に転用可能。