评论|使用微调大语言模型解析肌肉骨骼疼痛疾病的临床健康记录

柳叶记事本 2024-02-10 02:40:12

《柳叶刀-数字医疗》(The Lancet Digital Health)近期发表评论文章,详细介绍了微调大语言模型在解析肌肉骨骼疼痛的非结构化临床健康记录中的应用。

评论文章

肌肉骨骼疾病,如下背部、膝盖和肩膀疼痛,在发达国家造成了巨大的健康负担,影响着人们的功能、活动能力和生活质量。[1]这些疾病通常是多种因素造成的,需要临床医生全面评估病因,才能选择适当的检查和治疗方法。然而,电子健康记录(electronic health-care record,EHR)并未通过ICD-10编码捕捉明确的疼痛特征,因此有必要进行耗时且易出错的病历回顾。由于缺乏可靠的工具来自动解析非结构化的临床健康记录,以辨别疼痛差异,使得即时干预(point-of-care interventions,POCIs)和质量改进具有挑战性。

面对这些挑战,我们需要一种从非结构化文本中提取有意义数据的方法,这可以通过自然语言处理(natural language processing,NLP)来实现。然而,统计或基于规则的方法[2]受限于词汇、语法和否定陈述(例如,“病人没有......”)的差异。因此,这些方法可能并不适用于其他疾病过程、机构或健康记录方式。相比之下,深度学习(deep learning)使用神经网络识别异构数据的模式,对要考虑的模式无需明确的指示。大型语言模型(Large language models,LLMs)是一种神经网络,因其结构由数十亿个可调参数构成而得名。这类模型通常是在无监督的情况下,使用数万亿字的非结构化文本进行训练,使其能够理解词与词之间的关系。生成式预训练转换器(generative pre-trained transformer,GPT)类的模型[3]就是一个例子,其工作原理是根据给定的上下文预测下一个最可能出现的单词。这类模型已被应用于问题解答、语境化和以ChatGPT[4]形式出现的对话聊天机器人。基于GPT的聊天机器人在医疗卫生领域引发了人们的兴趣[5][6],因为其有潜力在多项工作中协助临床医生。

然而,这类模型的使用可能存在潜在的影响。生成式模型可能会产生幻觉(hallucination),或者编造没有事实依据或无意义的内容,如果临床医生完全依赖其建议,可能会造成伤害。这在通用模型中尤为明显,因为它们可能不具备在临床环境中工作所需的专业知识或细微差别。此外,更大型的生成式模型需要在硬件和训练数据方面投入大量资金——这使得资源有限的医疗机构难以使用。此外,考虑到患者隐私问题,向科技公司发送受保护的健康信息是不可接受的。在这项工作中,我们开发了本地运行、保护隐私的LLMs,能够按照简单的语言指令,从不同的非结构化临床健康记录集中提取肌肉骨骼疼痛的特征(如部位和病程)。

在2016年11月16日至2019年5月30日期间,收集了西奈山医疗系统中的五家医院——西奈山医院(Mount Sinai Hospital)、西奈山晨兴医院(Mount Sinai Morningside)、西奈山贝斯以色列医院(Mount Sinai Beth Israel)、西奈山皇后医院(Mount Sinai Queens)和西奈山布鲁克林医院(Mount Sinai Brooklyn)——共26,551份患者病历,使用“疼痛”一词的简单文本匹配进行初步筛选。专业的临床人员,包括一名执业护士和一名内科住院医生,对来自1,155名患者的1,714份健康记录进行人工标注,以确定疼痛部位和病程。其中,有1,675份健康记录同时提到了疼痛部位和病程,21份仅提到了疼痛部位,18份完全没有提到疼痛。随后,本研究的主要作者Ismail Nabeel对标签(labels)进行逐个审核和评估,以确保准确性。在最终数据集中,19%来自初级医疗机构,51%来自内科,30%来自骨科(附录第10页),健康记录长度的中位数为1,005个(IQR 1574-75)标记(tokens)(附录第1页;第10页)。标记是模型读取、生成或处理文本的最小文本单元,通常对应一个单词、子单词或字符。标签包括疼痛部位(即肩膀、下背部、膝盖或其他)和疼痛病程(即急性、慢性和慢性急发作[acute-on-chronic,已被诊断为慢性疼痛,但疼痛加剧或有其他损伤导致疼痛])。手动创建的标签会被转换成代表疼痛部位和病程的短句(如慢性下背痛)。对于不包含疼痛部位或病程的健康记录,转换的短句也包含对应的内容。所有生成的句子都与原始健康记录文本以及“根据此健康记录描述疼痛”的样本指令配对(附录第2-3页;第11-12页)。

使用这些数据对一个名为LLaMA-7B的公开可用的基础语言模型进行微调(fine-tune)。[7]还用健康记录数据集,以及公开可用的Alpaca[8]数据集(包含与医疗卫生无关的一般指令和预期响应)训练了另一个LLaMA-7B。这种方法被称为指令微调(instruction fine-tuning)[9],是InstructGPT和ChatGPT等模型的基础(附录第2-3页;第11-12页)。将衍生模型的性能与已建立的基线模型架构(如开源架构BERT和Longformers)进行了比较。

通过分组随机拆分,将数据分为75%的训练组、5%的验证组和20%的测试组。将测试组中的每份健康记录重新表述为包含指令的提示,并对模型生成的文本进行解析,以量化模型捕捉疼痛部位和病程的能力。在西奈山的Minerva HPC集群上训练模型,该集群的节点包含4xA100 80G GPU。

仅使用患者健康记录训练的LLaMA-7B模型对肩膀疼痛的分类准确率为0.89(95%CI 0.88-0.90),下背部疼痛为0.94(0.93-0.94),膝盖疼痛为0.90(0.89-0.91),其他部位疼痛为0.98(0.97-0.99)。使用扩展的Alpaca数据集训练的LLaMA-7B模型对肩部疼痛的分类准确度略高,为0.93(0.92-0-93),但在其他类别中的表现相当或略逊色。两种LLaMA-7B模型在灵敏度方面都优于基线模型,但膝关节疼痛除外,Longformer的灵敏度为0.94(0.93-0.95)(表;附录第4-6页;第13-14页)。其他性能指标见原文附录。

模型还将疼痛病程分为急性、慢性或慢性急发作。仅根据患者健康记录训练的LLaMA-7B模型对急性疼痛的分类准确率为0.83(0.82-0.85),慢性疼痛为0.83(0.82-0.85),慢性急发作为0.82(0.80-0.83)。使用扩展的Alpaca数据集训练的LLaMA-7B模型的总体表现略逊色,对急性疼痛的分类准确率为0.80(0.78-0.81),慢性疼痛为0.81(0.79-0.82),慢性疼痛急发作为0.79(0.77-0.80)。除BERT模型对急性疼痛的灵敏度为0.63(0.60-0.66)外,LLaMA-7B在所有其他指标上都优于基线模型(表;附录第7-9页;第13-14页)。此外,这项工作还为未来的研究开辟了道路,包括考虑微调的LLM如何影响需要快速决策的临床环境(如急诊室)中的照护;使用LLM指导患者照护的法律和道德影响;以及在充分、广泛使用此类模型之前必须克服的成本、计算和整体性能障碍。

因此,在解析临床健康记录时,除少数情况外,LLaMA-7B模型在所有情况下的表现都优于基线模型。在疼痛病程检测方面表现较差,原因可能是没有向这些模型提供能划分急性和慢性时间的精准描绘,也可能是急性和慢性急发作的健康记录之间存在共享词汇。

然而,在没有提到疼痛的健康记录中,经过微调的LLaMA模型的表现未达预期。观察到了幻觉,即模型对不存在的疼痛病程或部位进行了推断或假设。在测试数据集中,有21份健康记录仅提到疼痛部位、没有提到病程,另有18份健康记录没有提到疼痛。仅使用健康记录进行微调的模型,只能将39例中的2例正确归类为疼痛病程未知,而使用健康记录和Alpaca数据集进行微调的模型,则在所有未提到疼痛的健康记录中错误地假设了疼痛病程。对于21份只提到疼痛部位的健康记录,模型在确定疼痛部位时的表现好得多。组合数据集模型对下背部疼痛的分类准确率为0.81,肩膀疼痛为0.76,膝盖疼痛为0.62,其他疼痛为0.48,而除了单独使用健康记录进行微调的模型对膝盖疼痛的分类准确率为0.71以外,在其他指标上与此相似。

LLM的明显优势是降低了复杂性。基线模型必须针对每种结局分别进行训练。相比之下,单个LLM可以同时处理两种结局。因此,LLM不受任务影响,而基线模型则针对特定任务。如果未来需要从临床健康记录中提取更多信息(如患者的处置情况),基线模型就需要首先将结局分类,并相应地训练新模型。而LLM只需通过不同的提示,就能从病历中提取这些信息,并以文本形式输出。这种能力还可以扩展到预测的可解释性——模型可能在经提示后输出最有力的预测词语,而不是生成复杂的显著图。

由于从头开始训练一个基础语言模型需要投入巨大的资金和技术,因此使用与下游任务更相关的数据对现有模型进行微调,更具成本效益。微调还有助于补充基础模型中包含的信息,因为根据预训练的情况,基础模型可能无法推广到特定任务或专业领域。因此,LLaMA类模型因其开源的性质而成为一个非常好的平台,我们的工作就是分析微调后的7B参数模型在临床环境中的应用能力。我们相信探索这种方法在不同数据集、基础模型和规模中的通用性很有价值,并认为这是未来研究的一个方向。

与此同时,必须认识到我们所做工作的局限性。使用LLM的资源强度直接影响用于微调的基础模型的大小,以及通过提示向模型提供上下文的长度。因此,我们的模型需要四个GPU(每个GPU有80G的显存)的配置来进行微调。但是,也可以使用单GPU进行推理。现在的技术可以将此类模型缩小到在消费级硬件上运行,但可能会牺牲一些准确性[10]。此外,在没有提及疼痛的病历中,两个LLMs容易产生关于疼痛程度和病程的幻觉。可以通过提供额外的背景或更具体的指示来减少已知的幻觉问题。

总的来说,研究结果表明,预训练的LLM可以作为创建微调模型的坚实基础,这些模型能够定向地有效解析非结构化临床健康记录。这些模型可以作为专业的对话代理或聊天机器人(详见附录第2-3页),帮助临床医生快速访问相关的患者病史,保护数据隐私,并且有可能简化临床工作流程。此外,这项工作还为未来的研究开辟了道路,包括考虑经过微调的LLM如何影响需要快速决策的临床环境(如急诊科)中的照护;使用LLM指导患者照护的法律和伦理影响;最后,在充分、广泛地应用此类模型之前,必须克服成本、计算和整体性能障碍。END

参考文献

[1] Bhattacharya A. Costs of occupational musculoskeletal disorders (MSDs) in the United States. Int J Ind Ergon 2014; 44: 448–54.

[2] Miotto R, Percha BL, Glicksberg BS, et al. Identifying acute low back pain episodes in primary care practice from clinical notes: observational study. JMIR Med Inform 2020; 8: e16878.

[3] Zhang M, Li J. A commentary of GPT-3 in MIT technology review 2021. Fundamental Research 2021; 1: 831–33.

[4] Leiter C, Zhang R, Chen Y, et al. ChatGPT: a meta-analysis after 2.5 months. arXiv 2023; published online Feb 20. https://doi.org/10.48550/arXiv.2302.13795 (preprint).

[5] Nature Medicine. Will ChatGPT transform healthcare? Nat Med 2023; 29: 505–06.

[6] The Lancet Digital Health. ChatGPT: friend or foe? Lancet Digit Health 2023; 5: e102.

[7] Touvron H, Lavril T, Izacard G, et al. Llama: open and efficient foundation language models. arXiv 2023; published online Feb 27. https://doi.org/10.48550/arXiv.2302.13971 (preprint).

[8] Taori R, Gulrajani I, Zhang T, et al. Stanford Alpaca: an instruction-following LLaMA model. May 30, 2023. https://github.com/tatsu-lab/stanford_alpaca (accessed March 20, 2023).

[9] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback. Adv Neural Inf Process Syst 2022; 35: 27730–44.

[10] Hu EJ, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models. arXiv 2021; published online Oct 16. https://doi.org/10.48550/arXiv.2106.09685 (preprint).

中文翻译仅供参考,所有内容以英文原文为准。

0 阅读:0

柳叶记事本

简介:感谢大家的关注