清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型

本文约4800字，建议阅读9分钟输出的医疗诊疗意见质量达到或强于基层医生水平。

清华大学团队联手上海交通大学团队、新加坡国立大学及新加坡国家眼科中心团队，成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM。

糖尿病是全球上升最快的主要慢性病，可造成失明、肾功能衰竭、截肢、脑卒中、心肌梗死等，亦与肿瘤感染等密切相关。其中，糖尿病视网膜病变 (diabetic retinopathy, DR) 是糖尿病患者最常见的进行性眼部微血管并发症，能够影响 30-40% 的糖尿病患者。

更重要的是，DR 的存在也预示着其他并发症 (如肾脏、心脏和大脑) 风险的增加，因此，定期的 DR 筛查已被推荐作为初级糖尿病护理的关键部分。然而，由于基础设施和人力资源的短缺，以及居高不下的成本问题，DR 筛查在中低收入国家常常被忽视。

近年来，人工智能特别是深度学习在糖尿病及其并发症管理领域发挥着越来越重要的作用。然而，过去的解决方案通常集中在糖尿病的并发症筛查或辅助管理的单一领域，很少同时整合这两个重要方面。如何将糖尿病诊疗意见的自动生成与糖尿病眼部并发症的精准诊断进行有效整合，进而构建出一个安全、可控的多模态智能模型，以支持基层医生实现一站式辅助诊疗服务，正是当前国际医疗领域的前沿趋势和重要挑战。

在此背景下，清华大学副教务长、医学院主任黄天荫教授团队，上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队，上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队，新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队通力合作，成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM。

相关研究成果以「 Integrated image-based deep learning and language models for primary diabetes care」为题，已发表于 Nature Medicine。

DeepDR-LLM 系统融合了大语言模型和基于眼底图像的深度学习技术，为基层医生提供个性化的糖尿病管理意见及糖尿病视网膜病变辅助诊断结果。该系统在覆盖亚非欧 3 大区域、7 个国家的多中心队列中进行了回顾性验证，并通过针对中国基层医疗场景开展前瞻性真实世界研究验证，首次提供了面向糖尿病医疗垂直领域的多模态大模型应用效果的高质量循证证据。DeepDR-LLM 系统有望大幅改善中低收入国家的基层糖尿病管理和 DR 筛查水平，为未来全球糖尿病管理提供革命性的数字解决方案。

研究亮点：

* 本研究创新性地提出融合适配器 (Adaptor) 和低秩自适应 (Low-Rank Adaptation, LoRA) 协同优化技术

* DeepDR-Transformer 模块引入 Transformer 模型架构针对超 50 万张眼底图像进行训练，精准实现眼底影像的质量检测、病变分割和 DR 分级诊断

* DeepDR-LLM 系统纳入糖尿病诊疗流程后，可显著改善新发糖尿病患者的自我管理行为，提高 DR 患者的转诊依从性

论文地址：https://www.nature.com/articles/s41591-024-03139-8

数据集下载地址：

https://go.hyper.ai/QmveC

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：14 个独立的横断面数据集

本研究纳入了 14 个独立的横断面数据集，包含了 7 个糖尿病患者的标准眼底图像，以及 7 个便携式眼底图像的独立横断面数据集。对于标准眼底图像的数据集，2 个数据集用于开发和内部验证 DeepDR-Transformer 模块，分别为：上海整合模型 (SIM) 队列和上海糖尿病预防计划 (SDPP) 队列。

此外，研究还选取了 12 个多种族数据集进行外部验证，分别为：尼城糖尿病筛查项目 (NDSP) 队列、糖尿病视网膜病变进展研究 (DRPS) 队列、武汉同济健康管理 (WTHM) 队列、北京协和糖尿病管理 (PUDM) 队列、中国国家糖尿病并发症研究 (CNDCS) 队列、广州糖尿病眼病研究 (GDES) 队列、香港中文大学-威胁视力的糖尿病视网膜病变 (CUHK-STD) 队列、新加坡眼病流行病学研究 (SEED) 队列、新加坡国家糖尿病视网膜病变筛查项目 (SiDRP) 队列、桑卡拉内斯拉糖尿病视网膜病变流行病学和分子遗传学研究 (SN-DREAMS) 队列、泰国国家糖尿病视网膜病变筛查项目 (TNDRSP) 队列和英国生物银行 (UKB) 队列。

另有 6 个数据集用于外部验证：中华便携式糖尿病视网膜病变筛查研究-东部 (CPSSDRE) 队列、中华便携式糖尿病视网膜病变筛查研究-中部 (CPSSDRM) 队列、中华便携式糖尿病视网膜病变筛查研究-西部 (CPSSDRW) 队列、中华便携式糖尿病视网膜病变筛查研究-东北部 (CPSSDRN) 队列、阿尔及利亚糖尿病视网膜病变研究 (ADRS) 队列和乌兹别克斯坦糖尿病视网膜病变研究 (UDRS) 队列。

CPSSDRE、CPSSDRM、CPSSDRW 和 CPSSDRN 队列来自 Phoebusmed 协助的真实世界 DR 筛查项目。对于 ADRS 和 UDRS 数据集，参与者分别在阿尔及利亚和乌兹别克斯坦的地区招募，这些眼底图像是使用来自 Canon、Topcon、Carl Zeiss、Optomed 和 MicroClear 的各种桌面和手持眼底相机拍摄的。

模型架构：LLM 和 DeepDR-Transformer 两大模块构成 DeepDR-LLM

DeepDR-LLM 系统由 2 个模块组成，如下图所示：

* 模块 I (LLM module)，为糖尿病患者提供个性化管理建议；

* 模块 II (DeepDR-Transformer module)，从标准或便携式眼底图像中进行图像质量评估、病变分割和 DR 分级。

DeepDR-LLM 系统架构

LLM 模块的监督微调

首先，研究人员通过微调 LLaMA 开发了 LLM 模块。

模块 I 是一个增强了领域知识的 LLM 模型，旨在根据医疗历史、体检、实验室测试以及 DR 和 DME 诊断结果等各种临床元数据制定糖尿病管理建议。由于缺乏特定领域的知识，初始的 LLM (即 LLaMA) 在生成糖尿病管理建议方面并不直接有效。

鉴于这一差距，研究人员开发了一种监督微调方法，将糖尿病管理相关知识整合到 LLM 的训练过程中。通过向基础 LLM 添加必要的领域知识，这种方法可以增强模型生成糖尿病管理建议的能力。监督微调的数据集是从上海市第六人民医院和华东疗养院的 267,730 名参与者中，回溯性获取的 371,763 对临床数据，以及来自真实世界的管理建议，这些数据在收集后进行了去识别化。

由于在 LLM 微调期间更新所有参数 (即 LLM 的原始权重)，在效率方面显然不是最佳的，科研团队创新性地提出融合适配器 (Adaptor) 和低秩自适应 (Low-Rank Adaptation, LoRA) 协同优化技术，构建了 DeepDR-LLM 多模态大模型，可适配包括 LLaMA 在内的大语言模型，LLM 模块将训练网络层与大语言模型的固有权重参数相融合，突破低算力资源约束下的多模态大模型优化的瓶颈。

DeepDR-Transformer 模块的开发和训练

模块 II 可以作为工具用于模块 I 分析眼底图像以进行 DR 预测，因此，研究人员提出了一个名为 DeepDR-Transformer 的独立模型，该模型在特定任务上进行微调后可以从眼底图像中提取不同特征。

研究人员使用标准眼底图像对 DeepDR-Transformer 进行了 4 项任务的训练：图像质量评估模型（确定可评估性）、DR 分级预测模型、DME 预测模型（判断是否存在）以及病变分割模型（微动脉瘤、出血、棉絮斑和硬性渗出）。对于每个模型，研究人员加载了来自 ImageNet 的预训练权重，随后进行端到端微调。

集成模块 I 和模块 II

DeepDR-LLM 系统有两种集成模块 I 和模块 II 的模式。

在医生参与的集成模式下，模块 II 的输出 (即眼底图像可分级性；微动脉瘤、棉绒斑、硬性渗出物和出血的病变分割；DR 等级；和 DME 等级) 可以协助医生生成 DR/DME 诊断结果 (即眼底图像可分级性、DR 等级、DME 等级和病变存在与否)。

在自动化集成模式下，DR/DME 诊断结果包括眼底图像分级、DR 分级、模块 II 划分的 DME 分级、模块 II 分割出的病变存在情况，这些 DR/DME 诊断结果和其他临床元数据将输入模块 I，为糖尿病患者生成个性化的管理建议。

研究结果：DeepDR-LLM 系统可提高基层 DR 筛查能力和糖尿病诊疗水平

研究团队邀请香港中文大学 Juliana C. N. Chan 教授、上海交通大学医学院附属第六人民医院包玉倩教授、澳大利亚 Baker 心脏病与糖尿病研究所 Jonathan E. Shaw 教授、美国约翰霍普金斯大学 Justin B. Echouffo-Tcheugui 教授、新加坡国家眼科中心 Gavin Siew Wei Tan 教授等糖尿病相关学科的著名学者组成国际多学科专家委员会。

专家委员会从覆盖中国 31 个省区的中国糖尿病慢性并发症研究队列中随机抽取 100 个病例样本，针对每个病例形成诊疗共识，以此为标准答案，对 DeepDR-LLM 系统和基层医生 (PCP) 给出的诊疗意见进行盲法评分。

首先，针对 DeepDR-LLM 系统提供中英文糖尿病管理建议方面的能力，下图汇总了 4 种不同方式 (DeepDR-LLM、LLaMA、PCP 和住院医生) 生成的糖尿病管理建议在英语和中文的 3 个不同领域的评估结果：不适当内容 (extent of inappropriate content)、缺失内容 (extent of missing content) 和可能的危害性 (likelihood of possible harm) 。

评估人员被邀请从三个方面对糖尿病患者的管理建议进行评分

在英语中，71% 的 DeepDR-LLM 建议被认为没有不适当内容，高于 LLaMA (51%)，但与 PCP (71%) 相当。此外，36% 的 DeepDR-LLM 建议被认为没有缺失内容 (PCP：27%)。最后，57% 的 DeepDR-LLM 建议被评为「低可能性」产生危害，与 PCP 的 55% 相当。

在中文中，77% 的 DeepDR-LLM 建议被认为没有不适当内容，高于 LLaMA (66%) 和 PCP (54%)。另外，63% 的 DeepDR-LLM 建议被认为没有缺失内容，而 PCP 为 46%。88% 的 DeepDR-LLM 建议被评为「低可能性」产生危害，而 PCP 为 60%。

下图显示了 4 种不同方式生成的管理建议的总评分（定义为领域特定评分的总和）。在英语中，DeepDR-LLM 给出的管理建议显著优于 LLaMA (P < 0.001)，并且与 PCP 和内分泌学住院医生相当。

在中文中，DeepDR-LLM 给出的管理建议显著优于 LLaMA (P < 0.001) 和 PCP (P = 0.010)，但与内分泌学住院医生相当。换言之，DeepDR-LLM 系统输出的诊疗意见质量达到或强于基层医生的水平。

LLaMA、DeepDR-LLM、PCP 和内分泌科住院医师生成的管理建议总分

随后，研究人员还通过来自北京、上海、广州、武汉及香港等中国城市和新加坡、印度、泰国、英国、阿尔及利亚、乌兹别克斯坦 6 个国家的超 50 万张眼底图像，对 DeepDR-LLM 系统进行外部测试。

为了评估 DeepDR-Transformer 作为 PCP 和专业非医师分级人员 (这些分级人员现被用于许多 DR 筛查项目，如英国、新加坡和越南) 在识别可转诊 DR 方面的辅助工具的效果，研究人员评估了有无 DeepDR-Transformer 模块辅助下分级过程的准确性和时间效率，如下图所示：

单独使用 DeepDR-Transformer 与使用 PCP

在识别可参考 DR 方面的表现

结果显示，未受助 PCP 的敏感性范围为 37.2%-81.6%，在 DeepDR-Transformer 辅助下，该范围提高到 78.0%-98.4%。同样，特异性从原来的 84.4%-94.8% (未受助) 提高到 90.4%-98.8% (受助)。

此外，在 DeepDR-Transformer 的辅助下，评估所需的中位时间从每只眼 14.66 秒减少到 11.31秒——这表明该系统在 DR 分级的准确性和效率方面均有显著提升，诊断能力甚至能达到专业眼科医生水平。

此外，研究团队将集成的 DeepDR-LLM 系统应用于真实世界临床流程，开展了随访 769 名中国基层糖尿病患者的前瞻性研究，证明了在 DeepDR-LLM 系统纳入糖尿病诊疗流程后，可显著改善新发糖尿病患者的自我管理行为，提高 DR 患者的转诊依从性。

为糖尿病智能治理贡献亚洲智慧

当今，糖尿病的患病率不断上升对中国及全球的公共卫生构成重大挑战。人工智能特别是深度学习在糖尿病及并发症管理领域发挥着越来越重要的作用——上文提及的清华大学团队、上海交通大学团队、新加坡国立大学以及新加坡国家眼科中心团队的专家们，都在这个方向深耕多年。

2017 年，时任新加坡国家眼科中心医学主任的黄天荫教授及其团队，在国际上率先基于深度学习算法在多种族人群上实现了自动诊断中重度 DR 病例，成果发表于 JAMA，在智能医疗发展历史上具有里程碑式意义。

2018 年，贾伟平教授和李华婷教授团队与上海交通大学电子信息与电气工程学院盛斌教授团队开展医工交叉协同创新，并携手新加坡国家眼科中心等国际顶尖学术机构，在上海市科委和上海交通大学支持下，获批组建上海市代谢相关疾病智慧防控「一带一路」国际联合实验室，致力于在代谢相关疾病智能防治领域开展广泛医工交叉和国际合作。

联合实验室自建立以来，分析百万级数据，研制迁移强化的多任务深度学习系统 DeepDR，实现对 DR 从轻度到增殖期病变的全病程自动诊断，并能对眼底图像的质量进行实时反馈以及眼底病变的识别分割，该技术同时应用于国际糖尿病联盟「全球中低收入国家糖尿病视网膜病变筛查项目」，推广至 48 个国家。

该成果以「A deep learning system for detecting diabetic retinopathy across the disease spectrum」为题，于 2021 年发表于 Nature Communications。

* 论文链接：

https://www.nature.com/articles/s41467-021-23458-5

2021 年底，黄天荫教授受聘于清华大学担任讲席教授及医学学科带头人，积极开展人工智能赋能糖尿病及眼病并发症诊疗的转化研究工作。联合实验室与清华大学黄天荫教授团队通过持续性合作研究，成功构建基于 Weibull 混合分布模型的深度学习系统 DeepDR Plus，超越由美国 Google 团队在该领域此前的领先技术，在全球率先实现对 DR 进展长达 5 年的风险预警和进展预测，可在大幅降低筛查频率和公共卫生成本的情况下仍保持极低的漏诊率，成果于 2024 年 1 月发表于 Nature Medicine。

总而言之，如今 DeepDR-LLM 的诞生可以说是之前研究成果的「集大成者」。研究人员们秉承以人为本、智能向善的理念，为基层糖尿病管理的未来变革提供了高质量循证依据，让全球糖尿病治理更好融入数字化、智能化、绿色化潮流，为糖尿病智能治理贡献亚洲智慧。

参考资料：1.https://mp.weixin.qq.com/s/MBtm0hY0gKE8NRQ8GfDy7A2.https://www.nsfc.gov.cn/csc/20340/20343/68143/index.html3.https://www.tsinghua.edu.cn/info/1182/112946.htm

幸福双城资讯网

清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型

前沿也要数据派