导管原位癌(DCIS)是一种侵袭前肿瘤,有时会发展为一种高度致命的乳腺癌。它约占所有乳腺癌诊断的25%。
由于临床医生难以确定DCIS的类型和分期,DCIS患者经常被过度治疗。为了解决这个问题,来自麻省理工学院和苏黎世联邦理工学院的一个跨学科研究小组开发了一种人工智能模型,可以从廉价且易于获得的乳腺组织图像中识别DCIS的不同阶段。他们的模型表明,组织样本中细胞的状态和排列对于确定DCIS的分期都很重要。
因为这样的组织图像很容易获得,研究人员能够建立同类中最大的数据集之一,他们用它来训练和测试他们的模型。当他们将其预测与病理学家的结论进行比较时,他们发现在许多情况下都是明确一致的。
在未来,该模型可以作为一种工具来帮助临床医生简化简单病例的诊断,而不需要进行劳动密集型的检查,给他们更多的时间来评估不太清楚DCIS是否会成为侵入性的病例。
“我们在理解诊断DCIS时应该观察细胞的空间组织方面迈出了第一步,现在我们已经开发出一种可扩展的技术。从这里开始,我们真的需要一项前瞻性研究。卡洛琳·乌勒是电气工程与计算机科学系(EECS)和数据、系统与社会研究所(IDSS)的教授,也是麻省理工学院和哈佛大学布罗德研究所埃里克和温迪·施密特中心的主任,也是麻省理工学院信息与决策系统实验室(LIDS)的研究员。她说:“与医院合作并将其推广到诊所将是向前迈出的重要一步。”
Uhler是这项研究论文的共同通讯作者,第一作者Xinyi Zhang是EECS和Eric and Wendy Schmidt中心的研究生;共同通讯作者GV Shivashankar,苏黎世联邦理工学院与Paul Scherrer研究所的机械基因组学教授;以及麻省理工学院、苏黎世联邦理工学院和意大利巴勒莫大学的其他研究人员。这项开放获取的研究发表在7月20日的《自然通讯》上。
影像与人工智能的结合
30%到50%的DCIS患者会发展为高度侵袭性癌症,但研究人员不知道可以告诉临床医生哪些肿瘤会发展的生物标志物。
研究人员可以使用多重染色或单细胞RNA测序等技术来确定组织样本中DCIS的分期。然而,Shivashankar解释说,这些测试过于昂贵,无法广泛进行。
在之前的工作中,这些研究人员表明,一种被称为染色质染色的廉价想象技术可以像昂贵的单细胞RNA测序一样提供信息。
在这项研究中,他们假设将这种单一的染色剂与精心设计的机器学习模型相结合,可以提供与更昂贵的技术相同的癌症阶段信息。
首先,他们创建了一个数据集,其中包含来自122名处于三个不同疾病阶段的患者的560个组织样本图像。他们使用这个数据集来训练一个人工智能模型,该模型可以学习组织样本图像中每个细胞状态的表示,并用它来推断患者的癌症阶段。
然而,并不是每个细胞都预示着癌症,所以研究人员必须以一种有意义的方式将它们聚集在一起。
他们设计了这个模型来创建相似状态的细胞群,确定了8种状态是DCIS的重要标志。一些细胞状态比其他状态更能指示浸润性癌症。该模型确定组织样本中处于每种状态的细胞比例。
组织问题
“但在癌症中,细胞的组织也发生了变化。我们发现仅仅有细胞在每种状态下的比例是不够的。你还需要了解细胞是如何组织起来的,”Shivashankar说。
有了这一见解,他们设计的模型考虑了细胞状态的比例和排列,这大大提高了模型的准确性。
“对我们来说,有趣的是看到空间组织有多重要。先前的研究表明靠近乳腺导管的细胞很重要。但考虑哪些细胞与哪些细胞接近也很重要,”张说。
当他们将模型的结果与病理学家评估的样本进行比较时,在许多情况下都有明确的一致。在不明确的情况下,该模型可以提供组织样本的特征信息,比如细胞的组织结构,病理学家可以在决策中使用这些信息。