大多数人都没有想到人类的大脑是多么神奇。这个器官包含大约800亿个神经元,每个神经元都与多达1万个其他神经元相连。绘制神经元本身是一项具有挑战性的努力,但试图理解它们之间的联系则是一项艰巨的任务。
虽然全面绘制人类大脑地图还需要多年的艰苦工作,但美国阿贡(Argonne)国家实验室的科学家们正在为未来的探索奠定基础。该项目由阿贡国家实验室数学和计算机科学部的高级计算机科学家Nicola Ferrier领导。
为了更多地了解这项惊人的工作,媒体采访了阿贡领导计算设施的计算机科学家Thomas Uram,他也参与了这个项目。
“大脑是地球上最复杂的东西之一,”Uram说。“这当然是我们身体中最复杂的东西,我们并不完全了解它是如何工作的。我们要做的是重建它的结构和连通性。”
虽然Uram对这项工作的好奇心源于揭开未知的渴望,但也有一些重要的动机来理解大脑的联系。可以帮助研究人员更多地了解人类行为,并为神经退行性疾病提供见解。
绘制生物体神经系统内连接图的研究属于连接组学的范畴。考虑到大脑结构的复杂性,Uram和他的同事们正在进行的连接组学研究主要集中在一立方毫米大小的脑组织样本上。
这些样本是通过取下数千块30纳米厚的组织片来制备的,这些组织片是在手术中切除的残余人脑组织。然后,科学家们把它们装在一根带子上,然后用电子显微镜对其进行成像。每个部分都被单独成像集合,然后重新组装成一个更大的部分。
一旦这些部分被完全重建,它们就会与相邻的部分对齐,以便它们内部的特征匹配。然后,研究人员使用神经网络来追踪图像堆栈中的物体。具体来说,Uram表示,该团队使用谷歌开发的称为洪水填充网络(FNN)的神经网络来完成重建部分。
FFN是专门为连接组学中的神经元分割而设计的机器学习神经网络,是一种特殊类型的卷积神经网络(CNN),旨在区分电子显微镜图像中的神经元和其他物体。CNN通常用于与图像相关的任务,例如将物体从背景中分离出来(例如,将奶牛从田地中分离出来),生成描述图像中物体的标题,甚至生成新图像。
同样的CNN方法也被用在FFN中,用于将神经元彼此分离,并与脑组织中的其他物体分离。在这种情况下,挑战的主要部分是识别小组织体积中的许多神经元。
即使是这样一个相对较小的样本,研究每一个连接也是一个主要的计算挑战。以4纳米的横向分辨率成像的立方毫米组织产生大约2Petabyte的数据。正如Uram所解释的那样,这是一个巨大的问题——即使对我们目前拥有的最强大的机器来说也是如此。
利用目前实验室用来分割物体的神经网络,Uram和他的同事们利用Aurora(阿贡的超级计算机)的全部计算潜力,可以在几天内分割一立方毫米的组织。更重要的是,随着科学家们希望扩大这项研究的规模,这个问题变得越来越严重。
Uram说:“展望未来,如果我们想重建一个完整的老鼠大脑,那就是一立方厘米的数据。”“这是一千倍的数据量。整个Aurora需要3000天,这意味着9年或10年。我们在接下来的十年里都无法进入整个Aurora。所以很明显,我们需要比现在更多的计算能力。”
这里更有趣的是我们需要多少计算能力来绘制整个人类大脑。Uram说,人类的大脑大约比老鼠的立方厘米大1000倍。这将导致计算需求增加1000倍,并且将需要Aurora的所有资源连续300万天。
未来会怎样?
显然,使用世界上最强大的计算机之一的所有资源连续300万天都是不可能的。Uram承认,在我们开始认真考虑绘制整个人类大脑之前,我们需要创造更强大的机器。
这项技术可能还没有准备好绘制整个人类大脑的连接图,但Uram和他的同事们所做的工作为未来的工作奠定了基础。
然而,他也指出,解决方案并不是简单地制造比我们现有的机器大300万倍的机器。“更有可能的是,我们将看到我们正在使用的技术取得重大进步,”Uram说。“如果我们能在分割方面显著加快神经网络的速度,那么我认为我们可以在现有的机器上做得更好,我们希望在下一代或两代机器上也能做到这一点。”
Uram提到,在这一点上,大多数人都熟悉在ChatGPT等模型中可以看到的错误类型。当科学家试图分割结构精细的神经元时,同样的错误也存在。这就产生了大量必须由人工校对的数据。
他特别提到了另一个有效的项目。这些研究人员估计,人类用于纠正苍蝇分割的时间约为数千小时。
除了减少人工校对的时间外,科学家们还需要解决一个存储问题。目前,研究人员正在处理他们所拥有的立方毫米大脑样本中PB级的数据。对于他们想要做的更大的工作,存储需求将远远超过EB级的数据。我们如何存储和移动这些数据将需要新的创新。
这显然是一项艰巨的任务,绘制完整的人类大脑只会遇到更多的障碍。然而,Uram似乎已经准备好迎接挑战。“我一直对生命中的重大问题很感兴趣,”Uram说。“大脑是如何工作的是一个复杂而令人烦恼的问题。这是一个巨大的未知数。”