天文学产生大量数据,非常适合人工智能!

碳材谈科技 2024-06-01 10:05:04

人工智能凭借其生成文本和图像、自动化任务等能力正在渗透到人们的日常生活中。但天文学家需要更强大、更专业的人工智能。现代望远镜和天文台产生的大量观测数据压倒了天文学家从中提取意义的努力。

一组科学家正在开发一种新的天文数据人工智能,称为 Astro PT。他们在一篇题为“ Astro PT:扩展大型天文学观测模型”的新论文中介绍了这种人工智能。

天文学家面临着海量数据,当维拉鲁宾天文台 于 2025 年投入运行时,数据量预计将猛增。 VRO拥有世界上最大的摄像头,每张图像包含的信息足以填满1500台大屏幕电视。在其为期10年的任务中,VRO 将生成大约0.5艾字节的数据,大约是美国国会图书馆数据量的50,000 倍。

VRO 需要多个位置来处理所有数据,这一事实反映了它生成的数据量巨大。

其他带有巨型镜子的望远镜也即将看到它们的第一束光。巨型麦哲伦望远镜、三十米望远镜和欧洲极大望远镜将共同产生大量数据。

拥有无法处理的数据就等同于根本没有数据。基本上,除非数据经过处理,否则它仍然毫无意义和惰性。这就是 Astro PT 发挥作用的地方。

Astro PT 代表 Astro Pretrained Transformer,变压器是一种特定类型的 AI。转换器可以将输入序列转换为输出序列。 AI 需要训练,AstroPT使用来自DESI Legacy Survey Data Release 8的 860 万张 512 x 512 像素图像进行训练。 DESI 代表暗能量光谱仪器,它捕获数千万个星系和类星体的光谱来研究暗能量的影响。

Astro PT 和类似的人工智能使用“令牌”。标记是较大图像中有意义的视觉元素。通过将图像分解为标记,人工智能可以理解图像的整体含义。 Astro PT 可以将单个令牌转换为一致的输出。

Astro PT 使用视觉标记进行训练。这个想法是让人工智能预测下一个令牌。训练得越彻底,人工智能的表现就越好。

“我们证明,一个简单的生成自回归模型在对预测星系图像块序列中的下一个 16x16 像素块的替代任务进行预训练时,可以学习科学上有用的信息。”作者写道。在这个方案中,每个图像块都是一个令牌。

训练像 Astro PT 这样的人工智能的障碍之一是人工智能科学家所说的“代币危机”。为了发挥作用,人工智能需要接受大量高质量代币的训练。在2023 年的一篇论文中,另一个研究团队解释说,缺乏代币可能会限制大型语言模型等人工智能的有效性。

Astro PT也面临同样的问题。优质代币短缺。与其他人工智能一样,它使用 LOM(大型观察模型)。该团队表示,迄今为止的结果表明,可以使用观察数据来解决代币危机。 这是一个有希望的结果,表明可以使用利用观测科学数据进行预训练的单一多模态 LOM,并表明利用观测数据作为解决代币危机的方案之一的可能性。

人工智能开发人员热衷于寻找代币危机和其他人工智能挑战的解决方案。

0 阅读:0

碳材谈科技

简介:感谢大家的关注