观点:重新审视人工智能时代的“研究寄生虫”之争

极光欣色 2024-08-04 16:02:35

在ChatGPT等人工智能机器人中使用的大型语言模型再次引发了关于数据民主的老争论。

2016年发表在《新英格兰医学杂志》(New England Journal of Medicine)上的一篇社论哀叹“研究寄生虫”的存在,这些人挑选别人的数据,而不是自己生成新数据。这篇文章触及了这种做法的道德和适当性。对这一论点最仁慈的解释是,新数据的产生耗费了数百万美元的研究资金和无数的工时,而这一过程需要付出艰苦的工作和努力。无论这篇社论的论点有什么优点,它及其相关论点都受到了广泛的批评。

鉴于人工智能的最新进展,重新审视研究寄生虫的辩论为分享和数据民主的伦理提供了一个新的视角。具有讽刺意味的是,研究寄生虫的批评者可能提出了一个合理的论点——但是基于错误的背景,在错误的时间针对错误的目标。具体来说,OpenAI的ChatGPT等生成式人工智能工具的基础是大型语言模型(llm),它们在如何寄生于免费可用的数据方面面临道德挑战。这些讨论引发了关于数据安全的新对话,这可能会破坏或至少使开放和数据民主化的努力复杂化。

2016年那篇社论引发了迅速而激烈的反弹。许多争论围绕着这条信息的反科学精神展开。例如,元分析——重新分析从选定的研究中获得的数据——是一种应该受到鼓励的关键实践。许多关于自然世界和人类健康的突破性发现都来自于这种实践,包括抑郁症和精神分裂症的分子原因的新图片。此外,对研究寄生的核心批评破坏了数据共享的伦理目标和开放科学的雄心,在开放科学中,科学家和公民科学家可以从数据访问中受益。这与2016年的现状不同,当时世界上许多顶级期刊上发表的数据都被锁定在付费墙后面,难以识别,标记不清,或者难以使用。到2024年,这在很大程度上仍然是正确的。

“研究寄生虫有害”运动并没有走得太远。数据民主化的重要性已经争论了很多年,并导致了科学实践中有意义的变化。知识共享的许可选择已经成为许多子领域发表研究的标准,为作者提供了一种方式来说明他们希望自己的作品如何被使用。这个系统包括了向数据民主倾斜的选项,比如CC BY许可。值得注意的是,其中一些许可证允许将内容用于商业用途。

“我曾经支持的数据自由主义思想几乎在一夜之间被颠覆性技术所改变,这让我暗自发笑。”

2019冠状病毒病大流行是数据共享的分水岭。几天之内,病毒基因组序列和临床元数据就可以在世界范围内共享,使研究人员能够合作了解一种新出现的威胁。相关的预印本文章(在接受同行评审之前发布的论文)正常化运动允许科学家和公共卫生专家以开放获取的方式分享完整的报告,暂时规避了效率低下的同行评审过程。

有鉴于此,数据民主化运动似乎获得了足够的动力,成为一种普遍做法。但历史告诉我们,新技术往往会使最成熟的社会和文化规范复杂化。法学硕士和其他人工智能技术颠覆了现代社会的许多不同方面。在数据民主方面,他们正在围绕数据所有权的意义,以及谁可以使用免费数据,以及为了什么目的,引发新的思考。

OpenAI和该公司的旗舰工具笨拙地在开放和不透明之间游走。关于开放性,ChatGPT的一个版本是免费提供给任何人使用的。从这个意义上说,这些工具直接加剧了数字鸿沟,因为任何可以访问网络的人(地球上越来越多的人)都可以使用它们,因此很难提出严厉的批评。但这种表面上的可访问性是对数据实践的干扰——这些实践充其量是有问题的——推动了这项技术。OpenAI对其工具的剖析是出了名的保密:哪些数据和信息被用来构建这些工具,它们是如何被使用的?毫不夸张地说,我们可能永远不会知道。

我们中一些最强烈主张数据民主的人,现在哀叹使用免费数据来支持法学硕士。这一立场本身并不矛盾,因为数据民主和数据隐私并不冲突。但是,我曾经支持的数据自由主义思想几乎在一夜之间被颠覆性技术所改变,这让我暗自发笑。在后人工智能时代,我的立场是,是的,数据的使用方式确实很重要,数据的作者可能应该有办法保护他们的作品,如果这些作品被用于盈利,他们应该得到报酬。这是一个丰富而复杂的道德领域,法律专家经常在这个领域进行探索,最近以几起备受瞩目的诉讼的形式。

现代地形的形状提供了一个机会,可以重新唤起八年前关于寄生虫研究的争论。当考虑到不透明地使用数据来构建法学硕士的情况时,“寄生”一词找到了一个更自然的家园。即使不依赖道德判断,法学硕士也与生物学对寄生的定义有共同的特点。他们不是简单地使用从世界中生成的资源,而是在不考虑使用或生成数据的人的背景或意图的情况下消费这些资源。世界数据的上下文删除和重新配置是人工智能可以产生幻觉的部分原因,支持废话(更准确地说,是废话)。这是生活在生物世界里的寄生虫的东西:自然选择让寄生虫获取资源(营养、能量、生殖等)。进化和生态可以限制这种提取的发生方式——这种机制通常对宿主来说不太显眼或代价高昂。寄生仍然是自然界中普遍存在的一种生活方式,因为它通常是有效的。但与寄生虫相互作用的目标相当直接:它为自己的利益提取相关资源。

“我们不应该平庸地抱怨人工智能使用了我们的数据,而应该把我们的焦虑集中在这种使用是否寄生的问题上。”

像ChatGPT这样的法学硕士的成功非常相似。这些机器将消耗、切片和重新包装我们免费获得的数据和内容,用于另一个目的。但是,由自然选择造就的生物发明与滋养这些科技集团的文化发明之间的差异,与它们的相似之处同样重要。在后一种情况下,技术是有意识行为者有意行为的产物,即使技术本身并不是有意识的。因此,科技企业集团不能将欺诈行为归咎于自然法则。

2016年《新英格兰医学杂志》(New England Journal of Medicine)的社论介绍了关于研究寄生虫的争论,提出了对数据使用的担忧:“第一个担忧是,没有参与数据生成和收集的人可能不理解在定义参数时所做的选择。”在实践中,这是一种愚蠢的抱怨——重新分析数据之所以有必要,是因为原始研究的作者可能在实验构建、数据收集方法和统计推理方面做出了有问题的决定。但是,在讨论如何将数据转化为产品时,人们普遍抱怨盲目使用数据,忽视数据产生的原因和条件是什么,这是一个相关的问题。这个类比可能有助于我们引导公众讨论数据民主和数据寄生之间的界限。我们不应该平庸地抱怨人工智能使用了我们的数据,而应该把我们的焦虑集中在这种使用是否寄生的问题上。

一个可供他人获取和使用数据的学术生态系统会促进更好的科学,也会促进更好的社会。这样的生态系统可以帮助我们研究自然,并使其朝着健康和健康的方向发展。但是当这种用法移除了或模糊了作者的意图时,寄生虫标签就出现了,对于一个产品,填充了那些可能不关心我们的人的口袋,或者我们做我们做的事情的原因。

0 阅读:8

极光欣色

简介:感谢大家的关注