AI语言模型已经没有人类编写的文本可供学习了

米言看科技 2024-06-08 19:19:29
人工智能开发人员可能会求助于私人数据或稳定的人类写作来源,如Reddit、维基百科、新闻和图书出版商。研究机构 Epoch AI 发布的一项新研究预计,到 2026 年至 2032 年的某个时候,科技公司将耗尽 AI 语言模型的公开训练数据供应。当公共数据最终耗尽时,开发人员将不得不决定为语言模型提供什么。这些想法包括现在被认为是私有的数据,如电子邮件或短信,以及使用其他人工智能模型创建的“合成数据”。除了训练越来越大的模型之外,另一条途径是构建专门用于特定任务的更熟练的训练模型。 像 ChatGPT 这样的人工智能系统可能很快就会耗尽使它们变得更聪明的东西——人们在网上编写和分享的数十万亿字。研究机构Epoch AI周四发布的一项新研究预计,科技公司将在大约十年之交(2026年至2032年之间的某个时候)耗尽人工智能语言模型的公开训练数据。 该研究的作者塔梅·贝西罗格鲁(Tamay Besiroglu)将其比作耗尽有限自然资源的“字面淘金热”,他表示,一旦人工智能领域耗尽了人类生成的写作储备,在保持目前的进步速度方面可能会面临挑战。 在短期内,ChatGPT 制造商 OpenAI 和谷歌等科技公司正在竞相获得高质量的数据源,有时甚至支付费用来训练他们的 AI 大型语言模型——例如,通过签署协议来利用来自 Reddit 论坛和新闻媒体的源源不断的句子。从长远来看,将没有足够的新博客、新闻文章和社交媒体评论来维持目前人工智能的发展轨迹,这给公司带来了压力,要求他们利用现在被认为是私人的敏感数据——比如电子邮件或短信——或者依赖聊天机器人自己吐出的不太可靠的“合成数据”。 “这里有一个严重的瓶颈,”Besiroglu说。“如果你开始遇到关于你拥有多少数据的限制,那么你就不能再有效地扩展你的模型了。扩大模型规模可能是扩展其能力和提高输出质量的最重要方式。 附图表显示了多年来训练不同 AI 大型语言模型的单词数量。 像 ChatGPT 这样的人工智能系统正在消耗越来越多的人类作品,他们需要这些作品才能变得更聪明。 两年前,也就是ChatGPT首次亮相前不久,研究人员在一篇工作论文中首次做出了预测,该论文预测高质量文本数据的截止时间将更加迫在眉睫。从那时起,很多事情都发生了变化,包括新技术,使人工智能研究人员能够更好地利用他们已经拥有的数据,有时还会多次对同一来源进行“过度训练”。但也有局限性,经过进一步的研究,Epoch 现在预计在未来两到八年的某个时候,公共文本数据将耗尽。 该团队的最新研究已经过同行评审,并将于今年夏天在奥地利维也纳举行的机器学习国际会议上发表。Epoch 是一家非营利性机构,由总部位于旧金山的 Rethink Priority 主办,并由有效利他主义的支持者资助——这是一项慈善运动,致力于降低 AI 的最坏风险。 Besiroglu说,人工智能研究人员在十多年前就意识到,积极扩展两个关键要素——计算能力和大量的互联网数据存储——可以显着提高人工智能系统的性能。根据 Epoch 的研究,输入 AI 语言模型的文本数据量每年增长约 2.5 倍,而计算量每年增长约 4 倍。Facebook 母公司 Meta Platforms 最近声称,他们即将推出的 Llama 3 模型的最大版本(尚未发布)已经在多达 15 万亿个token上进行了训练,每个token可以代表一个单词。 但是,担心数据瓶颈的程度值得商榷。 “我认为重要的是要记住,我们不一定需要训练越来越大的模型,”多伦多大学计算机工程助理教授、非营利性Vector人工智能研究所研究员尼古拉斯·帕普诺(Nicolas Papernot)说。没有参与Epoch研究的Papernot表示,构建更熟练的AI系统也可以来自更专门针对特定任务的训练模型。但他担心在生成式人工智能系统产生的相同输出上训练生成式人工智能系统,这会导致性能下降,称为“模型崩溃”。"model collapse." 对人工智能生成的数据进行训练“就像你复印一张纸,然后复印复印件时会发生什么。你会失去一些信息,“Papernot说。不仅如此,Papernot的研究还发现,它可以进一步编码已经融入信息生态系统的错误、偏见和不公平。如果真正的人工制作的句子仍然是一个关键的人工智能数据源,那么那些最抢手的宝库——Reddit和维基百科等网站,以及新闻和图书出版商——的管理者们就被迫认真思考它们是如何被使用的。“也许你不会从每座山的山顶上掉下来,”运营维基百科的维基媒体基金会首席产品和技术官赛琳娜·德克尔曼(Selena Deckelmann)开玩笑说。“现在这是一个有趣的问题,我们正在就人类创造的数据进行自然资源对话。我不应该嘲笑它,但我确实觉得它有点神奇。 虽然有些人试图将他们的数据从人工智能训练中剔除——通常是在数据已经被无偿获取之后——但维基百科对人工智能公司如何使用其志愿者撰写的条目几乎没有限制。尽管如此,德克尔曼表示,她希望继续有激励措施让人们继续做出贡献,尤其是在大量廉价和自动生成的“垃圾内容”开始污染互联网的情况下。她说,人工智能公司应该“关注人类生成的内容如何继续存在并继续可访问”。 从人工智能开发人员的角度来看,Epoch的研究表明,支付数百万人来生成人工智能模型所需的文本“不太可能是一种经济的方式”,以推动更好的技术性能。随着 OpenAI 开始训练下一代 GPT 大型语言模型,首席执行官 Sam Altman 上个月在联合国的一次活动中告诉观众,该公司已经尝试“生成大量合成数据”进行训练。“我认为你需要的是高质量的数据。有低质量的合成数据。人类数据质量低下,“阿尔特曼说。但他也对过于依赖合成数据而不是其他技术方法来改进人工智能模型表示保留。“如果训练模型的最佳方法是生成万亿个合成数据并将其反馈回去,那就太奇怪了,”Altman说。“不知何故,这似乎效率低下。”
0 阅读:4

米言看科技

简介:感谢大家的关注