AI的未来:多元、包容,还是少数语言的天下?

摩登语言学 2024-11-03 18:46:41

在 2024 年可持续发展影响会议的 "人工智能促进全球公益 "会议上,人工智能的语言多样性差距成为讨论的主题。

人工智能在语言多样性方面的差距有可能将数十亿人排除在数字经济之外,目前的大多数系统只用世界上 7000 多种语言中的 100 种语言进行训练。

新兴倡议正在展示语言多样性人工智能在推动创新和包容性方面的潜力。

本周在纽约举行的可持续发展影响会议上,与会领导人强调,人工智能的未来必须是多样化的。

到 2050 年,全球三分之一以上的青年将生活在非洲。但是,他们能平等地参与数字经济吗?

目前,在全球使用的前34种语言中,没有一种是非洲语言。在自然语言处理(NLP)、大型语言模型(LLMs)和人工智能(AI)研究等领域取得的进展,也未能充分代表非洲语言。

“这是一个挑战,也是一个巨大的机会,”水晶·鲁格格(Crystal Rugege),第四工业革命中心(Rwanda)董事总经理,在谈到非洲大陆丰富的语言多样性和当前AI系统无法服务这种多样性时说道。“我们可能没有可以与1400种方言交互的应用程序,但我们肯定应该能够服务大多数人口。这个市场也可以成为世界数字劳动力市场,我们应该创造一个有利的环境。”

AI中的这种语言鸿沟不仅仅是非洲问题,这是一个具有深远影响的全球性挑战。

AI中的语言鸿沟——一个日益深化的问题?

世界上有超过7000种语言,但大多数AI聊天机器人都是在100种语言的基础上训练的。AI的第一语言被认为是英语,这是因为在线有更多可供抓取和训练模型的英语语言数据。

有迹象表明,尽管全球只有不到20%的人口说英语,但AI在语言集中方面的趋势——围绕英语——正在加深:一些受训练以响应其他语言提示的生成式AI模型现在“思考”为英语。与这种“高资源语言”相比,由于缺乏高质量的数据集、工具和技术,不同的“低资源”或服务不足的语言正落后。

但AI中的语言多样性挑战不仅仅是一个技术问题,它也是一个重塑数字景观、推动经济增长和确保AI的好处真正全球化的机会。

如果不加以控制,这意味着那些已经难以利用当前AI系统并面临互联网服务不足、计算能力有限和缺乏部门培训可用性的额外挑战的群体和国家“可能会进一步落后”,正如世界经济论坛人工智能、数据和元宇宙负责人Cathy Li所指出的。

早期努力应对这一问题

从印度和北美到非洲国家,全球出现了新兴的用例,证明了在AI能够在不同语言中工作方面进行投资的价值。

例如,在卢旺达,语言多样化的AI使社区卫生工作者能够跨越这些鸿沟提供服务。水晶·鲁格格说,该国大约有7万名一线卫生工作者,他们不会说英语,他们经常能够辨别人们是否需要更关键的护理。

“我们构建了一个基于语音和文本的翻译模型,这样他们就可以与它互动,并能够辨别是否有人头痛;如果有人咳嗽。”她解释说,使用OpenAI的ChatGPT 4.0,他们在与患者互动的试验中已经达到了71%的准确率。这意味着更多的人得到了治疗,因为语言多样性是该AI应用程序的一个特征,而不是事后的想法。

但她同样重要的是,要拥有适当的保障措施来确保人们的权利得到保护,并且该技术正被负责任地使用。“数据是AI的氧气……[确保]人们对如何使用他们的数据做出决策是一个基本原则,必须嵌入其中,但除此之外,还要确保制定了促进创新的政策和法律。”

开源AI和合作伙伴关系提供解决方案

在世界经济论坛在纽约举行的可持续发展影响会议(SDIM)上,Meta的副总裁兼首席AI科学家Yann LeCun指出了在塞内加尔出现的数字医疗措施作为另一个例子。

“在塞内加尔很难预约医生,尤其是在农村地区,”他说。但他表示,像Kera Health这样的AI驱动的平台允许人们“现在与AI助手对话”。但它必须会说Wolof语,除了法语和塞内加尔的另外三种官方语言。”

LeCun说,要取得更多进展有两个主要驱动因素。首先是开源AI——“我们需要一个非常简单的开放基础设施——想想‘AI的维基百科’——这样你就可以让人们构建对本地人口有用的系统。”

其次是能够推动变革的伙伴关系。“例如,Meta与印度政府之间存在合作伙伴关系,以便未来版本的Meta的开源LLM(称为LLaMA)能够至少说印度的所有22种官方语言,也许还能说数百种当地语言和方言。”

他还看到了翻译到物理空间中的机会,例如,可以使用眼镜来提供两种不同语言之间的同步翻译。“未来的硬件将是像智能眼镜这样的东西……它可以实现人们在自己的语言中进行交互,”他说。

“我们开始拥有能够翻译非书面语言的系统……因此,对于直接的语音到语音,我们可以进行文本到文本、文本到语音、语音到文本和语音到语音,包括对于许多非书面语言。”

专注于改进低资源或代表不足语言的自然语言处理的Pascal Fung表示,我们应该致力于构建能够促进低资源和高资源语言社区之间交流的系统。“对于大型语言模型来说,这意味着在低资源语言中收集更多数据来微调模型,以便它们能够与英语模型达到相同的水平。”

迈向“多样化的未来”

正在努力促进数据的顺利交换,包括语言数据。例如,欧洲委员会的语言技术联盟(ALT-EDIC)将有助于解决用于训练AI解决方案的欧洲语言数据短缺问题,并支持开发欧洲大型语言模型。

其他国家,如阿拉伯联合酋长国(UAE),已经“生产和出口”了新的大型语言模型(LLM),如NANDA,它将专门迎合说印地语的用户,同时为其开源LLM“Falcon”进行全球统一的推广。“我们正在做的一件事是跨不同地理区域进行合作,以了解如何定制Falcon以满足那些无法构建自己的大型模型的政府的需求,”阿联酋人工智能、数字经济和远程工作应用国务部长Omar Sultan Al Olama说。

世界经济论坛的人工智能治理联盟集结了不同利益相关者,对于在全球构建更公平、负责任的AI生态系统至关重要。特别是包容性AI工作流,优先考虑尊重和考虑所有人的需求的包容性AI开发。它还与公共和私营部门合作,开发框架,同时强调和促进支持人与星球目标的AI应用。

未来需要多样化,Meta的LeCun强调。“出于与我们需要访问各种信息来源相同的原因,从新闻到社交媒体,我们还需要高度多样化的AI系统来满足我们所有不同的兴趣、文化规范、价值体系和语言。”

0 阅读:1