根据最新发布Appen的《2024年人工智能状况报告》,人工智能可能是各大公司的优先事项,但管理数据和获取高质量数据来训练人工智能模型的困难正成为实现人工智能愿望的更大障碍。
AI依赖于数据。无论你是在训练自己的人工智能模型,微调别人的模型,还是在预构建的模型中使用RAG(检索增强生成)技术,成功部署人工智能都需要将数据带到桌面上——最好是大量干净、高质量的数据。
作为数据标签和注释解决方案的提供商,Appen在组织构建或部署人工智能解决方案时遇到的数据来源挑战中占据了前排位置。它在其年度人工智能状况报告中记录了这些挑战,该报告现已进入第四个年头。
根据该公司2024年的《人工智能状况报告》,人工智能的数据挑战已经达到了新低,该报告基于今年早些时候委托哈里斯民意调查公司对美国公司的500多名IT决策者进行的一项调查。
根据报告,调查人员报告的数据的平均准确性在过去四年中下降了9个百分点。自该公司发布2023年人工智能状况报告以来,数据可用性不足的情况增加了6%。
Appen战略副总裁Si Chen表示,质量和可用性的下降可能是由于过去两年从基于结构化数据的简单机器学习项目转向基于非结构化数据的更复杂的生成式人工智能(GenAI)项目。
“我们现在看到很多数据是非结构化的。它不是很标准化,”Chen说。“他们通常需要大量的领域专业知识和主题专业知识来实际构建这些数据集。我认为这就是我们看到数据准确性下降的原因。这只是因为人们现在想要和需要的数据比以前复杂得多。”
在其报告中,Appen还发现了人工智能数据管道方面出现的一个瓶颈。公司正努力在多个方面取得成功,无论是获取数据、能够适当地管理数据,还是拥有处理数据的技术资源。总体而言,自2023年以来,Appen追踪到与采购、清洁和标签数据相关的瓶颈增加了10个百分点。
虽然很难确定这种下降的单一原因,但陈认为,主要原因之一可能是组织正在开展的人工智能项目类型的普遍增加。
Appen是数据标注和标签领域的巨头,拥有近三十年的经验。虽然GenAI目前正在推动对高质量培训数据的需求激增,但Appen认识到,每个项目都需要自己独特的数据集进行培训,这是该公司的专长。Appen的《人工智能状况报告》中的数据表明,许多组织都在努力解决这个问题。
“正在设计和开发的用例更加多样化,你从企业设计的每个特定用例都需要定制数据来实际支持该用例。”Chen一年前在腾讯和亚马逊的人工智能工作,后来加入了Appen。“因此,所有这些多样性意味着,要真正构建这些模型,你需要确保你有一个非常强大的数据管道,使你能够去建立它。”她继续说道。“每个用例都有一系列围绕数据的步骤。因此,随着越来越多的人部署更多的这些模型,他们可能会发现,在现有的数据管道中,所有这些都不一定成熟。”
使用非结构化数据开发生成性人工智能应用程序需要不同类型的数据管道和不同的技能。“我认为这将是一个过渡期,”她说。“但这非常令人兴奋。”
Appen的调查得出结论,从2023年到2024年,GenAI用例的采用率上升了17%。今年,它调查的组织中有56%拥有GenAI用例。最受欢迎的GenAI用例是提高内部业务流程的生产力,占53%,而41%的人表示他们正在使用GenAI来降低业务成本。
Appen发现,随着GenAI的增加,成功部署AI的百分比下降了。例如,在《2021年人工智能状况报告》中,Appen发现平均有55.5%的人工智能项目得以部署,2024年这一数字降至47.4%。获得“有意义”投资回报率(ROI)的人工智能项目比例也从2021年的56.7%下降到2024年的47.3%。
陈说,这些数字反映了数据挑战。她说:“尽管人们对此很感兴趣,也在研究许多不同的用例,但在部署方面仍然存在很多挑战。”。“数据在能否成功部署方面发挥着非常重要的作用。”
根据该报告,组织正在使用三种类型的数据进行人工智能。Appen发现,27%的用例使用预先标记的数据,30%使用合成数据,41%使用自定义收集的数据。
Appen首席执行官Ryan Kolln最近在《大数据简报》上表示,使用以前从未见过的定制收集数据的能力提供了强大的竞争优势。
“有大量公开可用的数据,所有模型构建者都在消耗这些数据。”他说,“但生成式人工智能的真正竞争优势是能够访问定制数据。我们看到的是,在如何找到定制数据方面,这是一种非常有竞争力的方法。我们看到现实世界中,人工收集的数据是数据语料库的重要组成部分。”