英伟达(Nvidia)开始使用“超级”一词来描述新产品,最新的一款是“超级模型”,它使用创新技术来创建人工智能模型。
该公司上周宣布其GPU支持Meta的4050亿个参数Llama 3.1人工智能模型,当与它的自产模型Nemotron一起使用时,产生了一个“超模”。这个模型涉及使用多个LLM(大型语言模型),微调,治理护栏和适配器创建高度定制的模型,以创建适合客户需求的AI应用程序。
英伟达正试图摆脱单一的人工智能模式,转向互补的人工智能模型和工具。
Llama 3.1-Nemotron技术由Llama 3.1提供输出,Nemotron会仔细检查输出是好是坏。最终得到一个经过微调的模型,具有更准确的反馈。
“你可以把它们一起使用来创建合成数据。“Nvidia副总裁Kari Briski表示。“所以……创造合成数据,新模型会说,这是好数据,还是坏数据。”
英伟达也在为“超模“添加更多的化妆品,让他们看起来更漂亮。人工智能工厂后端包括许多工具,可以混合和匹配以创建精细调整的模型。
添加的工具提供了更快的响应和有效的计算资源使用。Briski说:“我们发现,仅仅通过定制模型,准确率就提高了近10个百分点。”
一个重要的组件是NIM (Nvidia推理微服务),这是一个可下载的容器,为客户提供与人工智能交互的接口。用户通过NIM进行交互时,使用多个LLM、护栏和优化的模型微调在在后台进行。
开发人员现在可以下载Llama 3.1 NIM,并使用适配器对它们进行微调,这些适配器可以使用本地数据定制模型,以生成更多定制的结果。
创造一个人工智能超模是一个复杂的过程。首先,用户需要弄清楚配料,其中可能包括带适配器的Llama 3.1,以便将自己的数据导入人工智能推理。
客户可以安装诸如Llama Guard或NeMo guarails之类的护栏,以确保聊天机器人的答案相关性。在许多情况下,RAG(检索增强生成)系统和LoRA适配器有助于对模型进行微调,以生成更准确的结果。
该模型还涉及提取相关数据并将其推送到矢量数据库,通过该数据库对信息进行评估,并将响应汇集给用户。公司通常在数据库中有这样的信息,而英伟达提供了可以解释存储数据以供人工智能使用的插件。
“我们有模型。我们有算力。我们有工具和专业知识。”Briski说。
英伟达正在与许多云提供商合作提供这项服务。该公司还在其人工智能工厂内建立了一个名为NIM工厂的子工厂,为公司提供构建自己的人工智能模型和基础设施的工具。