英伟达(Nvidia)的一款新人工智能模型知道草莓(strawberry)这个词里有多少个R,而OpenAI的GPT – 4o模型还没有做到这一点。在所谓的“草莓问题”中,GPT – 4o和其他一些已建立的模型经常给出错误的答案,即“草莓”只有两个R。
10月15日,在Hugging Face上发布了新的Nvidia模型,名为Llama-3.1-Nemotron-70B-Instruct,基于Meta的开源Llama基础模型,特别是Llama-3.1-70B-Instruct Base。Llama系列人工智能模型被设计为开源基础模型,供开发人员构建。
Hugging Face模型页面声称,Nemotron-70B在几个不同的基准上超过了GPT-4o和Anthropic的Claude 3.5 Sonnet。Nemotron-70B在Chatbot Arena Hard基准上得分为85.0,在AlpacaEval 2 LC上得分为57.6,在GPT-4-Turbo MT-Bench上得分为8.98。该页面还指出,Nemotron-70B的微调使用了来自人类反馈的强化学习,以及英伟达一种名为HelpSteer2-preference的新校准技术,该公司表示,该技术可以训练模型更严格地遵循指令。
在这种情况下,基准测试结果对于人工智能研究概念的一致性很有希望,一致性描述了模型输出与用户需求和可靠性和安全性期望相对应的有效性。可以通过更大的定制来改进一致性,使企业能够为特定的用例定制AI模型。最终目标是提供准确、有益的回应,并消除幻觉。
Nemotron-70B模型轻松解决了“草莓问题”,展示了其先进的推理能力。
然而,重要的是要注意,大型语言模型的基准测试仍然是一个发展中的研究领域,应该针对单个应用程序测试特定模型的有用性。
英伟达目前在人工智能硬件市场占据主导地位,如果它的Nemotron模型继续在基准测试中取得好成绩,这可能意味着,在已经蓬勃发展的LLM(大型语言模型)领域,竞争将更加激烈。Nemotron模型还表明,该公司似乎有意成为人工智能解决方案的一站式商店。
英伟达进军人工智能模型的一个重要方面是NIM(英伟达推理微服务),这是一个可下载的容器,为客户提供与人工智能交互的界面。NIM允许使用护栏和优化对多个LLM进行微调。Nvidia表示,NIM易于安装,提供对底层模型数据的完全控制,并提供可预测的吞吐量和延迟性能。
OpenAI本月还发布了一款名为o1的新机型,有趣的是,它的代号为“草莓”。该模型是计划推出的一系列具有高级推理能力的模型中的第一个,目前为ChatGPT付费用户提供预览版,有两个版本:o1-preview和o1-mini。OpenAI声称,新的“草莓”模型经过定制数据集的训练,在许多STEM学科中表现出了博士水平的能力。而且,它还能准确地告诉你strawberry这个单词里有多少个R。