狙击谷歌?示好苹果?OpenAI推出GPT-4o背后的遐想

元宇宙新声 2024-05-14 18:21:04

作者|贾桂鹏

北京时间5月14日凌晨,OpenAI在线上举办了“春季更新”活动,他们推出最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。

那么,GPT-4o还具备怎样的能力?为什么这次发布的是GPT-4o而不是GPT-5?OpenAI为什么会在谷歌I/O大会前发布该产品?我们看看能不能在这次活动中找到答案。

GPT-4o有什么不一样?

此次发布,GPT-4o最大的特点是增加了语音交互,并且号称和一些同类竞品相比,它的响应时间更快,可以减少延时,更接近和真人对话的节奏。

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入作出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管作出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

据OpenAI官网介绍,GPT-4o中的o代表omni(译为全能),称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

OpenAI技术负责人穆拉迪(Mira Murati)在直播活动中表示,新型号GPT-4o“速度快得多”,在文本、视频和音频方面都有改进,公司最终计划让用户与ChatGPT进行视频聊天。“这是我们第一次在易用性方面迈出巨大的一步。”

值得注意的是,新模型允许ChatGPT处理50种不同的语言,速度和质量都有所提高,它还将通过OpenAI的API提供支持,这样开发者今天就可以开始使用新模型构建应用程序了。GPT-4o的速度是GPT-4 Turbo的两倍,成本只有一半。

从性能来看,OpenAI表示,在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善。

此外,通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的七十多名外部专家开展广泛的外部团队合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

值得一提的是,OpenAI不仅将GPT-4o直接提供给用户使用,还将其作为API开放给开发者。这意味着开发者可以方便地利用GPT-4o的强大功能来构建自己的应用程序,从而在开发速度、成本控制以及功能实现等方面获得显著提升。

而且,OpenAI竟然直接将这个模型免费开放给用户使用了。

元宇宙新声认为,语音能力再度提升,将使得GPT-4o有希望打破人与机器交互的“天花板”,未来的ChatGPT,可以无处不在——比如,它可以随时随地出现在人的身边、可以嵌入到没有屏幕的设备上与人交谈。总之,GPT-4o可以让人们更专注于与ChatGPT的协作,而不是受限于屏幕界面本身。

这个时间点放出GPT-4o,是狙击谷歌还是示好苹果?

相信OpenAI在这个时间点放出GPT-4o是有理由的,最直观的体现就是,在其活动的后一天谷歌就将举办2024年I/O开发者大会,这次OpenAI再次精准狙击谷歌。如果谷歌I/O大会上没有惊人的发布,也许这次风头又会被OpenAI抢走。

从历史上来看,OpenAI每一次产品发布的时间都拿捏得非常准确。2024年2月15日,谷歌对外重磅发布了多模态大模型Gemini 1.5 Pro,官方测试结果显示,这个最高支持100万tokens的多模态大模型,性能远超GPT-4 Turbo。

然而,就在同一天,OpenAI发布了文生视频大模型Sora。

Sora的发布让全网关注度再次聚焦到了OpenAI这一文生视频产品上,抢走了本应属于谷歌的高光时刻,也让谷歌Gemini 1.5 Pro在大模型发展历史上的意义再次被低估。

其实现在回头看,Sora的发布这是一场彻头彻尾的“表演”项目,因为到目前为止,Sora还是没有开放给公众使用。

除了狙击谷歌外,我们发现在OpenAI这次活动中全程用iPhone和MacBook Pro进行演示,同时还发布了Mac桌面版的ChatGPT,这让我们不得不怀疑,他们是不是在为与苹果的合作在铺路?

近日,有消息爆出,苹果公司与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”,作为iOS 18中人工智能功能的一部分。

事实上,面对激烈的AI技术角逐,苹果与OpenAI的合作使人们有理由期待一个更加智能、更加互动的Siri,对于苹果来说,这可能也是巩固其在全球科技领域领导地位的重要一步。

元宇宙新声认为,这次OpenAI推出GPT-4o时再次向大家印证了他们的营销思维,既给竞争对手谷歌制造了压力,又向潜在合作伙伴苹果示好。但需要注意的是,谷歌的风头并不容易被抢走,反而有可能被其反噬,而苹果也绝不是一家长期依靠其他厂商生存的企业,OpenAI在最大卖点还是产品,比如传说中的“GPT-5”。

为什么是GPT-4o不是GPT-5

在人们感叹于GPT-4o进一步提升大模型能力的时候,不禁要问,传说中的GPT-5怎么没有推出?它现在研发到什么进度了?

我们认为,之所以现阶段发布GPT-4o,是因为GPT-5的研发肯定遇到了一些问题。如果不是这样,OpenAI直接推出GPT-5就好了。一家科技企业发布新产品一定是越早越好,尤其在大模型这一领域中,各家的竞争非常激烈。因此,OpenAI在研发GPT-5时,不是有性能方面的危机就是有成本的问题。

但以大家对OpenAI的理解,即使成本再高,只要效果足够惊艳,它一定会推出的,先震慑一下行业,哪怕GPT-5一天就能用3条,也希望吸引到所有人的目光。所以,我们认为GPT-5的研发过程中可能还是遇到的性能或者安全问题会更多一些。

其实不止我们,网友们也在线纷纷催OpenAI,快点发GPT-5。

在此前的采访中,OpenAI首席执行官Sam Altman也回答了关于GPT-5的问题,他表示:“关于GPT-5的发布时间,目前我们还没有确定一个具体的日期。我们对新模型的推出持谨慎态度,致力于确保它在发布时能够达到我们的高标准。我们正在考虑采用一种新的发布策略,这可能与以往的方式有所不同。我们对于GPT-5的命名和发布策略仍在讨论之中,但可以肯定的是,我们致力于让这款新模型在发布时能够为用户带来卓越的体验。”

元宇宙新声认为,在发展过程中,OpenAI肯定会遇到不少挑战。但,我们希望他们始终保持着坚定的信念和持续的创新精神,不断突破自我,实现全球AI领军企业的期望。特别是在GPT系列模型的推出上,OpenAI更是引领了AI领域的新一轮技术革命。

写在最后

在人工智能领域,每一次技术的飞跃都标志着人类智慧与机器智能的深度融合。GPT-4o作为OpenAI的最新旗舰模型,无疑在技术层面取得了显著的进步。其新加入的音频理解能力以及对易用性的重视,确实为用户提供了更为自然、便捷的交互体验。

当前的发展中,OpenAI依然面临着更多的机遇和挑战。然而,公司始终保持着坚定的信念和持续的创新精神,在未来的AI领域中,OpenAI将继续发挥引领作用,为人类社会的进步贡献更多力量。

0 阅读:0

元宇宙新声

简介:在这里,看懂元宇宙