OpenAI又出王炸GPT-4o，目测一大波人的饭碗要碎了…

早上一觉睡起来，打开朋友圈，发现又被 Open AI和GPT-4o刷屏了。

就在北京时间5月14日的凌晨，OpenAI 召开了春季发布会，推出了一款名为 GPT-4o 的“旗舰级”生成式人工智能模型，堪称是Open AI乃至AI人工智能大模型发展史上的又一王炸。

据悉，GPT-4o 中的“o”代表“omni”，指的是 GPT-4o 的多模态。言下之意，有了 GPT-4o，你可以任意以文字、音频和图像的方式，与GPT自然地交互了。

注意“自然”这个字眼。接下来我们以实际例子，给大家展示，它是怎么个“自然”法。

首先， GPT-4o让人机交互更直接更流畅。

这意味着，你和GPT语音交互时，不再有交互延迟，而是可以即刻获得回应。

其次，GPT-4o能够在与用户交互时，捕捉和理解用户的情绪，并给予回应。

也就是说，过去人们诟病的“AI是机器，没法处理情绪”这种缺点，正在被攻克。

下面我通过官方直播时的一个演示的视频，来体验一下GPT-4o的即时响应与情绪感知能力：

第三，GPT-4o能够处理背景杂音，还支持插话、被打断这种复杂场景的交互。

在这次演示中，Mark 和 Barret 多次打断了ChatGPT的叙述，并要求它以不同的语调来讲故事。

ChatGPT能够灵活地根据用户的指示调整其语音的音调和情感，展现出从平和的叙述到戏剧化的表达，再到模仿机器人的声音，甚至以歌唱形式来结束故事，这极大地增强了交流的互动性和娱乐性。

第四，GPT-4o能够基于“看见”的事物并立刻进行推理。

在发布会上，GPT-4o通过手机摄像头，看到了一道写在纸上的数学题，并帮助两位演示者解题：

然后，Barret 在纸上又写了“我爱 ChatGPT”（I love ChatGPT）的字样，她的反应也是相当精彩：

写在最后：

如果说过去GPT只能通过文本和人交互，还比较呆板，之前的版本的语音交互还不够流畅、保真，这次GPT-4o的多模态能力极大增强后，AI几乎和人没有什么两样了。

人机可以如此自然地交互，再加上大模型强大的知识储备和推理能力，预示着成千数百的人类岗位，将要被AI抢饭碗。

比如：

家庭不再用为孩子请家教辅导孩子，可以让孩子直接与AI自然地提问，并获得解答；

商家不用再雇人做售前售后客服，直接可以让AI去回答其客户的咨询；

不同语言沟通，也不需要请昂贵的翻译了，直接拿出手机打开GPT，就可以无缝翻译了…

细思极恐啊，同志们。

幸福双城资讯网