关于最新模型GPT-4o的14条总结，都在这里！

GPT-4o全名为GPT-4 omni，“omni”是“全能”的意思。注意，GPT-4是一个系列的模型总称，而不是一个单独的模型。GPT-4系列模型中的模型有不同的模型名，可能会有不同的上下文长度，以及训练数据的截止日期（knowledge cutoff date，即下面截图里的Training Data）。5月13日之前，最新的GPT-4模型为GPT-4 Turbo，而5月13日之后，最新的模型是GPT-4o。

GPT-4o知识库截止日期为“Oct 2023”，而GPT-4 Turbo知识库截止日期为“Dec 2023”。意味着，如果你不提供任何上下文，直接问GPT-4o2023年11月以后发生的事，它在理论上是无法正确回答的（因为训练数据只截止到2023年10月），所以可能会出现AI幻觉。

GPT-4o的多模态能力在GPT-4 Turbo的基础上进一步增强，使其有望成为一个真正“全能”的助手。这种多模态能力意味着GPT-4o在文本、音频以及图像内容的理解、处理和生成上的进步。具体来说，GPT-4o能够接受文本、音频和图像的任意组合作为输入，并快速、准确地理解和响应（就这一点而言，是不是和我们人类之间的沟通很类似，我们接收到对方的文字、语音或者图像，理解然后给予对方回复！）。这种能力在实时交互中尤为重要，例如，用户可以通过语音与GPT-4o进行交流，而GPT-4o能够快速响应，甚至能够识别和模仿用户语音中的情感，提供更加自然和富有表现力的回复。

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

5虽然理论上来说，GPT-4o只是一个LLM模型，不应该对它过分神话。但为什么这个新模型的发布会引起如此大的反响？让我们来看一组数据。GPT-4o的音频输入的响应时间最短仅为232毫秒，平均响应时间为320毫秒（0.32秒），这一速度与人类对话中的反应时间已经高度相似了！GPT-4o的响应时间是GPT-4 Turbo的两倍，但却保持了GPT-4 Turbo同等级别的“智商”。6这里，有必要解释一下ChatGPT于2023年9月推出的语音模式（Voice Mode）。语音模式就是指你可以以语音的形式和ChatGPT对话，但仅限于一问一答，并且体感延迟非常高，与真正的人类间的对话相差太大。根据官方数据，语音模式下的平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。技术层面看，当时的语音模式是由三个独立的模型组成的流水线式任务链：第一个模型（Whisper，语音转文本模型）将音频转录为文本，然后由核心模型GPT-3.5或GPT-4接收文本并输出生成的文本，第三个模型（Text To Speech，TTS，文本转语音模型）再将该文本转换回音频。这个过程意味着第二个核心的处理模型GPT-4可能丢失很多信息——它不能直接观察语调、多个说话者或背景噪音，也不能输出笑声、歌声或表达情感。7而GPT-4o，则是一个全新的单一模型，以端到端的形式覆盖了文本、图像和音频，这意味着所有输入和输出都由同一个神经网络处理。这就是为什么GPT-4o能做到如此逼真的实时对话，真的就像是在和另一个“人”打电话一样。注意，有些媒体在新闻报道中提到GPT-4o支持处理视频输入，这其实是不准确的。OpenAI官方并未明确说明GPT-4o对视频输入的支持。虽然在昨天的发布会演示中，GPT-4o展示了实时视频交互能力，可以一边进行对话，一边解答手写数学问题，甚至指导编程，但这归根结底还是对静态图像的处理能力，而非视频。在OpenAI模型介绍页面对GPT-4o的介绍中，也明确提到了多模态指的是接受文本和图片输入。当前能够直接处理视频的模型只有Gemini 1.5 Pro，毕竟它的上下文长度实在是太长了，有100万tokens。

GPT-4o (“o” for “omni”) is our most advanced model. It is multimodal (accepting text or image inputs and outputting text), and it has the same high intelligence as GPT-4 Turbo but is much more efficient—it generates text 2x faster and is 50% cheaper.

在多项基准测试中，GPT-4o表现出优于GPT-4 Turbo的性能，尤其是在文本、推理和编码方面。针对AI模型最核心的推理能力，GPT-4o在零样本zero-shot COT MMLU（通用知识问题）上创下了88.7%的最高分。在下面的柱状图其实也可以看到，Claude 3 Opus和Llama3 400b表现也很突出，其中Llama3 400b还在训练中，并未发布。

GPT-4 Turbo对于英语外的语言支持得就已经挺不错了，而GPT-4o更进一步增强了对外语的支持。AI技术本身就和其他技术一样，理应具有普惠性，冲这一点为OpenAI点个赞。同时，OpenAI官方表示，GPT-4o新的分词器（tokenization）强化了对英语以及其他语言的压缩效果。这个是什么意思？LLM模型在处理文本输入时，需要将输入的文本分解成更小的单元（即tokens），以便模型的处理。更好的压缩效果意味着更小的token消耗。比如中文下的“你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!”这句话，在GPT-4 Turbo的处理中，需要占用34个tokens。而对于GPT-4o来说，只需要占用24个，是原来的70.58%。【备注】这里OpenAI官方的说法是“Chinese 1.4x fewer tokens”，我个人感觉1.4倍的说法不是很恰当，容易引起误解。

GPT-4o VS GPT-4 Turbo

特性GPT-4 TurboGPT-4o智能水平高高API价格10美元/百万输入和 30美元/百万输出 tokens5美元/百万输入和 15美元/百万输出 tokens （便宜 50%）速率限制高达 200 万 tokens 每分钟高达 1000 万 tokens 每分钟（高 5 倍）速度标准2 倍于 GPT-4 Turbo 的速度视觉能力标准在视觉能力评估中表现更好多语言支持标准改进了对非英语语言的支持上下文窗口128k tokens128k tokens知识截止日期2023 年 12 月2023 年 10 月

最后，聊一下大家最关心的如何使用GPT-4o的问题。总体来说，通过OpenAI官方使用这个模型有两种途径：ChatGPT、API。ChatGPT：目前处于灰度发布阶段，也就是会逐步向用户推出，包括免费用户。我周围已经有小伙伴免费用上了GPT-4o，据说免费用户的使用量是10次/3小时，毕竟是免费的，聊胜于无啊，以后应该会随着算力的提升越来越大。值得一提的是，除了GPT-4o，之前仅对付费用户开放的数据分析、文件上传、联网搜索、GPT Store以及图像处理功能也会陆续对免费用户开放！还没有ChatGPT账户的小伙伴可以冲起来了，具体注册请看我之前的教程：『AI保姆级教程』无需手机号！三分钟注册ChatGPT账号！2024年最新教程！。根据OpenAI官方的说法，付费Plus用户GPT-4o使用量为80次/3小时，加上40次/3小时的GPT-4 Turbo的使用量。API：GPT-4o的API已全面可用。该API目前支持文本和图像输入，GPT-4o API的速率限制（rate limit）是GPT-4 Turbo的5倍，最高可达每分钟1000万tokens，适用于需要快速处理大量数据的应用。更为重要的是，GPT-4o的使用成本较GPT-4 Turbo低50%，每百万tokens的成本分别为输入和15(输出)。考虑到之前提到的更好的分类器压缩，GPT-4o的实际使用成本将会更进一步降低。更加具体的如何获取并使用OpenAI API，我后面更会出一期详细的教程，敬请关注哦。

幸福双城资讯网

智能科技扫地僧