OpenAI震撼推出GPT-4o：开启全球免费AI服务的新篇章

在北京时间5月14日凌晨，OpenAI在其首次「春季新品发布会」上推出了新一代旗舰生成模型GPT-4o和桌面应用程序，在人工智能的发展史上，今天将被铭记为一个里程碑。

这一天，OpenAI宣布了GPT-4o——一款全新的、功能强大的多模态人工智能模型。这不仅是技术的一次飞跃，更是对未来人机交互方式的一次革命性预示。GPT-4o的发布，不仅在AI领域引起了轰动，更在全球范围内激起了广泛的讨论和热烈的反响。

GPT-4o的问世是OpenAI对其使命——“确保人工智能对所有人都有益”——的深化和延续。在经历了GPT-3.5和GPT-4的成功之后，OpenAI没有停下脚步，而是继续推进技术的边界，致力于打造一个更加智能、更加快速、更加准确的AI模型。GPT-4o的发布，标志着OpenAI在多模态AI领域的一个重大突破，它不仅能够处理文本，还能理解音频和图像，为用户提供一个更加全面的交互体验。

OpenAI 的首席技术官 Mira Murati

今天的主持人是 OpenAI 的首席技术官 Mira Murati，她激情洋溢地分享了三个振奋人心的消息。首先，OpenAI将坚持一个信念：免费优先。这不仅是一项策略，而是一种承诺，确保每个人都能触及未来的智能技术。第二个好消息，OpenAI带来了全新的桌面应用和一款界面更新，它们的设计如此直观，使用起来就像呼吸一样自然。最后，但同样重要的，是GPT-4的继任者——GPT-4o。这个新模型，它不仅仅是一个升级版，它是一个革命，它将GPT-4级别的智能带给了每一个人，无论是付费用户还是享受免费服务的用户，都能体验到前所未有的自然交互方式。这是OpenAI向世界宣告：智能技术，为所有人而生。

在现场气氛热烈的发布会上，OpenAI的工程师拿起一部iPhone，兴奋地展示了新模型GPT-4o的几项超酷功能。观众们最期待的，无疑是实时语音对话的演示。Mark Chen带着一丝紧张和期待说道：“这是我第一次参加直播发布会，心跳得好快。”ChatGPT温和地回应：“试着深呼吸一下吧。”Mark按照指示深呼吸，而ChatGPT立刻幽默地回答：“放轻松，你这不行，喘得也太大了！”现场响起了一片笑声和掌声，GPT-4o的智慧和幽默感，为这场技术盛宴增添了更多人性化的温暖色彩。

GPT-4o的功能特征堪称前所未有。作为一个多模态模型，它能够接收和处理文本、音频和图像的输入，生成相应的输出。这意味着用户可以与GPT-4o进行更自然的对话，不仅仅是通过文字，还可以通过语音甚至是图片。GPT-4o在理解和生成非英语文本方面的性能得到了显著提升，同时在视觉和音频理解方面也有了突破性的进展。此外，GPT-4o的响应速度更快，平均响应时间与人类在对话中的响应时间相似，这使得与AI的交互更加流畅和自然。

GPT-4o的技术革新

在人工智能领域，技术的每一次进步都是对未来的一次大胆预测。OpenAI的GPT-4o不仅仅是一个新模型的发布，它代表了AI技术的一次飞跃，为我们揭示了一个全新的、多模态的交互世界。

GPT-4o的技术规格和性能特点

GPT-4o是一个集成了文本、音频和图像处理能力的多模态AI模型。它的核心优势在于其快速响应和高度准确的理解能力。GPT-4o能够在毫秒级别响应用户的查询，这一速度与人类在日常对话中的反应速度相当。此外，GPT-4o在处理非英语文本时的性能得到了显著提升，这使得它能够更好地服务于全球用户。

在 GPT-4o 之前，我们使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。

与前代模型GPT-3.5和GPT-4的比较

与GPT-3.5和GPT-4相比，GPT-4o在多个方面都有所突破。首先GPT-4o的响应时间大幅缩短，用户几乎可以实时获得反馈。其次，GPT-4o在理解复杂查询和生成自然语言方面的能力有了显著提高。最重要的是，GPT-4o的多模态能力使其能够处理和生成图像和音频内容，这是前代模型无法实现的。

多模态能力：文本、音频和图像的处理

GPT-4o的多模态能力是其最引人注目的特点之一。它不仅能够理解和生成文本，还能处理音频和图像输入。这意味着用户可以用图片询问问题，或者用语音与GPT-4o交流。例如，用户可以上传一张菜单的照片，GPT-4o能够识别并翻译上面的文字，甚至提供相关的背景信息和推荐。这种能力极大地扩展了AI的应用场景，使得GPT-4o能够在教育、医疗、娱乐等多个领域发挥重要作用。

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

改进推理 - GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的（在新窗口中打开）图书馆。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b（在新窗口中打开）还在训练中）

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam - M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。（我们省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有 5 个或更少。

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot，其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

GPT-4o的技术革新不仅体现在其快速和准确的响应上，更体现在其对多种模态输入的处理能力上。这些革新使得GPT-4o成为了一个真正意义上的全能AI模型，为用户提供了前所未有的交互体验。

OpenAI的技术骄子们在X平台上揭开了一个激动人心的秘密：那个在LMSYS Chatbot Arena上掀起轩然大波的神秘模型，被人们热议的「im-also-a-good-gpt2-chatbot」，其实就是GPT-4o的早期面貌！这不仅是一次技术上的大胆尝试，更是OpenAI不断创新和探索的生动证明。现在，这个曾经的谜团终于揭晓，它正是GPT-4o——一个更智能、更自然、更亲近人心的AI模型的起点。

GPT-4o的应用范围

在人工智能的浪潮中，GPT-4o的出现如同一颗璀璨的新星，其应用范围广泛，涵盖了实时语音和视频交互、教育、医疗、娱乐等多个行业，以及为企业和开发者提供的丰富场景。

实时语音和视频交互

GPT-4o的实时语音和视频交互能力，是其最引人注目的特性之一。用户可以通过语音与GPT-4o进行交流，无需等待长时间的处理，几乎可以达到与真人对话的自然流畅度。这种交互方式不仅提高了效率，也使得用户体验更加舒适和人性化。在视频交互方面，GPT-4o能够理解视频内容并做出反应，这为远程教育、在线会议等应用提供了强大的支持。

教育行业的应用

在教育领域，GPT-4o能够根据学生的学习进度和需求，提供个性化的教学内容和辅导。例如，它可以通过分析学生上传的作业图片，给出针对性的指导和建议。此外，GPT-4o还能够辅助语言学习，通过实时对话练习，帮助学生提高语言能力。

医疗行业的应用

在医疗行业，GPT-4o可以协助医生进行病例分析和诊断。通过分析医学图像，GPT-4o能够提供初步的诊断意见，帮助医生更快地识别疾病。同时，它也能够通过语音交互，为患者提供健康咨询和医疗信息的解读。

娱乐行业的应用

在娱乐行业，GPT-4o可以创造全新的互动体验。它能够根据用户的喜好，推荐电影、音乐或游戏，并通过分析用户上传的影评或游戏截图，提供深度的内容分析和讨论。此外，GPT-4o还能够参与创作，协助编写剧本、歌词或游戏剧情。

企业和开发者的使用场景

对于企业和开发者而言，GPT-4o提供了强大的工具和服务。企业可以利用GPT-4o优化客户服务，通过实时语音交互，提供更加人性化的客户支持。开发者则可以将GPT-4o集成到自己的应用中，无论是开发智能助手、数据分析工具，还是构建复杂的交互式应用，GPT-4o都能提供强有力的支持。

GPT-4o的应用范围几乎覆盖了现代社会的每一个角落。它不仅仅是一个AI模型，更是一个连接人类与数字世界的桥梁，为各行各业带来了革命性的变化和无限的可能。

GPT-4o的商业模式

在人工智能领域，OpenAI以其GPT-4o模型引领了一场革命。这不仅仅是技术上的突破，更是商业模式创新的典范。GPT-4o的商业模式展现了OpenAI对于AI技术普及和商业化的深刻理解。

OpenAI的免费和付费服务

OpenAI采取了独特的商业策略，将GPT-4o的部分功能免费提供给用户，同时也推出了更高级的付费服务。这种模式既满足了广大用户的基本需求，又保证了公司能够通过高级服务获得收入，以支持持续的研发和运营。对于普通用户，免费服务已经能够满足日常的查询、学习和娱乐等需求。而对于那些需要更高级功能、更强大计算能力或更高定制化服务的企业和专业用户，付费服务提供了更多的选择和可能性。

通用基础计算（Universal Basic Compute）的概念

Sam Altman提出的“通用基础计算”（Universal Basic Compute）概念，是对传统通用基础收入（UBI）的一种创新性扩展。在这个模型中，每个人都可以获得一定量的计算资源，用于个人发展、创业或贡献社会。这种计算资源可以是GPT-4o的计算能力，也可以是其他形式的AI服务。用户可以自由选择如何使用这些资源，甚至可以将它们出售或捐赠。这一概念不仅体现了OpenAI对于AI技术普及的承诺，也为AI技术的社会化应用提供了新的思路。

对传统商业模式的挑战

GPT-4o的商业模式对传统的软件和服务行业提出了挑战。在这个模式下，用户不再需要为每一项服务支付费用，而是可以根据自己的需求选择免费或付费服务。这种灵活性和开放性，使得GPT-4o能够迅速获得大量用户，并在短时间内积累了大量的数据和经验，进一步提升了模型的性能和服务质量。同时，这也促使其他公司重新思考自己的商业模式，以适应这种新的市场趋势。

GPT-4o的商业模式是OpenAI对于AI技术商业化的一次成功尝试。它不仅为用户提供了价值，也为公司带来了收益，同时推动了整个行业的发展和进步。

用户体验和市场反馈

在人工智能领域，OpenAI的GPT-4o无疑是一颗冉冉升起的新星。它不仅在技术上实现了突破，更在用户体验和市场反馈方面赢得了广泛的赞誉。

用户对GPT-4o的评价

对GPT-4o的发布，用户的评价普遍积极。许多人对其多模态交互能力表示惊叹，尤其是在实时语音和视频交互方面的表现。用户们赞赏GPT-4o能够理解和生成多种语言的能力，这使得它能够跨越语言障碍，服务于全球用户。此外，GPT-4o在教育、医疗、娱乐等行业的应用案例也获得了用户的高度评价，许多人认为GPT-4o极大地提高了工作效率和生活质量。

市场分析和专家评论

市场分析师和行业专家对GPT-4o的市场表现持乐观态度。他们认为，GPT-4o的推出不仅改变了人们与AI交互的方式，也为OpenAI在竞争激烈的AI市场中赢得了有利地位。专家们特别指出，GPT-4o的免费和付费服务模式，为AI技术的普及和商业化提供了新的思路。同时，Sam Altman提出的“通用基础计算”概念也受到了业界的广泛关注和讨论。

与其他AI产品的竞争分析

在与其他AI产品的竞争中，GPT-4o凭借其先进的技术和创新的商业模式，展现出了强大的竞争力。与传统的语音助手相比，GPT-4o在理解复杂查询、处理多种模态输入以及提供个性化服务方面具有明显优势。此外，GPT-4o的快速响应和高度准确的理解能力，使其在市场上脱颖而出，成为了许多用户和企业的首选AI平台。

GPT-4o在用户体验和市场反馈方面取得了显著的成绩。它不仅提升了用户的交互体验，也为OpenAI在全球AI市场中的发展奠定了坚实的基础。

GPT-4o的影响力

在人工智能技术迅猛发展的今天，OpenAI的GPT-4o不仅仅是技术进步的产物，更是社会变革的催化剂。它的出现预示着工作和生活方式的重大转变，同时也引发了关于AI伦理和责任的深入讨论，对全球语言助手市场产生了深远的影响。

对工作和生活方式的潜在改变

GPT-4o的多模态交互能力，使得人们在工作和日常生活中的沟通方式发生了根本性的变化。在工作场所，GPT-4o能够协助完成复杂的数据分析、报告撰写、设计创意等任务，极大提高了工作效率。在家庭生活中，GPT-4o通过智能家居设备提供个性化服务，从日程管理到娱乐休闲，都变得更加便捷。这些改变不仅仅体现在效率上，更在于GPT-4o为人们提供了更多自由探索和创造的空间。

AI伦理和责任的讨论

随着GPT-4o等先进AI技术的普及，人们越来越关注AI伦理和责任问题。如何确保AI技术的公正性、透明性和安全性，成为了社会各界共同关注的话题。OpenAI在开发GPT-4o时，就已经考虑到这些问题，并采取了相应的措施，如限制某些功能的使用，以防止滥用。同时，也有越来越多的组织和机构开始制定AI伦理准则，以指导AI技术的健康发展。

对全球语言助手市场的冲击

GPT-4o的出现，对全球语言助手市场产生了巨大冲击。它不仅在技术上超越了现有的语音助手，更在用户体验上设定了新的标准。GPT-4o的多语言能力和多模态交互，使其能够服务于更广泛的用户群体。这不仅挑战了其他语音助手的市场地位，也促使整个行业向更高的技术标准迈进。

GPT-4o的推出不仅是技术创新的象征，更是社会进步的标志。它改变了人们的工作和生活方式，引发了关于AI伦理和责任的重要讨论，并对全球语言助手市场产生了深远的影响。

OpenAI创始人山姆奥特曼发推表示：

在我们今天的公告中，我想强调两件事。

首先，我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。

当我们创办 OpenAI 时，我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反，现在看起来我们将创造人工智能，然后其他人将使用它来创造各种令人惊奇的事物，让我们所有人都受益。

我们是一家企业，会发现很多收费的东西，这将帮助我们向（希望如此）数十亿人提供免费、出色的人工智能服务。

其次，新的语音（和视频）模式是我用过的最好的计算机界面。感觉就像电影里的人工智能一样；我仍然有点惊讶它是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的变化。

最初的 ChatGPT 暗示了语言界面的可能性；这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。

对我来说，与电脑交谈从来都不是很自然的事情。现在确实如此。当我们添加（可选）个性化、访问您的信息、代表您采取行动的能力等等时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。

最后，非常感谢团队为实现这一目标付出了巨大的努力！

GPT-4o的发布不仅是OpenAI技术进步的象征，更是人工智能领域一个新时代的开启。它的全面功能和强大性能，预示着AI将在我们的生活中扮演更加重要的角色，而OpenAI正是这一变革的引领者。

参考资料：

1.https://twitter.com/gdb/status/1790071008499544518

2.https://openai.com/index/hello-gpt-4o/

3.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

波动世界（PoppleWorld)是噬元兽容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

幸福双城资讯网

OpenAI震撼推出GPT-4o：开启全球免费AI服务的新篇章

独角也有噬元兽