谷歌这次又“杀疯了”！200万token长文本能力问鼎全球最强

作者 | Tina、李冬梅

今天，Google 年度开发者 I/O 大会 2024 在加利福尼亚州山景城的 Shoreline Amphitheatre 举行，此次大会以 Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 的主题演讲拉开序幕。谷歌此前已经明确表示，今年的 I/O 大会将全部围绕人工智能展开。

这次大会上，皮查伊宣布了谷歌内部的最新技术进展，尤其是围绕 Gemini 所做的所有工作。

狂卷长文本，Gemini 家族迎来重大更新

“我们希望每个人都能从 Gemini 所做的事情中受益，”皮查伊说。他还透露了 Gemini 将如何融入谷歌的许多服务中。人们使用 Google 搜索的方式比以往任何时候都多，关键字搜索的时间甚至更长。

大会一开始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro，可提供 100 万长文本能力，并且已经向全球开发者开放。

Gemini 1.5 Pro 是在上个月举办的 Google Cloud Next 2024 大会上发布的，具有原生音频理解、系统指令、JSON 模式等。

Gemini 1.5 Pro 能够使用视频计算机视觉来分析图像（帧）和音频（语音）的视频，这使其具有人类水平的视觉感知。使用深度神经网络，Gemini 1.5 可以以超人的精度识别图像（和视频帧）中的物体、场景和人物。

成本问题一直是大模型开发的痛中之痛，为了解决这一痛点，谷歌 DeepMind 首席执行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型，该模型旨在兼顾快速和成本效益。

“Gemini 1.5 Flash 擅长摘要、聊天应用程序、图像和视频字幕、从长文档和表格中提取数据等，”Google DeepMind 首席执行官 Demis Hassabis 此前在博客文章中写道。 Hassabis 补充说，谷歌创建 Gemini 1.5 Flash 是因为开发人员需要一个比 Gemini 1.5 Pro 更轻、更便宜的模型。

Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间，是针对开发者的大模型。尽管比 Gemini Pro 轻，但它的功能同样强大，谷歌表示这是通过“蒸馏”的方式来实现的，将 Gemini 1.5 Pro 中最重要的知识和技能转移到较小的模型上。这意味着 Gemini 1.5 Flash 将获得与 Pro 相同的多模式功能，以及其长上下文窗口（AI 模型一次可以摄取的数据量），100 万个 token。

最大的更新尚未到来——谷歌宣布今年晚些时候将模型的现有上下文窗口增加一倍，达到 200 万个 token。这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。

谷歌的 Josh Woodward 详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。Gemini 1.5 Flash 的价格定为每 100 万个 token 35 美分，这比 GPT-4o 的每 100 万个 token 5 美元的价格要便宜得多。

值得一提的是，此次大会谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升级后的 Gemini Advanced 可以处理“多个大型文档，总计最多 1,500 页，或汇总 100 封电子邮件”。支持 35 多种语言和 150 多个国家/地区。而其“即将”推出的功能是能够“处理一个小时的视频内容或超过 30,000 行的代码库”。全球最强长文本能力可谓实至名归。

该公司还正在开发名为 Project Astra 的通用 AI 代理。大会现场，Demis Hassabis 展示了 Astra 模型，该模型通过智能手机摄像头分析世界，并与用户进行对话。 Demis Hassabis 表示，他的团队“一直希望开发对日常生活有帮助的通用人工智能代理”。 Project Astra 是这方面进展的结果。

Project Astra 类似一款以取景器作为主界面的应用程序。谷歌在演讲中展示了一个人拿着手机，将摄像头对准办公室的各个地方，并用语言与其交互：“当你看到有东西发出声音时，请告诉我。”在这段视频演示中，Gemini 能识别各种物体甚至代码，并实时与人类进行语音互动。

在视频中，Astra 的反应很快。之所以能实现这一目标，是因为这些“Agent”“旨在通过连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。”

随后，Demis Hassabis 宣布推出最新 AI 媒体创作模型 Veo 和 Imagen 3。

据 Demis Hassabis 介绍，Veo 可以制作“高质量”1080p 视频，Imagen 3 是最新的文本到图像框架。这两个听起来都不是特别革命性的，但它们是谷歌继续对抗 OpenAI 的 Sora 视频模型和 Dall-E 3 的一种方式，Dall-E 3 实际上已经成为 AI 生成图像的代名词。

谷歌声称 Veo 具有“对自然语言和视觉语义的高级理解”，可以创建用户想要的任何视频。AI 生成的视频可以持续“超过一分钟”。 Veo 还能够理解电影和视觉技术，例如延时拍摄的概念。

Gemini 能力加持，谷歌搜索引擎迎来颠覆式变革

谷歌搜索负责人 Liz Reid 宣布了对全球主导搜索引擎进行人工智能驱动的重大变革。以往，当用户在使用搜索引擎时，通常以文字或图片形式呈现。如今，作为推动将生成式人工智能添加到搜索中的一部分，谷歌引入了一个新的转折点：视频。 Gemini 会让用户上传演示其要解决的问题的视频，然后启动搜索在论坛和互联网的其他区域以找到解决方案。

除了将 Gemini 能力加持到搜索引擎外，Gemini 还将为 Gmail 应用程序提供一些有趣的新功能，包括长电子邮件线程的摘要。用户还可以直接与 Gemini 聊天，从整个收件箱中查找详细信息。

为了提供更个性化的体验，Gemini Advanced 订阅用户很快将能够创建 Gems —— Gemini 的定制版本。

Gems 可以让用户个性化地创建聊天机器人，可以帮助用户完成某些任务并保留特定的特征，有点像在 Character.AI 中制作自己的机器人，该服务可以让用户与流行角色和名人的虚拟版本甚至虚拟心理医生交谈。谷歌表示，你可以让 Gemini 成为你的健身伙伴、副主厨、编码伙伴、创意写作指南或任何你能想到的东西。

下一代开放模型 Gemma 再迎重大更新

会上，谷歌还分享了 Gemma 的一系列更新，Gemma 是谷歌的开放模型系列，采用与创建 Gemini 模型相同的研究和技术构建。此次谷歌在原来模型基础上宣布推出 Gemma 2。谷歌称这是用于负责任的人工智能创新的下一代开放模型。 Gemma 2 采用全新架构，旨在实现突破性的性能和效率，并将提供 27B 大小的尺寸。

Gemma 家族也在随着 PaliGemma 的扩展而扩展。据悉，PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。他们还使用 LLM Comparator 升级了 Responsible Generative AI Toolkit，用于评估模型响应的质量。

移动操作系统 Android 15 将深度集成 Gemini

I/O 大会最主要的特色就是面向开发者。在 I/O 大会上，谷歌提到了即将推出的安卓新版本，即以 AI 为核心的 Android，今年将实现三项突破：在 Android 上提供更好的搜索、Gemini 正在成为你的 AI 助手，以及设备上的 AI 将解锁新的体验。

谷歌于 2023 年 10 月发布了 Android 14，此次大会之前，谷歌已经发布了 Android 15 的第一个测试版。追溯历史，谷歌曾以甜点命名安卓版本，然而从 Android 10 开始，他们决定在未来所有版本中仅使用版本号进行命名。因此，新的大版本也就顺理成章地被称作 Android 15。不过，谷歌依然保留了内部使用甜点代号的习惯，Android 15 的内部代号为“香草冰淇淋（ Vanilla Ice Cream）”，这个版本即将推出。

在活动上，谷歌宣布对其适用于 Android 设备的 Gemini AI 聊天机器人进行一些改进：Gemini 正在“成为 Android 上新的人工智能助手”。这也意味着大模型现已成为 Android 操作系统的一部分，使其能够以更全面的方式集成。

与底层操作系统的集成后，就能实现一些更酷的功能。Android 上的 Gemini 具有更强的上下文感知能力，可以覆盖在正在使用的任何应用程序之上，因此你无需来回切换。还有一个巧妙的功能，可以让你将图像从 Gemini 应用程序拖放到另一个应用程序中。

很容易看出这项技术的发展方向。一旦 Gemini 能够访问手机的应用程序库，它就能够真正兑现 Humane 和 Rabbit 所承诺的愿景。谷歌表示，它“刚刚开始研究设备上的人工智能如何改变你的手机的功能”，因此我们想象未来至少会与 Uber 和 Doordash 等应用程序集成。

谷歌还向我们展示了直接通过 Pixel 8a 上的 Google Messages 应用程序使用 Gemini 的不同方式。它包括能够分析 PDF 或视频并向 Gemini 提出问题，获得清晰（并引用）的答复。这些功能将在“未来几个月”出现在更多设备上。

低调官宣第六代 TPU，峰值计算性能提高 4.7 倍

此前，软件部分一直是 I/O 大会上的主要部分，本次大会也不例外。大会进行到中途，皮查伊低调宣布了谷歌的第六代张量处理单元 (TPU) 称为 Trillium，将于今年晚些时候向其云客户提供。 TPU 可能不是谷歌当今众多人工智能更新中最华丽的，但它是其人工智能工作的重要组成部分。

据介绍，作为“迄今为止性能最强、能效最高的 TPU”，Trillium 宣称与 TPU v5e 相比，每个芯片的峰值计算性能提高了 4.7 倍。

Gemini 完全在谷歌的第四代和第五代 TPU 上接受训练和服务。包括 Anthropic 在内的其他领先人工智能公司也在 TPU 上训练了他们的模型。

皮查伊表示，“25 年来，我们投资建设了世界一流的技术基础设施。从支持搜索的尖端硬件，到支持人工智能进步的定制张量处理单元。我们将于 2024 年末向我们的云客户提供 Trillium。”

写在最后

皮查伊最后出场总结了这场以人工智能为主的主题演讲，他特别提到今天谷歌提到了 120 次 AI。

一周前，皮查伊接受彭博采访时讲到，谷歌年度开发者大会较少聚焦于特定的产品发布，而更多地聚焦于正在经历的旅程，如何设想人工智能改变谷歌产品的愿景，以及如何逐步将这些变革引入现实。他表示谷歌已经在在搜索中运用了 Transformer 技术，这一技术极大地提升了谷歌搜索的质量，“因此，我们已经在所有产品中融入了 Transformer 技术。”

而且这些产品革新对谷歌来说非常重要：“在技术领域，如果你不持续创新以保持领先，那么任何公司都将不可避免地走向衰败”。

过去十年，谷歌一直自诩为“人工智能优先公司”。然而，随着 OpenAI 推出 ChatGPT 这一划时代的产物，并迅速席卷全球人工智能领域，谷歌的地位受到了前所未有的挑战。

但皮查伊则认为谷歌不能被微软牵着鼻子走，需要有自己的方式，并且更重要的是，我们还处于人工智能的早期阶段：“我从长远的角度说，当互联网刚刚出现时，谷歌当时甚至不存在，对吧？所以我们不是第一家做搜索的公司，我们不是第一家做电子邮件的公司，我们不是第一家构建浏览器的公司。我们还有很长的路要走，我们正处于这场技术革命的初期阶段。”

这次主题演讲，皮查伊诠释了谷歌如何用自己的方式顺应这次技术潮流发展。

原文链接：

幸福双城资讯网

谷歌这次又“杀疯了”！200万token长文本能力问鼎全球最强

因佛科技