谷歌GeminiPro1.5重大更新:新增音频理解、单次处理任何格式数据

数据学习科技行 2024-04-13 13:14:47

Gemini是谷歌发布的一系列大语言模型。最早是2023年12月发布1.0版本,在2023年2月中旬,劈柴哥亲自宣布Gemini Pro升级到1.5版本。Gemini 1.5 Pro是一个全新的MoE模型(Mixture of Experts,混合专家),在各项评测结果中都接近Gemini Ultra 1.0的水平。而在今天,Gemini Pro 1.5再次迎来重大更新,包括音频理解、几乎没有限制的输入格式(一次支持不同模态数据输入,如图片、文档、视频等)以及更强大的函数调用和JSON模式等。本文将介绍这次更新,并做一些简单的实际测试。

Gemini 1.5 Pro简介Gemini 1.5 Pro的音频理解Gemini 1.5 Pro可以理解任意文件Gemini 1.5 Pro如今可以更好地支持Function Calling和JSON模式Gemini 1.5 Pro目前可以免费使用Gemini 1.5 Pro简介

Google发布的Gemini系列模型包含3个不同规模版本,如下表所示:

Model size

Model description

Ultra

Google最强大的模型,能够跨越广泛的高度复杂任务提供最先进的性能,包括推理和多模态任务。它可以高效地在TPU加速器上大规模服务,这得益于Gemini架构。

Pro

在成本和延迟方面经过性能优化的模型,能够在广泛的任务中提供显著的性能。这款模型展示了强大的推理性能和广泛的多模态能力。

Nano

Gemini系列中最高效的模型,设计用于在设备上运行。我们训练了两个版本的Nano,分别为1.8B(Nano-1)和3.25B(Nano-2)参数,针对低和高内存设备。它通过从更大的Gemini模型中提取精华来训练。它是4位量化的,用于部署,并提供业界最佳性能。

其中,Gemini Pro版本在2月中旬更新到了1.5的版本,各项能力有了大幅提升,接近此前发布的Gemini 1.0 Ultra。但这个改进最吸引人的是长达1000万tokens的上下文:

关于Gemini 1.5 Pro发布时的介绍参考DataLearnerAI早先的文章:

只是这个超长上下文此前很少试用。而在Gemini 1.5 Pro发布2个月后的今天,Google再次大幅更新了面向开发者的Gemini 1.5 Pro版本的功能,分别是音频理解、无限制使用文件、更强大的函数调用。

Gemini 1.5 Pro的音频理解

Gemini系列模型一直是多模态大模型。在此前,大家已经发现Google的Gemini模型在图像理解方面非常优秀(也有人质疑官方提供的u哦模特理解能力调用了Google Cloud的接口),关于这部分的信息可以参考DataLearnerAI此前测试的Gemini 1.0 Pro的多模态能力:。

而此次更新后,是Gemini Pro模型首次支持音频理解能力。根据官方的描述,Gemini 1.5 Pro最多可以一次处理9.5小时的音频,更重要的是它不仅仅理解你所说的话,还理解音频背后的语调和情感。在某些情况下,它甚至能理解一些声音,如狗叫和雨落。

9.5小时以及情绪理解是真的很厉害。DataLearnerAI也第一时间测试了一个1分57秒的音频,是美剧西部世界中,西部世界创始人罗伯特·福特与机器人阿诺·韦伯一段对话,Gemini 1.5 Pro分析之后这段音频包含了3540个tokens,几乎是非常快速地就返回了这段对话的内容以及分析结果:

音频来源:https://www.youtube.com/watch?v=S94ETUiMZwQ

可以看到,Gemini 1.5 Pro给出了非常准确的分析,其实这段对话的内容并不容易理解。里面的机器人所有的经历都来自编程结果,因此对自己感受到的痛苦和情感是否是属于真实的感到困惑。但Gemini 1.5 Pro的理解非常准确。

而根据网友的测试,Gemini甚至可以分辨出真实的公众人物,确定音频内容的观点和情绪,非常厉害!

Gemini 1.5 Pro可以理解任意文件

这其实不算是一个完全的本次更新的内容。但是,配上前面的音频文件之后,现在的Gemini 1.5 Pro可以理解文本文件、视频、音频,甚至是可以上传文件夹!

而这个功能最强的但是你可以一次上传多个不同类型的文件进行处理。DataLearnerAI做了如下测试,上传Qwen1.5-32B的word文档,再上传了此前Jamba模型的评测结果图片。然后让Gemini-1.5 Pro把双方的模型评测结果用一个表格总结,结果非常不错。

Gemini 1.5 Pro不仅准确理解了我的意图,也非常准确的提取了数据。

Gemini 1.5 Pro如今可以更好地支持Function Calling和JSON模式

官方说,Gemini 1.5 Pro本次更新后可以更好地使用函数调用和系统指令。可以理解几千种行为并能规划下一步做什么。

这部分就是为AI Agent准备的了。按照谷歌的说法,Gemini 1.5 Pro应该是为任务规划以及函数调用做了特别的优化,因此可以识别使用几千种常见的actions。并可以更好地以JSON的形式返回结果。

Gemini 1.5 Pro目前可以免费使用

Gemini 1.5 Pro本次更新非常值得关注。但更为重要的是目前所有人都可以免费使用。不需要等待。

另一个值得注意的是,官方目前开放的Gemini 1.5 Pro支持在页面可视化操作,也支持API接口免费调用,目前开放100万tokens的上下文输入。免费使用有频次限制:

目前,接口免费,每分钟调用次数不超过2次,每分钟不超过32K个tokens,每天总次数不超过50次,虽然不多,但重在免费!5月2日之后可以付费了。

当然,需要注意地是,Gemini 1.5 Pro支持全球180多个国家和地区,不是所有地方都支持。所以~

有条件的请在Google官网尝试:https://aistudio.google.com/app

0 阅读:0

数据学习科技行

简介:感谢大家的关注