我的智能助手又get了一项新技能。
文|周享玥
编|牛慧
OpenAI带着GPT-4o的AI实时视频通话功能深夜炸场三个月后,国内首个面向C端开放的AI视频通话终于要来了。
8月29日,智谱宣布,清言App将于8月30日正式上线“视频通话”功能,首批面向清言部分用户开放,并同时开放外部申请。“我们会持续迭代并逐步放开规模,尽快让全员都可以使用。”智谱方面表示。
今年5月,OpenAI率先掀起波浪,其全新一代旗舰生成模型 GPT-4o,无需借助语音转文字功能,即可直接通过实时音视频,实现“真人般”地丝滑交互。随后,多家国内外大模型厂商纷纷迅速跟进,开始推出各种支持端到端实时多模态的AI功能。
6月,AI初创公司Character.AI推出一项通话功能,允许用户与其人工智能角色进行语音对话。7月,商汤科技在WAIC 2024上,现场演示新模型日日新5o的实时音视频交互能力。8月9日,字节跳动旗下火山引擎宣布,豆包大模型支持实时语音通话。而微软AI据称将在今年年底拥有实时的语音界面,允许完全动态的交互……
不过,这些或都暂时不涉及实时视频功能,又或暂未对C端开放。智谱最新上线的视频通话功能,也因此成为国内首个面向C端个人用户开放的AI视频通话。
这一功能的实际使用效果到底如何?都有哪些优缺点?数智前线提前试了试。
优点一,入口显眼,操作简单。在进行最新版本更新后,打开清言APP,即可在主界面上的输入框旁看到一个“电话”图标,点击可进入实时音频通话,再点击通话界面的“视频”按钮,则可进入视频通话模式。
优点二,通话流畅,可随时打断。这个名叫“小智”的助理,在通话过程中表现得更加“像真人”,能理解摄像头拍摄到的内容,也能听懂指令并准确执行,基本在听到语音一两秒内即能给到回复,且即便频繁打断“小智”的话,它也能迅速反应。
比如当我们将视频画面对准一本书时,它能迅速识别出这本书的名字、作者,并进行相关背景介绍。当选中“画笔”按钮,还可以在视频中圈出对应的物体或文字段落,实现更精准的提问和回答。
优点三,有记忆能力,情绪价值拉满。比如,当我们在前一次通话中,与“小智”交流过绿植养护的话题,一段时间后再次打开视频通话时,它会主动打招呼,并发起话题——“家里的桂花长得怎么样了?”
当然,这个AI助理,也有不足之处。
比如,它并不是每一次识别都能十分准确,当我们让它分辨一些盆栽时,它可能会将金鱼草误认为豆瓣绿,将未在花期的桂花树误认为茉莉花。
又比如,它暂时“只读到了初中水平”,也还没有联网搜索的能力,当被问及一些超出范围的问题时,则无法作答。
但不难预见,随着技术的快速发展和更多厂商对AI实时音视频方向的押注,类似的AI助理会越来越智能化。比如,通过与AI的实时音视频互动,用户可以让其充当生活助手,提供穿搭技巧、识别场景讲述背景故事;也可以让它成为工作伙伴,进行面试指导、实时解读电脑屏幕代码、完成会议纪要、分析复杂数据图表;还可以作为学习搭子,实时读屏翻译、辅导各科作业……
除了视频通话功能正式上线,智谱的大模型技术也在最近迎来了一次大上新。
8月25日至29日,为期5天的国际知识发现与数据挖掘大会KDD 2024在西班牙巴塞罗那举办。作为全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,KDD 2024吸引了数千名来自世界各地的顶尖学者和知名企业代表参会,智谱 GLM 团队也在这场大会上,介绍了自己新一代的基座大模型——GLM-4-Plus。
据介绍,GLM-4-Plus 使用了大量模型辅助构造高质量合成数据,以提升模型性能;同时,利用PPO(Proximal Policy Optimization)有效有效提升模型推理(数学、代码算法题等)表现。这也让其在语言理解、指令遵循、长文本处理等方面的性能,都有进一步提升。
例如,在语言文本能力方面,智谱方面表示,GLM-4-Plus已经取得与GPT4o及405B参数量的Llama3.1相当的成绩。
目前,GLM-4-Plus 已在智谱大模型开放平台部署,企业和开发者即日起可以通过智谱开放平台 bigmodel.cn 上的 API 调用智谱最新的基座大模型。GLM-4V-Plus也将上线开放平台,提供国内首个通用视频理解模型 API。
就在这两天,CogVideoX-5B正式开源,同时此前已开源的CogVideoX-2B 也调整为了更加开放的Apache 2.0协议,任何企业与个人均可自由使用。CogVideoX是由智谱AI开发的视频生成大模型,而CogVideoX-5B 模型相较于 CogVideoX-2B 拥有更高的视频生成质量。
另外,GLM-4-Flash目前也已完全免费,成为智谱开放平台首个完全免费的大模型API。“智谱开源模型累计下载量现已突破2000万次。”智谱方面表示。