当我和大模型做了一次视频通话 - 科技资讯(幸福双城资讯网)

我的智能助手又get了一项新技能。

文｜周享玥

编｜牛慧

OpenAI带着GPT-4o的AI实时视频通话功能深夜炸场三个月后，国内首个面向C端开放的AI视频通话终于要来了。

8月29日，智谱宣布，清言App将于8月30日正式上线“视频通话”功能，首批面向清言部分用户开放，并同时开放外部申请。“我们会持续迭代并逐步放开规模，尽快让全员都可以使用。”智谱方面表示。

今年5月，OpenAI率先掀起波浪，其全新一代旗舰生成模型 GPT-4o，无需借助语音转文字功能，即可直接通过实时音视频，实现“真人般”地丝滑交互。随后，多家国内外大模型厂商纷纷迅速跟进，开始推出各种支持端到端实时多模态的AI功能。

6月，AI初创公司Character.AI推出一项通话功能，允许用户与其人工智能角色进行语音对话。7月，商汤科技在WAIC 2024上，现场演示新模型日日新5o的实时音视频交互能力。8月9日，字节跳动旗下火山引擎宣布，豆包大模型支持实时语音通话。而微软AI据称将在今年年底拥有实时的语音界面，允许完全动态的交互……

不过，这些或都暂时不涉及实时视频功能，又或暂未对C端开放。智谱最新上线的视频通话功能，也因此成为国内首个面向C端个人用户开放的AI视频通话。

这一功能的实际使用效果到底如何？都有哪些优缺点？数智前线提前试了试。

优点一，入口显眼，操作简单。在进行最新版本更新后，打开清言APP，即可在主界面上的输入框旁看到一个“电话”图标，点击可进入实时音频通话，再点击通话界面的“视频”按钮，则可进入视频通话模式。

优点二，通话流畅，可随时打断。这个名叫“小智”的助理，在通话过程中表现得更加“像真人”，能理解摄像头拍摄到的内容，也能听懂指令并准确执行，基本在听到语音一两秒内即能给到回复，且即便频繁打断“小智”的话，它也能迅速反应。

比如当我们将视频画面对准一本书时，它能迅速识别出这本书的名字、作者，并进行相关背景介绍。当选中“画笔”按钮，还可以在视频中圈出对应的物体或文字段落，实现更精准的提问和回答。

优点三，有记忆能力，情绪价值拉满。比如，当我们在前一次通话中，与“小智”交流过绿植养护的话题，一段时间后再次打开视频通话时，它会主动打招呼，并发起话题——“家里的桂花长得怎么样了？”

当然，这个AI助理，也有不足之处。

比如，它并不是每一次识别都能十分准确，当我们让它分辨一些盆栽时，它可能会将金鱼草误认为豆瓣绿，将未在花期的桂花树误认为茉莉花。

又比如，它暂时“只读到了初中水平”，也还没有联网搜索的能力，当被问及一些超出范围的问题时，则无法作答。

但不难预见，随着技术的快速发展和更多厂商对AI实时音视频方向的押注，类似的AI助理会越来越智能化。比如，通过与AI的实时音视频互动，用户可以让其充当生活助手，提供穿搭技巧、识别场景讲述背景故事；也可以让它成为工作伙伴，进行面试指导、实时解读电脑屏幕代码、完成会议纪要、分析复杂数据图表；还可以作为学习搭子，实时读屏翻译、辅导各科作业……

除了视频通话功能正式上线，智谱的大模型技术也在最近迎来了一次大上新。

8月25日至29日，为期5天的国际知识发现与数据挖掘大会KDD 2024在西班牙巴塞罗那举办。作为全球数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，KDD 2024吸引了数千名来自世界各地的顶尖学者和知名企业代表参会，智谱 GLM 团队也在这场大会上，介绍了自己新一代的基座大模型——GLM-4-Plus。

据介绍，GLM-4-Plus 使用了大量模型辅助构造高质量合成数据，以提升模型性能；同时，利用PPO（Proximal Policy Optimization）有效有效提升模型推理（数学、代码算法题等）表现。这也让其在语言理解、指令遵循、长文本处理等方面的性能，都有进一步提升。

例如，在语言文本能力方面，智谱方面表示，GLM-4-Plus已经取得与GPT4o及405B参数量的Llama3.1相当的成绩。

目前，GLM-4-Plus 已在智谱大模型开放平台部署，企业和开发者即日起可以通过智谱开放平台 bigmodel.cn 上的 API 调用智谱最新的基座大模型。GLM-4V-Plus也将上线开放平台，提供国内首个通用视频理解模型 API。

就在这两天，CogVideoX-5B正式开源，同时此前已开源的CogVideoX-2B 也调整为了更加开放的Apache 2.0协议，任何企业与个人均可自由使用。CogVideoX是由智谱AI开发的视频生成大模型，而CogVideoX-5B 模型相较于 CogVideoX-2B 拥有更高的视频生成质量。

另外，GLM-4-Flash目前也已完全免费，成为智谱开放平台首个完全免费的大模型API。“智谱开源模型累计下载量现已突破2000万次。”智谱方面表示。