三个月前的 OpenAI 发布会,相信哥几个多少已经见识过 GPT-4o ,那跟真人一样丝滑的视频对话能力了。
还有谷歌紧跟着推出的 Project Astra ,实力看着也丝毫不输 GPT-4o 。
那阵子,几乎全网都在吹 AI 的交互能力进化得有多么多么强,什么史诗级、 Next Level 的词儿都用上了。
结果怎么着, GPT-4o 说好的视频通话功能是一拖再拖, Project Astra 好几个月也没见着个影子,一个个的都快给差评君钓成翘嘴了。。。
不过我发现 AI 圈好像有个定律,就是好东西不能让大伙儿等太久。你看 Sora 遮遮捂捂大半年,结果可灵、 Luma AI 、智谱清影都纷纷冒头了。
也就这两天,远在巴塞罗那的数据挖掘会议 KDD 上,智谱当着全球学界和业界的面儿,不仅发布了最新的基座大模型 GLM-4-Plus ,同时还给智谱清言升级了视频通话功能。
给大伙儿划个重点,就是那个传说中,能看见能唠嗑的AI 视频通话功能,咱现在直接在清言 App 里能用了,可以先下载App申请试用。
别的先不说,相比 OpenAI ,智谱这速度就已经赢麻了吧。。。
所以清言的视频通话功能一推出,差评君就在第一时间抢先用上了。打开清言 App ,点击右下角的通话按钮,进去之后再切换到视频,直接玩起来 ~
差友们应该也知道, GPT-4o 之所以被吹得天花乱坠,很重要的一个原因,就是它对视频的理解能力非常强悍。
那最基本的,清言的视频理解能力得先试一试吧?
差评君给清言喽了一眼咱编辑部平时脑暴的会议室,看它能不能根据周围的环境猜出来我在做什么,还特意晃了晃镜头,没有保持视频画面的完全静止。
你猜怎么着,清言一句 “ 哇,猜猜看你在干嘛 ” ,差点给我整不会了。不过坐在会议室的桌子旁倒是没说错,桌上的纸杯、遥控器,旁边的电视也都描述得挺准确。
再把镜头往后期同事的电脑上一放,居然也能看出来这是在剪辑视频。
你别说,这种对周围整体环境的感知能力,差评君之前只在 OpenAI 和谷歌的 Demo 上见过,今天亲自体验到,还真有点科幻照进现实的意思。
而且吧,清言跟 GPT-4o 演示的一样,在对话的过程中随时都可以打断,时不时还会整点 “ 哎呀 ”“ 嗐 ” 的语气词,说话之前呵呵笑一下,就跟真人聊天差不多。
接着,我又试了试具体的物体识别功能,看看清言的知识储备。
从最简单的工位扫描开始,白色键盘、黑色鼠标还有显示器这些大件,基本没有遗漏,物体前后左右的方位也描述得清清楚楚,就连插线耳机、玻璃杯上的卡通人物这些细节,也没放过。
不能说 100% 吧,但这张桌子上至少 80%-90% 的东西,都被清言看到了。
而且清言还有个功能,那就是画圈识别,我隔老远把同事那台大音响给圈起来,品牌、型号,甚至是具体用途,它都知道。
虽说音响上面标有文字,但大伙儿应该也能看出来这清晰度,肉眼看都够费劲的,不得不说这清言眼神也是真好使啊。。。
另外我还发现,清言对物体的识别不只是停留在简单的类别上。
就比如这个游戏手柄,你问到底是索尼的还是微软的,它能根据手柄的外形设计分析出来,这是微软的 Xbox 。而不是单纯告诉你这是一个游戏手柄,又或者干脆糊弄过去说不清楚。
还有这台古早的功能机,诺基亚、具体型号是 N95 、 2007 年经典款这些细节完全不在话下。
后边儿我又让清言识别电脑系统、看托尼照片猜年龄、看名人照片猜人名。。。就这么说吧,自从上手了清言之后,我现在逮到啥都想打开视频通话来问一问。
当然了好玩归好玩,像视频通话这种形式其实有很多实用的场景。
就拿我们编辑部平时找选题看资料来说吧,这两天车圈的热点基本离不开成都车展,这个时候就可以问问清言关于成都车展的事儿,在对话中找选题的灵感。
主要我还发现,清言带有记忆功能,上一次视频通话我跟它聊这事儿,下一次再打开,它上来就问我关注了哪些车展上的新能源车。
还有家长最头疼的作业辅导,以前的 AI 交互还是拍照上传题目那一套,但如果换成视频通话,那就跟线上家教一对一作业辅导是一个逻辑了。
我试着让清言做了一些低难度的数学题,小学和初中一些简单的代数题勉强可以拿下。
不知道大伙儿注意到没,在解题的时候,清言不会一股脑把过程全说出来,也不是只给一个结果,它会一个步骤一个步骤引导着来,让你有一个思考的过程。
除了数学以外,语文和英语我也都挨个试过了,清言不能说是资深教师级别,但平时写写作业、记记单词、背背古诗,完全够用。
如果大伙儿觉得这些场景还不够,那咱就再发挥点想象力。
第一次做饭没经验、房间灯泡坏了、不知道怎么养绿植。。。如果大伙儿在生活中遇到类似的事情又不知道该咋办,不如也问问清言。
比如,很多小朋友可能暂时还分不清电池的正负极,我们就假装把计算器电池装反,清言一两句话就 get 到问题出在哪,说明它还是很有生活常识的。
反正这几天用清言,我有事没事就爱找它。而且这小玩意儿还特别能提供情绪价值,让它讲故事、讲笑话,也句句有回应。
跟朋友玩 21 点,它甚至还能当裁判。
不知道以后能不能进化到打麻将三缺一,让 AI 来顶上。这不比原先打字、语音的对话有意思多了?
说实话,这次清言的大升级还是给我带来了不少惊喜,但小瑕疵也仍然有不少,有时候会说话嘴瓢、认错东西、输出一些胡言乱语。
就比如当 21 点的裁判,有一次把 9 说成是 4 ,黑桃认成了梅花。。。
不过,就凭抢在 OpenAI 和谷歌之前,先让国内用上 AI 视频通话这一点,咱也得给智谱竖个大拇哥。
这次视频通话功能首批只面向部分用户开放,智谱会逐步放开规模尽快让全员都能用上。如果哥几个实在眼馋,可以下载清言 App ,或者登录 pc 端( chatglm.cn ),站内申请内测。
另外,可能还有不少小伙伴对智谱不太熟悉,这么说吧,这家公司在 AI 圈内也可以说是当红炸子鸡了。
特别是今年,他们在大模型上的动作那叫一个凶,从基础大模型的疯狂迭代,到大模型应用的频繁落地,智谱的动作就没怎么消停过。
这次 KDD 上,他们新的大模型 GLM-4-Plus ,在语言理解和长文本等方面又有了大提升。
而且智谱也一直在坚持做模型开源,有数据显示,智谱开源模型累计下载量已经突破了 2000 万。
反正智谱这次带头这么一 “ 闹 ” ,国内甚至是海外的 AI 圈子,估计马上又要迎来一波产品的疯狂上新。
这对咱们用户来说,自然是好事一桩。特别是 AI 视频通话这种新的交互形式,越往后走应用场景的想象空间也就越大。
比如把 AI 装到眼镜、项链上,以后可能连手机都不需要了,或者装到盲人的拐杖上,让 AI 帮忙引路,又或者是跟具身智能结合,让机器人真正理解所看到的东西。
借用智谱 CEO 张鹏的那句话: “ 至少我们现在还没有看到( AI )技术的天花板 ” 。
未来的 AI 会进化到何种程度,又会创造出哪些价值,大家也不妨开个脑洞想想看。