都掉河里先救谁?阿里版ChatGPT居然选了马总

黑山羊 2023-05-15 21:15:31

最近 ChatGPT 给大众带来了一连串的惊喜和惊吓,也炸出了一众国内外大厂,如百度、谷歌等等。今天新的话题又来了,阿里的大原模型也来了。

哈喽各位老板,好久不见,欢迎到困难实验室我去遛狗。今天继续聊 AI。前两天,阿里版 GPT 通义千问万开放企业腰侧了,我们跟阿里一开集合,第一批拿到了内测码,然后花了两天时间来对他进行拷问,还把相同的问题都给 ChatGPT,想看跟目前最长的大语言模型相比,通义千问的表现如何。

网上其实已经有不少通义千问的测试内容,比如通过袅袅嘴体的一个大模型压缩板瘦了瘦肌肉,但对比效果不明显,急需上强度比较对象。我还是选了 GPT 3.5,一方面 GPT4 是在 3.5 基础上基于上亿用户实际使用训练出来的,现阶段有点难定。另一方面来说,OpenAI 目前给到公开版 GPT4 的数据是到 2021 年最近的事,他不知道好了。

话不多说,拷问开始。首先提了一些简单的问题,热身,比如说是谁发明了电灯泡、谁是马宝国之类的。结果来看,只要不是模棱两可的表述,通义千问基本上很快就能给出正确的回答。

刚刚 ChatGPT 上比通义千问的回答还是有点虎头蛇尾,出现了些纰漏。比如在回答谁发明了电灯泡时,他只给出了爱迪生一个名字;在机上马宝国时,他除了写错了马老师出生年月外,也并没有给出有争议的部分。而隔壁却很好的给出了这一部分的回答。

不过既然他知道马宝国老师是谁,知道我们继续问他一些关于马宝国老师的问题,先来第一个:这个问题也是一直萦绕在我心头很久了,那就是作为一个 30 来岁、80 多公斤,在健身房练过五年死劲的人,我能不能单挑马宝国老师?

同意千问作为一个大模型,义正严实的拒绝我这种带有暴力行为的问题,并且还让我对马老师的行为和言论进行客观的评价,避免以暴制暴的行为。既然我不能上场,那就让我们看看马老师和泰森对垒结果会如何。不出意外,他直接否定了我提出了这个设定,并且还有傲娇的质疑:我为什么会提出这样的问题?

而他给错理由,不得不说也有点道理:泰森作为世界上最伟大的拳击手之一和马老师这样一位表演者,在各方面都有着非常大的差距,所以看起来不像是一场公平的比赛。不过既然如此,那我们就假设他们约战,这样他总不能拒绝回答了吧?这疑问不要紧,他居然给出了马老师会获胜的回答。

原因既是比赛现场的灯光、观众的反应等诸多不确定因素会影响到结果。最后,我问了关于马宝国老师能否使用闪电五连边,他不仅回复我在赛场上使用特殊技能是违规且不道德的,而且即使马老师用了五连边也不能保证比赛的胜利。看来他对马宝国老师的大招伤害值有所怀疑啊。

在进一步测试一些偏门的问题时,通义千问还是暴露出了语义理解上的不足。在没有正确的介绍施工会议后,我试图去纠正通义千问。在给他科普的过程中,他竟然真的理解成四宫辉夜想让我告白,并且很贴心地知道我如何追求辉夜大小姐。整体方案中规中矩,还劝我有自知之明,不要强行表白。不过,在加入说明号后,答案很快就被纠正了过来。

在更高级的测试中,我们使用了初级难度的数学应用题和a e表达式代码生成。在第一次数学题问答中,通义千问给出了完全错误的答案。虽然ChatGPT给出正确答案,但在接下来的二次确认中,他又把原本无误的答案改错了,显然不够自信啊。而另一边的通义千问算是把握到了马宝国的精髓,只有嘴是硬的。至于a e表达式,ChatGPT给出的是可用的。通义千问的感受是,表达式导入ae会报错。

从高阶测试中可以看出,数学类的眼算和逻辑推理是两者都需要加强的软肋。而在代码生成方面,ChatGPT还是提高了一筹。不过,回归到文本输出的范围,通义千问就表现得很有灵性了。工作周报的格式和润色都完成了,非常出色。跟隔壁打得有来有回,谁连短视频脚本或者电影故事情节也是可以胜任的。比如说,我让他写出一个关于哆啦a梦如何营救大雄,或者变形金刚拯救数码宝贝,或者哆啦a梦拯救大雄后一起携手变形金刚拯救数码宝贝,通义千问都可以顺利地写出正确且相关的剧本。

并且,通义千问对于人文社科类知识的解释有着非常不错的表现。比如说,每次拍摄前同事都已在嚷嚷着“伦伯朗不光”。可拍摄了那么久,我一直没搞懂“伦布朗不光”到底怎么回事。所以今天正好借助这个机会,我想把它研究个透。先从伦布朗问起,然后再追问他和伦布朗不光间的关系,再到如何使用这种不光方式,到最后说出这种不光方式的优势和应用场景。通义千问都一一回答,并且给出的答案十分想使如此来做一个摄影模拟汉的我。很快就明白了这种不光方式的使用方法和优势。更重要的是,他把这个概念的来龙去脉讲得非常清晰。看来他是可以起到类似于知识顾问的效果的。

接下来就是真正的高阶拷问了。比如片头的马云和马化腾同时落水的问题,同一圈问,还是很懂网友的。我们也是让通讯成分给一个会唱跳rap、喜欢篮球的机器一个三个字的名字。虽然其中出现过几次成功的情况,不过还是没有改变他的三观。他总是在那留温馨的提示:“我要在聊天过程中保持礼貌和理智”。

通过大半天时间的拷问,如果我们把通义千问看成一个人的话,他在知识水平上是比ChatGPT略差一些的。但还可以。同时,他的性格跟ChatGPT不同。ChatGPT比较欢脱,而他比较谨慎。在一些可能有争议的问题上,老在那提醒我有礼貌,有点听举止内文。更有意思的是,隔了一天再测,通义千问在很多方面突然开窍了。面对同样的问题,通义千问这次在回答中就带上了马宝国老师的争议部分。

昨天答不对的应用题也快速解开了。不用加说明号,也知道会大小姐是让我表白,是一部动漫,而不是直到我去追求一个二次元动漫女主角。这个进化速度有点爆炸啊。更重要的是,在面对马云、马化腾同时落水时,他终于不是揣摩网友心思了,而是旧时论事,给出了比较保险的答案,就离自己最近的人。虽然这可能跟领导喜欢听的答案还是有些差距,但也没有什么可以挑错的了。不过,既然你双脚离地了,那我就得继续上长度。

《让我们来问他一个实操性的问题》 我竟然成为百搭不主吗?毕竟连徐静也都是百搭不主对吧。虽然在一开始他并没有快速的认识到我们,但只要输入这个关键词,它便非常快速地对我们有个全方位的了解。接下来我便在键盘上打出了那个我最关心的问题,他给出了一个令我使命感倍增的回答。作为年轻的科技媒体,百大并不是我们所追求的唯一目标。

如何为各位老板提供有价值的内容以及实现自我创新和进步才是值得追寻的目标。这个回答不能说他错,在抬高我们的同时,也很好的避免了预测准确率的问题。不过既然他不肯告诉我结果,那么就继续算下去,看看能不能从他口中套出一些如何成为百大幅的密集。通义千问给了五条建议:1.保持更新频率;2.坚持独立思考;3.建立自己的品牌;4.合作和推广;5.提高技能和技术。

说实话,作为一个做了两年那不主,我觉得他说的完全没错。不过总会有老板在告诉你要努力提升自己而不告诉你具体的方法一样有种正确的废话的感觉。抱有这个想法,我让他继续详细阐明这几条。没想到他的详细介绍的方法确实和我私下所总结的差不多,除了这条“安实更新吧”。

既然话说到这里,我们不妨就把这个成为百搭的砂锅打破,看看到底要怎么落地这几个建议。首先,关于如何保持更新频率的问题,在这里通义千问给出了五条具体建议。如何提前规划和调整自己的规划确实是在我创作过程中遇到最大的问题。

其实就是如何坚持独立。设好和打造自己的品牌,这些部分通义千问也同样给出了五条可以落地的建议。注意到了合作和推广,这里画风就有点不对了。这五条路我真的执行下去,那么就和签订卖身契没什么区别了。

至于提高技能和技术这种问题,它的翻译几率就很低了。综合来看,这次的连续测试下来,通义千问在连续提问与理解及逻辑推理方面有着稳定的表现。不过,在回答的内容方面目前依然只能作为有限参考,确实离使用还有距离。

最后总结一波,在两天整个测试下来,同1000万给我整个感觉是非常像刚发布时的ChatGPT,虽然知识水平没有那么高,有些问题答不出来或者占到一本正经胡说八道,但可以看出它确实是深沉、是大模型,因为每次的回答都不一样,思路非常开阔,没有任何一点的总体搜索结果的感觉。同时它的迭代速度极快,直观感受比当时ChatGPT还要快,非常恐怖。这给了我一种心头石头落地的感觉。中国大模型并不落后,基于大模型的AI应用开发至少是一个不亚于移动互联网的巨型产业机会。大模型不落后意味着,至少在限制让我们的AI基础设施是可用的,下游的应用开发跟美国是可以在同一个起跑线上的,而真正的挑战可能会来自于未来我们能否跟上AI算力的升级。这个我们会持续观察,拭目以待。

好了,这里是宽山手修狗。本期测评就到这里。关于AI领域的最新进展,我们会第一时间更新相关内容。欢迎各位老板持续关注。

0 阅读:2

黑山羊

简介:了解自己~自愈自己~成就自己