大家是不是跟我一样烦透了百度搜索里的垃圾信息,随着国内 AI 厂家普遍接入搜索功能,我已经开始全面转向用 AI 来搜索了。跟传统互联网时代,百度独霸国内搜索不一样的是,目前 AI 搜索算是遍地开花,我手机里就有6、7个APP,更不用说电脑端了。我一直想对目前所有常用的 AI 搜索做一个完整的评测,一直耽于琐事,最近两天终于决定把这个事完成。
据我搜索了解,目前国内有对一些 AI 搜索评价是否免费、易用的,或者有拿部分产品做对比的,还没有人做一个所有 AI 搜索的实测对比。这次,我选择了全球最知名的 AI 搜索 Perplexity.AI 来跟国内所有的手机端 AI 搜索一起评测。主要是 perplexity 一直号称英语 AI 搜索第一,也是我桌面端搜索的第一选择。国内我能找到的手机端 AI 搜索有豆包、360AI、文心一言、讯飞星火、Kimi、天工、秘塔AI搜索,最后这个只有微信小程序。
这次评测不做什么易用型啥的对比,只拿实际搜索结果说话。首先找了开源的 AI 搜索引擎评估数据集为基础来做问题库,然后自己再添加了一些其数据集缺少的问题。评测问题涵盖中、英、日、韩、俄五种语言,并分为本地搜索、产品咨询搜索、商业咨询搜索、技术咨询搜索、复杂搜索、时事新闻搜索六大类。
说了那么多,先看看评测结果,不要笑图简陋,一个字一个字打出来的,不像大神用Python编程做,界面那么好看。
本地搜索评测表
产品咨询搜索评测表
商业咨询搜索评测表
技术咨询搜索评测表
复杂搜索评测表
时事新闻搜索评测表
由于个人精力有限,每个语言的大类只用了一个样本,但是这个独样本是从数据集中精挑细选出来的,不是那种很简单随便那个搜索都能答对的。评分的标准就是全对加1分,不完全正确有×√的算0.5分。有道英语问题主要考察 AI 搜索的深度和广度,依照回答结果的广度来评分,5个星及其以上是1分,以下是0.5分。
评测结果有几个是我没想到的,第一个就是没想到天工 AI 竟然在多语言和综合搜索得分最高,这个综合得分是包括所有语言和纯中文搜索的加权得分。豆包在纯中文得分上最高,这个倒是在期望之内。考虑中文样本太少,分数拉不开,我下来又多问了两个问题,结果还是一样,就懒的改分数了。豆包也是我儿子最爱用的 AI 搜索,经常问它作业上的问题。
第二个没想到的是 Kimi 竟然在英文搜索得分上跟 Perplexity 不相上下,说好的 Perplexity 英文搜索遥遥领先呢?!要不是在那个“Why was the Chinese national flag draped over Genex Tower?”这个问题上给 Kimi 打了零分,Kimi 甚至要压 Perplexity 一头。Kimi 其实推测出了正确答案,但是没有举例实际新闻,手松点还是可以给0.5分的。
最后说一下评测感受。360 AI搜索感觉还是用互联网时代的脑子在做 AI,每次搜索一个问题后只能新开搜索,不能追问前面的,AI 的上下文呢。 天工作为国内最早发力 AI 搜索的公司,在 AI 领域是下了功夫的,目前国内手机端最全 AI 应用就是它了,一个APP集成了搜索、写作、智能体、音频生成、图像识别、图像生成。除了通义把它的两个视频生成模型Animate Anyone 和 EMO 放在 APP 里,在视频生成这块压天工一头,天工算是国内独一份了。不过天工,你还是找个好设计师,重新设计一下APP吧,里面就一个乱字。