小学生数学题,只有4家主流大模型答对

科财小官 2024-07-19 14:06:27

自从OpenAI在2022年末推出ChatGPT后,大模型就一直被科技界吹了两年。人们也以为大模型是无所不能,很多人还担心自己的工作会被取代。

但如今看来,人们还是过度担忧了。最近媒体开始密集曝光大模型的短板,连小学生数学题都能答错。

比如:你问它,9.11和9.9哪个大?大多数主流大模型都答错了。

这是国内某知名媒体对12个大模型做的行业测试,有8家答错,只有四个大模型给出了正确答案,他们分别是:腾讯元宝、阿里通义千问、百度文心一言和Minimax。

对此,有大模型企业人士表示,对于大模型而言,这不是很难解决的技术难点,只要喂了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。

但有行业人士认为,生成式的语言模型从设计上就更像文字思维而不是数字思维。简单说,就是偏科,文科强理科弱,这个情况在一段时间内不会得到明显的改善。

在此之前,今年6月,上海人工智能实验室就对7个大模型进行高考“语数外”全卷能力测试。结果显示,三科总分420分,但大模型最高分仅303分。在这三科中,语文、英语表现相对良好,但数学全不及格。

但那些无脑吹们可以歇歇了,大模型并不是魔术,做出一个优秀的、令人放心的大模型需要技术积累,不信请看:答对的四个大模型中的三个来自互联网传统大厂BAT。

与其畅想星辰大海,不如踏踏实实做研发吧,起码先让小孩哥用的放心。

0 阅读:9

科财小官

简介:产业论道 热点快评