小学生数学题，只有4家主流大模型答对

自从OpenAI在2022年末推出ChatGPT后，大模型就一直被科技界吹了两年。人们也以为大模型是无所不能，很多人还担心自己的工作会被取代。

但如今看来，人们还是过度担忧了。最近媒体开始密集曝光大模型的短板，连小学生数学题都能答错。

比如：你问它，9.11和9.9哪个大？大多数主流大模型都答错了。

这是国内某知名媒体对12个大模型做的行业测试，有8家答错，只有四个大模型给出了正确答案，他们分别是：腾讯元宝、阿里通义千问、百度文心一言和Minimax。

对此，有大模型企业人士表示，对于大模型而言，这不是很难解决的技术难点，只要喂了这方面的数据，就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

但有行业人士认为，生成式的语言模型从设计上就更像文字思维而不是数字思维。简单说，就是偏科，文科强理科弱，这个情况在一段时间内不会得到明显的改善。

在此之前，今年6月，上海人工智能实验室就对7个大模型进行高考“语数外”全卷能力测试。结果显示，三科总分420分，但大模型最高分仅303分。在这三科中，语文、英语表现相对良好，但数学全不及格。

但那些无脑吹们可以歇歇了，大模型并不是魔术，做出一个优秀的、令人放心的大模型需要技术积累，不信请看：答对的四个大模型中的三个来自互联网传统大厂BAT。

与其畅想星辰大海，不如踏踏实实做研发吧，起码先让小孩哥用的放心。

幸福双城资讯网