首个 AI 高考评测出分:最高 303 分,数学全部不及格 昨日,上海人工智能实验室和司南评测体系发布了 AI 模型参加高考「语数外」全卷能力测试的结果。 该测试选取了 6 个开源模型以及 GPT-4o 进行,采用了全国新课标 I 卷,参与评测的所有开源模型,开源时间均早于高考,成绩由具有高考评卷经验的教师人工评判。 评测结果显示,Qwen2-72B、GPT-4o 及书生·浦语 2.0 文曲星(InternLM2-20B-WQX)三个模型成为前三甲,得分率均超过 70%。 大部分模型都在语文、英语两个科目上表现良好,但是数学科目全员不及格,InternLM2-20B-WQX 得分 75(满分 150)最高,超过 GPT-4o 的 73 分。
首个AI高考评测出分:最高303分,数学全部不及格 昨日,上海人工智能
绮梅谈科技
2024-06-20 12:43:45
0
阅读:34