首个AI高考评测出分：最高303分，数学全部不及格昨日，上海人工智能

绮梅谈科技 2024-06-20 12:43:45

首个 AI 高考评测出分：最高 303 分，数学全部不及格昨日，上海人工智能实验室和司南评测体系发布了 AI 模型参加高考「语数外」全卷能力测试的结果。该测试选取了 6 个开源模型以及 GPT-4o 进行，采用了全国新课标 I 卷，参与评测的所有开源模型，开源时间均早于高考，成绩由具有高考评卷经验的教师人工评判。评测结果显示，Qwen2-72B、GPT-4o 及书生·浦语 2.0 文曲星（InternLM2-20B-WQX）三个模型成为前三甲，得分率均超过 70%。大部分模型都在语文、英语两个科目上表现良好，但是数学科目全员不及格，InternLM2-20B-WQX 得分 75（满分 150）最高，超过 GPT-4o 的 73 分。

0 阅读：34

绮梅谈科技

感谢大家的关注

作者最新文章

1

一加冰川电池有点厉害：6100mAh 配备 100W 闪充在昨日的一加冰川电

2

【“古波斯的荣耀：伊朗文物精华展”启幕】 2024年6月12日，上海博物馆携手伊

3

台积电获 Intel 3nm PC 处理器订单，含酷睿 Ultra 200 全系

4

首个 AI 高考评测出分：最高 303 分，数学全部不及格昨日，上海人工智能

5

OpenAI 前首席科学家创办 AI 初创公司，聚焦人工智能安全 OpenAI

6

全国高温天气持续近半个月自 6 月 7 日起，全国高温预警已连发 13 天。

7

高脂肪食物可能会加剧焦虑当压力过大时，许多人会转向垃圾食品寻求安慰。但科罗拉

8

法国电价降至负值由于电力需求下降以及可更新能源发电量大幅增长，法国电价降至负

9

越南三条海底光缆下线越南五条主要海底光缆中的三条周末下线，这是该国一年多来第

10

三星决定投资 GPU 正面与 NVIDIA 竞争据韩国媒体报道，三星电子近日

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米汽车在安徽高速上的事故，让人万万没想到的不是车门锁死，里面的人出不来，也不是

2

提前曝光vivo新机涉事方已担责这是vivo法务部发的第一条微博。虽然我们都很期

3

曝iPhone19Pro外形颠覆我很好奇，iPhone的外形还能有啥颠覆的呢？

4

伤害不大，侮辱性极强。抄袭是可耻的华为手机发布会之后，全体都沉默了就连库克和

5

李嘉诚结局已定！和马云的结局惊人相似！还记得马云的蚂蚁金融，在香港

6

这就是中美AI之争奉陪到底的底气！就在刚刚，斯坦福公布重磅数据，中国追平美国！

7

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

8

曝iPhone19Pro外形颠覆今年的17算是比较大更新了全玻璃确实是苹果自

9

OPhone的含金量还在上升不得不说今年的X8系列真的好顶，不论是从产品力还是外

10

苹果不会在美组装iPhone这很正常！苹果要是真把iPhone生产线搬回美国，

科技最新文章

1

还有必要看发布会吗？荣耀GTPro就直接公布价格就行了，这配置基本上就是这个样

2

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

3

2007年3月，中国联通全面关闭中国寻呼网络，然而内蒙古仍有一台BP机在倔强震动

4

不少年轻人流行用iPhone6拍照我的第一台iPhone，就是iPhone6

5

广州AI洗头19元一次近日广州出现多家AI洗头店，好想体验下，每次去理发店，总是

6

是我错了，之前猜测荣耀Power售价大概是1999元，不过按照已知的信息，大概率

7

董宇辉直播的时候，被问到为啥直播间不卖华为手机啦。他说：“我们去谈啦，华为那

8

苹果死守中国绝不是因为廉价，之前我还发帖说过这个。咱国家胜在技能数量和质量，庞大

9

苹果死守中国绝不是因为廉价供应链管理大师库克说的当然没错。人才数量，产业链等等

10

中国制造早已不是廉价标签，而是硬核技术的体现！苹果的精密制造高度依赖中国产业链的