随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。
(资料图片)
2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?
综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT
近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。
“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。
全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:
由伯克利加州大学等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
以及由复旦大学研究团队构建的高考题目评测集Gaokao;
实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
细分科目结果如下表所示。
(图中粗体表示结果最佳,下划线表示结果第二)
AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。
这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。
下列表格中,带GK的是中国高考科目。
(图中粗体表示结果最佳,下划线表示结果第二)
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。
它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。
测试结果可以通过leaderboard获得。
Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。
分项评测:阅读理解、推理能力表现出色
为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。
结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。
知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。
阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。
中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。
多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。
数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。
编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。
此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
(以上图片由商汤科技授权中国网财经使用)
关键词 :
上一篇 : 【快播报】洽洽食品:控股股东拟继续增持公司股份 增持金额3000万元-5000万元
下一篇 : 最后一页
随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度
中国网财经 06-07 21:11:36
随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度
中国网财经 06-07 21:11:36
洽洽食品6月7日公告,6月6日,公司收到控股股东华泰集团的通知,其于6
界面新闻 06-07 21:01:36
洽洽食品6月7日公告,6月6日,公司收到控股股东华泰集团的通知,其于6
界面新闻 06-07 21:01:36
中新网6月7日电(张乃月)今天是伊朗和沙特阿拉伯两国关系中,重要的一天
中国新闻网 06-07 20:45:26
中新网6月7日电(张乃月)今天是伊朗和沙特阿拉伯两国关系中,重要的一天
中国新闻网 06-07 20:45:26
SamAltman的欧洲之行仍在进行中。前不久,在伦敦,他和AI公司HumanLooo
微信公众号:极客公园 06-07 20:46:27
SamAltman的欧洲之行仍在进行中。前不久,在伦敦,他和AI公司HumanLooo
微信公众号:极客公园 06-07 20:46:27
截至2023年6月7日收盘,大有能源(600403)报收于4 15元,下跌1 19%,换
证券之星 06-07 20:18:16
截至2023年6月7日收盘,大有能源(600403)报收于4 15元,下跌1 19%,换
证券之星 06-07 20:18:16
截至2023年6月7日收盘,敦煌种业(600354)报收于6 55元,上涨0 61%,换
证券之星 06-07 20:30:07
截至2023年6月7日收盘,敦煌种业(600354)报收于6 55元,上涨0 61%,换
证券之星 06-07 20:30:07
行情表现6月7日收盘价当日涨跌幅五日涨跌幅沪锌19560 00元 吨1 24%1 66
同花顺iNews 06-07 20:09:51
行情表现6月7日收盘价当日涨跌幅五日涨跌幅沪锌19560 00元 吨1 24%1 66
同花顺iNews 06-07 20:09:51
1、特死七日电视剧老太婆的扮演者是演员李红梅。2、《特死七日》是2015
互联网 06-07 19:56:04
1、特死七日电视剧老太婆的扮演者是演员李红梅。2、《特死七日》是2015
互联网 06-07 19:56:04
第十九届文博会开幕推动中国文化产业发展为期5天的第十九届中国(深圳
新华网 06-07 19:19:26
第十九届文博会开幕推动中国文化产业发展为期5天的第十九届中国(深圳
新华网 06-07 19:19:26
想必现在有很多小伙伴对于老师要求同学们明确目的和态度修改病句方面的
互联网 06-07 19:34:26
想必现在有很多小伙伴对于老师要求同学们明确目的和态度修改病句方面的
互联网 06-07 19:34:26
兴华消费精选6个月持有期混合增聘崔涛冷文鹏离任
中国经济网 06-07 19:25:44
兴华消费精选6个月持有期混合增聘崔涛冷文鹏离任
中国经济网 06-07 19:25:44
1、乡镇财政所职能落实兑现各级惠农补助资金,对农民负担和农村政策实
互联网 06-07 19:12:54
1、乡镇财政所职能落实兑现各级惠农补助资金,对农民负担和农村政策实
互联网 06-07 19:12:54
1、尊敬的华硕用户,您好!您可以参考以下步骤:1 将鼠标移到屏幕左下角
互联网 06-07 19:01:46
1、尊敬的华硕用户,您好!您可以参考以下步骤:1 将鼠标移到屏幕左下角
互联网 06-07 19:01:46
大晟文化06月07日主力资金净流出7017 22万元,涨跌幅为2 04%,主力净量
同花顺AI资讯社 06-07 18:59:10
大晟文化06月07日主力资金净流出7017 22万元,涨跌幅为2 04%,主力净量
同花顺AI资讯社 06-07 18:59:10
人物名片 潘雪雷,芜湖市湾沚区林业服务中心高级工程师,先后获得安
安徽新闻网-安徽日报 06-07 18:29:26
人物名片 潘雪雷,芜湖市湾沚区林业服务中心高级工程师,先后获得安
安徽新闻网-安徽日报 06-07 18:29:26
创元科技(SZ000551,收盘价:9 82元)发布公告称,2023年6月7日星期三
每日经济新闻 06-07 18:49:38
创元科技(SZ000551,收盘价:9 82元)发布公告称,2023年6月7日星期三
每日经济新闻 06-07 18:49:38
6月7日,枣庄市中级人民法院一审公开开庭审理了山东省政协原常委、提案
大河报网 06-07 18:26:17
6月7日,枣庄市中级人民法院一审公开开庭审理了山东省政协原常委、提案
大河报网 06-07 18:26:17
6月6日,我们迎来二十四节气中的芒种,这个时节,我国各地“栽秧割麦两
海口网 06-07 18:18:41
6月6日,我们迎来二十四节气中的芒种,这个时节,我国各地“栽秧割麦两
海口网 06-07 18:18:41
你们好,最近小信发现有诸多的小伙伴们对于苹果6s设置动态壁纸怎么没声
互联网 06-07 18:23:08
你们好,最近小信发现有诸多的小伙伴们对于苹果6s设置动态壁纸怎么没声
互联网 06-07 18:23:08
1、今天正好要用这段就来百度了。2、在第五集翻了一会儿翻到了……第一
互联网 06-07 18:24:07
1、今天正好要用这段就来百度了。2、在第五集翻了一会儿翻到了……第一
互联网 06-07 18:24:07
按下shift按键先找到并按下你的电脑键丽珠盘上面的shift按键,切换到英文输入法状态。键盘下划线怎么打?...
word中_________上打字的方法如下:1、进入word2010,在要设置下划线的位置输入空格,然后选中空格,点...
word横线上打字横线往后移怎么办?选中横线跑的文字,找到输入文字后横线跑的那几个文字,选中文字。查看...
大熊猫有天敌吗?答案是肯定的。野生大熊猫最大的天敌就是豺,确切的说是四川豺。四川豺主要分布在我国的...
充电桩安装需要什么条件?1、运营充电桩需要电动车使用人数多,小区充电使用率到达一定程度,如果使用率...
联系我们:55 16 53 8@qq.com
关于我们| 联系方式| 版权声明| 供稿服务| 友情链接
经济头条 版权所有,未经书面授权禁止使用
Copyright©2008-2020 By www.jingji.net All Rights Reserved