2024-06-30
甲骨易AI 研究院“超越”中文大模型测试集正式发布-万事数码网
数码
页面更新时间:2024-06-30
新闻网
百科网
数码网
汽车网
宠物网
植物网
英语网
财经网
美食网
母婴网
联系我们
SITEMAP
万事数码网

甲骨易AI 研究院“超越”中文大模型测试集正式发布

2024-06-27 16:53:17 发布

5月22日消息,近期中文大语言模型蓬勃发展,但却一直少有出现可应用于评测”大模型能力“的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配“测试中文大模型”的数据集,并将其命名为“超越”,MMCU(MassiveMultitaskChineseUnderstanding)。5月20日,甲骨易AI研究院“超越”中文大模型测试集正式发布。

据介绍,“超越”的意义是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其“越”来越强大。这里“超”和“越”要单独来理解,并不是超越别人的意思。

甲骨易AI研究院首席研究员Felix透露,4月推出了MMCU的测试集和测试方法。数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到1万+,其中包括医疗领域2819道题,法律领域3695道题,心理学领域2001道,教育领域3331道。

“我们是把大模型当作一个真正的人类来看待,”Felix表示,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。

“所有题目都不是从网络上直接能够抓到的,而是由大量的人工整理,尽可能确保不会出现在大模型的训练数据中。而整套的测试集涵盖的领域能够确保模型测试的知识的广度和深度,从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。”Felix说到。

中国科学院大学网络数据重点实验室的咸宁针对MMCU测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题

通过大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。

“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。


TAG:百科 | 数码 | 甲骨易 | AI | 人工智能
文章链接:https://keji.96ws.com/51455.html
提示:当前页面信息来源自互联网,仅做为信息参考,并不提供商业服务,也不提供下载与分享,本站也不为此信息做任何负责,内容或者图片如有侵权请及时联系本站,我们将在第一时间做出修改或者删除
旅游
微软要AI不要“爱”,开足马力All i
网·人工智能5月26日微软之所以全力下注AI技术,原因相当简单:它坚信只要成为AI领导者就可以再
生成式人工智能:构成犯罪滥用的风险
生成式人工智能:构成犯罪滥用的风险黑客对生成式人工智能(AI)的使用已成为对网络安全的新威胁。生
机器人+AI,乐森打造全新家庭娱乐场景互
【Techweb】5月25日,消费级机器人品牌「ROBOSEN」乐森机器人(以下简称:乐森)在北
IDC:2023年亚太地区三分之二的组织
5月25日消息IDC近日发布的一份报告显示,2023年亚太地区三分之二的组织正在探索或已经投资生
新 MacBook Air 或采用白色机
和 24 寸 iMac 一样会有更多色彩选择。在新款 MacBook Pro 才刚刚发布不久后,
当前页面更新时间:2024-06-30
知识本站内容和图片均来自互联网,仅供读者参考,请勿转载与分享,如有内容和图片有误或者涉及侵权请及时联系本站处理。
化妆品整形问答价格减肥美妆美容心理中药咨询医院养生知识健康景点景区酒店旅行旅游问题排名品牌期货原油培训大学听力口语语法托福雅思外教英语高考学校教育母婴美食植物宠物手机数码生活百科球星主播导演明星动漫综艺电视剧电影潮牌篮球足球体育游戏穿搭时尚球鞋潮流影视娱乐网红