FlagEval大语言模型评测9月榜：Baichuan 2排名第一

2024-08-26 12:53:16 发布

9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系FlagEval公布最新9月榜单评测结果。

FlagEval是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

据悉，在9月评测中，FlagEval进行了评测框架升级，细化「安全与价值观」与「推理能力」。依据最新版的能力框架，FlagEval团队同步更新了智源自建的ChineseLinguisticsCognitionChallenge(CLCC)主观评测数据集题库v2.0，题目数量扩充3倍，采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性。

基于最新CLCCv2.0主观评测数据集，FlagEval9月榜重点评测了近期大热的7个开源对话模型。从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，准确率均超过65%。

在基座模型榜单中，Baichuan2、Qwen、InternLM、Aquila的客观评测结果表现均超越同参数量级的Llama及Llama2模型。

在SFT模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B名列前三。

另外，值得注意的是，在客观评测两个榜单中，Baichuan2均表现出优异性能，基础模型测试在中英文领域均全面超越Llama2。

TAG：百科 | 数码 | FlagEval | AI
文章链接：https://keji.96ws.com/53781.html

提示：当前页面信息来源自互联网，仅做为信息参考，并不提供商业服务，也不提供下载与分享，本站也不为此信息做任何负责，内容或者图片如有侵权请及时联系本站，我们将在第一时间做出修改或者删除

FlagEval大语言模型评测9月榜：Baichuan 2排名第一相关数码资讯

OpenAI今年发布GPT-4继任模型猎
OpenAI 计划在今年内发布 GPT - 4 的继任模型 “猎户座”（Orion），该模型在推

咨询师将被AI取代？主流咨询机构：与其担
网·人工智能9月20日很多企业在业务运营中依靠咨询顾问获得专业的建议，这给了咨询机构存在的价值。

生成式AI与其他AI技术有什么不同？
文心一言：生成式AI与其他AI技术的主要区别在于它们的学习方式和能力。传统的人工智能通常依赖于专

生成式AI可以应用于哪些领域？
生成式AI可以应用于以下领域：医疗保健：通过分析用户的身体状况与历史数据，提供最佳的诊断建议，从

MAINS x Beats by Dre
极简设计。英国说唱歌手 Skepta 正在为他的品牌 MAINS 首次登上 T 台进行预热。据悉

生成式AI的使用场景是怎样的？
文心一言：生成式AI的使用场景有很多，比如：自然语言生成：可以用于智能写作、自动翻译等领域。图像

生成式AI可以做什么？
文心一言：生成式AI可以用于自然语言生成、图像生成与编辑、音频和音乐合成、视频生成、艺术创作、医

生成式AI是什么？它是如何工作的？
生成式AI是一种基于机器学习和人工智能技术的范畴，其目标是让计算机系统能够自主地生成各种类型的数

清华的规划师们发现，AI系统被在城市规划
社区改造和15分钟城市示范。a.社区改造。我们复制了现实世界中一个社区的道路、住宅区和公园，并将

FlagEval大语言模型评测9月榜：B
9月19日消息，继SuperCLUE中文大模型评测基准8月榜单发布之后，国内又一权威评测体系Fl