您当前的位置：首页 >> 快讯 > >>

中文通用大模型评测基准SuperCLUE发布：讯飞星火大模型国内第一文心一言垫底天天关注

来源: 快科技时间：2023-05-09 17:00:15

快科技5月9日消息，中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准，它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

(资料图片)

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

根据首个榜单显示，国内大模型中，近期发布的星火认知大模型最好，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是，讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面，已经达到GPT 3.5平齐的水准。

在语义理解方面，讯飞星火认知大模型甚至得到100分的满分，超过GPT-4。

而百度文心一言在总榜单中排名最后一名，得分32.61分。

据了解，SuperCLUE评测榜单由三部分组成：总榜单、基础能力榜单、中文特性榜单，排行榜会定期更新，可点此访问.

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

基础能力榜单

中文特性榜单

标签：

俄罗斯重返全球十大经济体行列，近 8 年来首次，原因是它做对了这些事情环球新要闻

俄罗斯是一个拥有丰富的能源和矿产资源的国家，也是全球重要的军事和政治力量。然而，在过去的几年里，俄罗

来源：金融界时间：2023-05-09
我的逆天神器第二季_我的逆天神器当前最新

1、网络动画《我的逆天神器》改编自网络漫画《我的逆天神器》作者猫妖×毒哥、涌泉。本文分享完毕，希望对

来源：互联网时间：2023-05-09
员工虚假打考勤多要加班费，法院这么判

2015年，肖某入职某绿化公司，先后担任司机、工程负责人。2021年6月15日，肖某与该公司解除劳动关系，并要

来源：现代快报全媒体时间：2023-05-09
山东学生身高全国第一？高于全国平均水平，但输给了黑龙江

人民日报健康客户端林敬近日，话题“山东高中生平均身高1米8”引发热议，很多山东网友纷纷晒出身边人的身高

来源：极目新闻时间：2023-05-09
浐灞第十八小学在区级艺术展演活动中荣获佳绩

记者日前从西安市浐灞第十八小学了解到，在2023年西安浐灞生态区第四届中小学艺术展演活动中，该校荣获朗诵

来源：阳光网-阳光报时间：2023-05-09

俄罗斯重返全球十大经济体行列，近 8 年来首次，原因是它做对了这些事情环球新要闻

我的逆天神器第二季_我的逆天神器当前最新