注册

聊天灌水关注关注：60 内容：2141

C-Eval 一个适用于大语言模型的多层次多学科中文评估套件

查看作者

打赏作者

当前位置：七七博客 > 聊天灌水 > 正文

VIP2

说明

提供了一个涵盖52个不同学科的13948道多项选择题,并根据模型在这些题目上的表现得出综合排行。

介绍

多学科评估 – C-Eval考察了语言模型在52个不同学科领域的理解能力,包括常识、生物、历史、地理等,可以全面而准确地评估模型的语言理解广度与深度。
四个难度级别 – C-Eval的题目分为初级、中级、高级和专家四个难度级别,可以测评模型在不同难度场景下的应用潜力。
排行榜 – C-Eval根据模型在全部题目上的得分总结得出综合排行,目前GPT-4模型名列第一。排行榜由上海交通大学和清华大学的学生提供技术支持。
开源工具 – C-Eval的评测工具和数据集都是开源的,开发者可以使用它来评估自己开发的语言模型,或基于它进行新的研究。
持续迭代 – C-Eval的题库和评测标准会持续扩充和迭代,以跟上语言模型性能的提高和用户需求的变化。

隐藏内容需要回复可以看见

回复

请登录之后再进行评论

登录

任务系统

帖子间隔

大家都在搜

扣绑加速器自媒体破解版高级版特别版视频剪辑源码压力测试

热门论坛

精品资源

公告活动

易源码

破解教程

破解软件