• 注册
  • 聊天灌水 聊天灌水 关注:60 内容:2141

    C-Eval 一个适用于大语言模型的多层次多学科 中文评估套件

  • 查看作者
  • 打赏作者
  • 当前位置: 七七博客 > 聊天灌水 > 正文
    • 聊天灌水
    • C-Eval 一个适用于大语言模型的多层次多学科 中文评估套件

      说明

      提供了一个涵盖52个不同学科的13948道多项选择题,并根据模型在这些题目上的表现得出综合排行。

      介绍

      1. 多学科评估 – C-Eval考察了语言模型在52个不同学科领域的理解能力,包括常识、生物、历史、地理等,可以全面而准确地评估模型的语言理解广度与深度。

      2. 四个难度级别 – C-Eval的题目分为初级、中级、高级和专家四个难度级别,可以测评模型在不同难度场景下的应用潜力。

      3. 排行榜 – C-Eval根据模型在全部题目上的得分总结得出综合排行,目前GPT-4模型名列第一。排行榜由上海交通大学和清华大学的学生提供技术支持。

      4. 开源工具 – C-Eval的评测工具和数据集都是开源的,开发者可以使用它来评估自己开发的语言模型,或基于它进行新的研究。

      5. 持续迭代 – C-Eval的题库和评测标准会持续扩充和迭代,以跟上语言模型性能的提高和用户需求的变化。

      隐藏内容需要回复可以看见

      回复

      请登录之后再进行评论

      登录
    • 任务系统
    • 帖子间隔 侧栏位置: