
CLUE中文语言理解基准测评
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的...
Chatbot Arena (lmarena.ai) 是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台,用于通过人类偏好评估 AI。在 GitHub 上开源了 FastChat 项目,并发布了开放数据集。我们始终欢迎社区的贡献。
该网站主要有四大模块。
1: 竞技场(战斗)
2: 竞技场(并排)
3:直接选择ai模型进行聊天
4:查看Chatbot Arena LLM 排行榜