CLiB中文大模型能力评测榜单(持续更新) 是一个关于中文大模型能力评测的榜单仓库,涵盖 195 个商用及开源大模型,进行多维度能力评测(包括医疗、教育、法律等众多领域),有多种排行榜分类且记录详细更新信息。 00 AI模型评测
Livebench LLM模型的基准测试平台 LiveBench 是一个针对大型语言模型(LLM)的权威基准测试平台,提供一个公平、客观且无污染的评测环境,以评估和比较不同 LLM 的性能 00 AI模型评测
CLUE中文语言理解基准测评 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的... 00 AI模型评测
Chatbot Arena LLM 排行榜 Chatbot Arena LLM 排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台,用于通过人类偏好评估人工智能 00 AI模型评测
FlagEval (天秤)大模型评测 FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主... 00 AI模型评测