Chatbot Arena LLM 排行榜

3个月前发布 0 0

Chatbot Arena LLM 排行榜,是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台，用于通过人类偏好评估人工智能

收录时间：

2025-06-08

打开网站手机查看

Chatbot Arena LLM 排行榜

Chatbot Arena LLM 排行榜

Chatbot Arena (lmarena.ai) 是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员开发的开源平台，用于通过人类偏好评估 AI。在 GitHub 上开源了 FastChat 项目，并发布了开放数据集。我们始终欢迎社区的贡献。

该网站主要有四大模块。

1：竞技场（战斗）

盲测：向两个匿名 AI 聊天机器人（ChatGPT、Gemini、Claude、Llama 等）提出任何问题。
投票选出最佳：选择最佳回应。你可以继续聊天，直到找到获胜者。

2：竞技场（并排）

问任何问题给两个选定的模型（例如，ChatGPT，Gemini，Claude，Llama），并投票选出更好的一个！
你可以进行多轮聊天，直到识别出胜者。

3：直接选择ai模型进行聊天

4：查看Chatbot Arena LLM 排行榜

Chatbot Arena LLM 排行榜

Chatbot Arena LLM 排行榜

相关导航

Artificial Analysis AI基准测试平台

Artificial Analysis AI基准测试平台

Artificial Analysis平台是一家领先的独立AI基准测试和分析平台

OpenCompass司南

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，以便用户能够更全面地了解大模型的能力水平。

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face 推出新版开源大模型排行榜（Open LLM Leaderboard）

AGI-Eval

AGI-Eval评测社区，AI大模型评测社区

CLUE中文语言理解基准测评

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的...

FlagEval （天秤）大模型评测

FlagEval （天秤）大模型评测

FlagEval （天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主...

CLiB中文大模型能力评测榜单（持续更新）

CLiB中文大模型能力评测榜单（持续更新）

是一个关于中文大模型能力评测的榜单仓库，涵盖 195 个商用及开源大模型，进行多维度能力评测（包括医疗、教育、法律等众多领域），有多种排行榜分类且记录详细更新信息。

Livebench LLM模型的基准测试平台

Livebench LLM模型的基准测试平台

LiveBench 是一个针对大型语言模型（LLM）的权威基准测试平台，提供一个公平、客观且无污染的评测环境，以评估和比较不同 LLM 的性能

暂无评论

none

暂无评论...