CMMLU CMMLU是一个专为中文语境设计的综合性评估基准,涵盖67个主题,旨在全面测试语言模型的知识储备和推理能力。 880,44530.8K AI模型评测# AI模型评测# CMMLU# 中文评估基准
Chatbot Arena Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。 880,87530.8K AI模型评测# AI模型比较# AI模型评测# Chatbot Arena
Open LLM Leaderboard Open LLM Leaderboard是由Hugging Face推出的开源大语言模型(LLM)评估平台,提供模型排名、性能评估和社区协作功能,助力开发者和研究者了解和比较不同LLM的表现。 880,50030.8K AI学习网站AI模型评测# AI模型比较# AI模型评测# Hugging Face
HELM HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。 880,26030.8K AI模型评测# AI模型评测# AI评测# HELM
MMLU MMLU(Massive Multitask Language Understanding)是由加州大学伯克利分校于2020年9月推出的基准测试,旨在评估大型语言模型在多领域的理解和推理能力。 880,47030.8K AI模型评测# AI模型评测# MMLU# 人工智能
FlagEval FlagEval(天秤)是由智源研究院联合多所高校团队打造的开放评测平台,采用“能力-任务-指标”三维评测框架,提供全面、细致的大模型评测结果。 880,56030.8K AI模型评测# AI模型评测# AI评测平台# FlagEval
OpenCompass OpenCompass是由上海人工智能实验室推出的开源大模型评测体系,提供全面、高效的评测框架,支持大语言模型和多模态模型的一站式评测,并定期公布评测结果榜单。 880,59030.8K AI模型评测# AI模型评测# AI评测# OpenCompass
MMBench MMBench是由OpenCompass团队推出的多模态基准测试,旨在通过约3000道单项选择题,覆盖20项细粒度能力,全面评估视觉语言模型的综合表现。 880,43030.8K AI模型评测# AI模型评测# MMBench# OpenCompass
PubMedQA PubMedQA是一个专为生物医学研究设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在通过摘要回答研究问题。 880,35030.8K AI模型评测# AI模型评测# PubMedQA# 数据集
SuperCLUE SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准,旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。 880,54030.8K AI模型评测# AI模型基准# AI模型排行榜# AI模型评测
C-Eval C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。 880,57530.8K AI模型评测# AI模型评测# C-Eval# 中文大语言模型评估
AGI-Eval AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。 880,45030.8K AI模型评测# AGI-Eval# AI模型评测# AI评测
H2O EvalGPT H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。 880,38530.8K AI模型评测# A/B测试# AI工具# AI模型评估