HELM HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。 880,33530.8K AI模型评测# AI模型评测# AI评测# HELM
OpenCompass OpenCompass是由上海人工智能实验室推出的开源大模型评测体系,提供全面、高效的评测框架,支持大语言模型和多模态模型的一站式评测,并定期公布评测结果榜单。 880,63530.8K AI模型评测# AI模型评测# AI评测# OpenCompass
AGI-Eval AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。 880,48030.8K AI模型评测# AGI-Eval# AI模型评测# AI评测