
Chatbot Arena
Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。
在当今AI技术飞速发展的时代,大型语言模型(LLM)层出不穷,如何科学、公正地评估这些模型的性能,成为了业界关注的焦点。为此,智源研究院联合多所高校团队,共同打造了FlagEval(天秤)评测平台,旨在为研究人员和开发者提供全面、细致的评测结果。
FlagEval(天秤)是一个开放的大模型评测平台,采用“能力-任务-指标”三维评测框架,细粒度地刻画基础模型的认知能力边界,并可视化呈现评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共计600多个维度的全面评测,任务维度包括22个主客观评测数据集和84,433道题目。
FlagEval是智源FlagOpen大模型开源技术体系的重要组成部分。FlagOpen旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“Linux”开源开放生态。
FlagEval的推出,为研究人员和开发者提供了一个科学、公正、开放的评测平台,帮助他们全方位评估基础模型及训练算法的性能。同时,平台的自动化和自适应评测机制,大幅提升了评测的效率和客观性。
目前,FlagEval平台对用户开放,具体的使用费用和权限需参考官方网站的最新信息。
FlagEval(天秤)评测平台的推出,为AI研究人员和开发者提供了一个全面、科学的评测工具,助力大模型技术的持续优化和应用落地。其多维度的评测框架、自动化的评测机制以及对多芯片、多框架的支持,使其在业界具有重要的参考价值。