FlagEval翻译站点

2周前更新 880,595 0 30.8K

FlagEval(天秤)是由智源研究院联合多所高校团队打造的开放评测平台,采用“能力-任务-指标”三维评测框架,提供全面、细致的大模型评测结果。

所在地:
China
语言:
CN
收录时间:
2025-05-20
FlagEvalFlagEval

在当今AI技术飞速发展的时代,大型语言模型(LLM)层出不穷,如何科学、公正地评估这些模型的性能,成为了业界关注的焦点。为此,智源研究院联合多所高校团队,共同打造了FlagEval(天秤)评测平台,旨在为研究人员和开发者提供全面、细致的评测结果。

网站介绍

FlagEval(天秤)是一个开放的大模型评测平台,采用“能力-任务-指标”三维评测框架,细粒度地刻画基础模型的认知能力边界,并可视化呈现评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共计600多个维度的全面评测,任务维度包括22个主客观评测数据集和84,433道题目。

功能特点

  • 多维度评测:平台涵盖了30多种能力、5种任务和4大类指标,提供全面的评测结果。
  • 自动化评测机制:部署推理服务,实现主观评测和客观评测的全自动流水线,各阶段自动监听,推理服务与评测全自动衔接。
  • 自适应评测机制:用户可根据模型类型和状态选择评测策略,平台整合评测结果,评测过程中的各类事件(如开始、结束、错误等)均有自动通知和告警。
  • 多芯片、多框架支持:平台支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构,以及PyTorch、MindSpore等多种深度学习框架。

相关项目

FlagEval是智源FlagOpen大模型开源技术体系的重要组成部分。FlagOpen旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“Linux”开源开放生态。

优点评价

FlagEval的推出,为研究人员和开发者提供了一个科学、公正、开放的评测平台,帮助他们全方位评估基础模型及训练算法的性能。同时,平台的自动化和自适应评测机制,大幅提升了评测的效率和客观性。

是否收费

目前,FlagEval平台对用户开放,具体的使用费用和权限需参考官方网站的最新信息。

总结

FlagEval(天秤)评测平台的推出,为AI研究人员和开发者提供了一个全面、科学的评测工具,助力大模型技术的持续优化和应用落地。其多维度的评测框架、自动化的评测机制以及对多芯片、多框架的支持,使其在业界具有重要的参考价值。

相关导航