在大语言模型快速发展和广泛应用的背景下,科学、公正地评估模型在认知和问题解决任务中的表现至关重要。AGI-Eval 是由上海交通大学、同济大学、华东师范大学与 DataWhale 等高校及机构联合推出的大模型评测社区,旨在构建透明、权威、全面的评测生态。通过设计与人类认知和决策相关的任务,AGI-Eval 可以衡量模型在实际应用场景中的适用性和有效性,推动大模型技术发展,并实现人机协作优化。
AGI-Eval 是什么?
AGI-Eval 是一个大模型评测社区,专注于基础模型在人类认知与问题解决能力方面的综合评估。平台整合公开学术评测集、官方自建评测集及用户自建评测集,提供自动与人工相结合的测评方案。通过社区排行榜、人机评测比赛和数据工作室,AGI-Eval 为研究者、开发者和企业用户提供科学依据,帮助选择适用模型并优化模型能力。
网站地址:https://agi-eval.cn

核心功能
AGI-Eval 提供全面的大模型能力评估与数据支持,总体价值在于“科学评测模型认知能力,推动技术发展与社区协作”。
- 大模型榜单——基于通用评测方案,提供模型综合能力得分及各能力项排名,数据透明权威。
- 人机评测比赛——通过与大模型协作的评测活动,探索人机协同方案和技术优化方向。
- 评测集管理——包括公开学术评测集、官方自建评测集及用户自建评测集,支持下载、上传和社区共建。
- Data Studio 数据平台——整合多维度、多领域高质量数据,实现数据收集、扩写、Arena 等多种形式的数据回收。
- 多重数据审核机制——机审+人审保障数据质量与评测结果可靠性。
- 社区共建与开放——鼓励用户上传评测数据,参与榜单维护与数据治理,推动开源生态发展。
- 多场景能力测评——涵盖认知推理、问题解决、任务规划等与人类决策能力相关的多任务评测。
使用场景
AGI-Eval 适合大模型研发团队、科研机构以及教育单位进行模型能力评估、榜单分析和数据共建。
| 人群/角色 | 场景描述 | 推荐指数 |
|---|---|---|
| AI 研发团队 | 测试模型在认知和问题解决任务中的表现 | ★★★★★ |
| 教育科研机构 | 教学演示和科研实验,评估模型能力 | ★★★★★ |
| 企业 AI 团队 | 挑选可用于实际业务的认知能力模型 | ★★★★☆ |
| 开源社区贡献者 | 上传评测数据和参与榜单维护 | ★★★★☆ |
| 学术研究者 | 分析模型认知与决策能力的科学依据 | ★★★★☆ |
操作指南
新用户可快速使用 AGI-Eval 进行模型评测:
- 注册 AGI-Eval 平台账号「立即使用」。
- 浏览榜单,查看大模型综合能力和各能力项排名。
- 下载公开或官方评测集进行模型测试。
- 上传或自建评测集,参与社区共建。
- 参与人机评测比赛,探索协作评测方案。
- 使用 Data Studio 收集、扩写或管理多维度数据。
- 结合机审和人审结果,分析模型表现并优化策略。
支持平台
AGI-Eval 提供 Web 平台访问,支持 Windows、macOS、Linux 桌面浏览器及移动端浏览器,结合 API 可实现数据接口调用和模型评测自动化。
产品定价
AGI-Eval 提供基础免费访问,部分高级数据集、竞赛或企业定制服务可能需要订阅或付费。
常见问题
Q1:AGI-Eval 是否公正可信?
A1:平台采用透明榜单、标准化评测集和多重审核机制,保障评测数据的权威性和可信度。
Q2:是否支持用户上传自建评测集?
A2:支持用户上传个人评测集,并与社区共享,实现自动与人工评测结合。
Q3:适合哪些模型能力测评?
A3:主要测评模型在人类认知、问题解决、任务规划及决策相关能力的表现。
总裁导航总结
AGI-Eval 是面向大模型研发者、科研机构和开源社区的综合评测平台,提供榜单、人机比赛、数据平台和评测集支持,可科学衡量模型认知与问题解决能力。适合科研分析、模型选择和社区共建,不适合仅需单任务或轻量化离线测试的场景。





