工具大全

覆盖20项细粒度能力的多模态模型评测基准:MMBench性能评估指南

多模态大模型不断迭代,从图文理解到复杂推理,能力边界持续扩展。对于研究者与开发者来说,如何客观衡量模型的真实水平,成为模型选型与技术优化的重要环节...

一站式大模型开放评测体系:OpenCompass

随着大语言模型和多模态模型的快速发展,科学、透明且可复现的评测体系成为研究者和企业的重要需求。OpenCompass 是上海人工智能实验室于 2023 年 8 月推出的...

AGI-Eval:面向认知与问题解决能力评测的大模型社区

在大语言模型快速发展和广泛应用的背景下,科学、公正地评估模型在认知和问题解决任务中的表现至关重要。AGI-Eval 是由上海交通大学、同济大学、华东师范大学...

SuperCLUE:中文大模型综合评测基准

随着中文大语言模型的快速发展,如何科学评估模型在理解、生成、知识应用和任务执行能力上的表现成为关键。SuperCLUE 是针对中文大模型推出的综合性评测基准...

开源大模型排行榜与评测平台:Open LLM Leaderboard

在大语言模型快速发展的背景下,开发者和研究者面临众多模型选择和性能比较的需求。Open LLM Leaderboard 是由 HuggingFace 推出的开源大模型排行榜,利用 El...

MMLU:大模型语言理解能力测评工具

在大型语言模型快速发展的背景下,评估模型的知识覆盖和语言理解能力成为研究与应用的重要环节。MMLU(Massive Multitask Language Understanding)是由 UC B...

国内首个视觉生成大模型对战平台:MagicArena

在 AI 创意和视觉生成领域,用户常面临选择模型和比较生成效果的挑战。MagicArena 是字节跳动推出的国内首个视觉生成大模型对战平台,通过文字输入调用不同大...

一站式大语言模型应用开发平台:天壤小白

开发基于大语言模型的 AI 应用通常涉及模型选择、提示词设计、开发和部署等复杂流程,普通开发者和企业可能难以快速上手。天壤小白 是天壤公司推出的基于大语...

高效智能聊天助手:商量SenseChat 大语言模型

在人工智能应用场景中,用户希望拥有既能理解复杂指令,又能生成高质量文本的智能助手。商量SenseChat 是由商汤科技研发的一款基于自然语言处理技术的人工智...

开源机器学习模型监测与测试工具:Evidently AI

在机器学习模型投入生产环境后,持续监测模型性能和数据质量对于保证预测准确性至关重要。Evidently AI 是一款开源的机器学习模型监测和测试工具,专为开发者...
1789101170