AI Model Evaluation
AGI-Eval
PaidAI大模型评测社区
AI Ping
Paid一站式大模型服务评测与模型API调用平台
C-Eval
Paid一个全面的中文基础模型评估套件
CMMLU
Paid一个综合性的大模型中文评估基准
FlagEval
Paid智源研究院推出的FlagEval(天秤)大模型评测平台
H2O EvalGPT
PaidH2O.ai推出的基于Elo评级方法的大模型评估系统
HELM
Paid斯坦福大学推出的大模型评测体系
LLMEval3
Paid由复旦大学NLP实验室推出的大模型评测基准
LMArena
PaidAI模型评估平台
MagicArena
Paid字节推出的视觉生成模型对战平台
MMBench
Paid全方位的多模态大模型能力评测体系
MMLU
Paid大规模多任务语言理解基准
Open LLM Leaderboard
PaidHugging Face推出的开源大模型排行榜单
OpenCompass
Paid上海人工智能实验室推出的大模型开放评测体系
PubMedQA
Paid生物医学研究问答数据集和模型得分排行榜
SuperCLUE
Paid中文通用大模型综合性测评基准