平均数 中位数 众数的实际意义

平均数:反映了一组数据的平均大小,常用来一代表数据的总体 “平均水平”。

中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“一般水平”。

众数:反映了出现次数最多的数据,用来代表一组数据的“多数水平”。

平均数:与每一个数据都有关,其中任何数据的变动都会相应引起平均数的变动。主要缺点是易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低。

中位数:与数据的排列位置有关,某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不受数据极端值的影响。

众数:与数据出现的次数有关,着眼于对各数据出现的频率的考察,其大小只与这组数据中的部分数据有关,不受极端值的影响,其缺点是具有不惟一性,一组数据中可能会有一个众数,也可能会有多个或没有 。

平均数:是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等。

中位数:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。

众数:作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合。

平均数、中位数和众数的联系与区别:

平均数应用比较广泛,它作为一组数据的代表,比较稳定、可靠。但平均数与一组数据中的所有数据都有关系,容易受极端数据的影响;简单的说就是表示这组数据的平均数。中位数在一组数据中的数值排序中处于中间的位置,人们由中位数可以对事物的大体进行判断和掌控,它虽然不受极端数据的影响,但可靠性比较差;所以中位数只是表示这组数据的一般情况。众数着眼对一组数据出现的频数的考察,它作为一组数据的代表,它不受极端数据的影响,其大小与一组数据中的部分数据有关,当一组数据中,如果个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势,比较合适,体现了整个数据的集中情况。

平均数、中位数和众数它们都有各自的的优缺点。

时间: 2024-10-20 22:31:45

平均数 中位数 众数的实际意义的相关文章

数据可视化过程不完全指南

数据集犹如世界历史状态的快照,能帮助我们捕捉不断变化的事物,而数据可视化则是将复杂数据以简单的形式展示给用户的良好手段(或媒介).结合个人书中所学与实际工作所学,对数据可视化过程做了一些总结形成本文供各位看客"消遣". 个人以为数据可视化服务商业分析的经典过程可浓缩为:从业务与数据出发,经过数据分析与可视化形成报告,再跟踪业务调整回到业务,是个经典闭环. 本文主题为数据可视化,将重点讲解与数据可视化相关的环节,也即上图中蓝色的环节. 一.理解 DATA 进行 DATA 探索前,我们需先

Mysql 查询中位数

Mysql查询平均数和众数比较简单:平均数使用AVG函数,众数分组查询之后再次统计最大值即可. 但是Mysql查询中位数就比较蛋疼,我们可以用自定义一个变量来当做行号解决这个问题. 自定义变量@ID当成行号(按照列pos排序): SET @ID=0; SELECT @ID:[email protected]+1 AS ID , pos FROM alerts_ring_list WHERE 1=1 ORDER BY `pos` 最后做个子查询即可: SET @ID=0; SELECT AVG(p

统计量

1. 表示集中趋势的计量 1.1均值 a. 算数平均数 = 总体标志总量 / 总体单位总量 b. 调和平均数: 又称倒数平均数,它是根据各变量的倒数来计算的平均数.是各变量值倒数的算数平均数的倒数 c. 几何平均数:是计算平均比率或平均发展速度的最常用的统计量,几何平均数可以反映现象总体的一般水平 根据同一组数据计算的结果是:算术平均数>=几何平均数>=调和平均数 1.2 中位数 中位数是将总体单位总一变量的各变量值按大小排序后,处于序列中间位置的那个变量值.当变量个数为偶数时,中位数是位于中

python数据分析实战---数据处理

数据处理 缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 1.判断是否有缺失值 import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats % matplotlib inline # 判断是否有缺失值数据 - isnull,notnull # isnull:缺失值为True,非缺失值为False # not

R语言笔记005——计算描述性统计量

数据的分布特征: 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数) 分布的离散程度,反应各数据远离其中心值的趋势(极差,四分位差,方差,标准差,离散系数) 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数) ####################### 平均数(均值):一组数据相加后除以数据的个数而得到结果,称为平均数(mean) 中位数:一组数据排序后处于中间位置上的变量值,称为中位数(median) 四分位数:一组数据排序后处于25%(下四

第二章 认识数据 笔记

一.数据对象与属性类型 1.属性: 一个数据字段,表示数据对象的一个特征.(属性.维.特征.变量可以互换实用) 2.标称属性:标称意味着“与名称相关”:标称属性的值是一些符号或失误的名称.每个只代表某种类别.编码或者状态,因而标称属性又被堪称是分类的.例如,人的属性->头发颜色(黑.白.棕.红.黄...)和婚姻状况(未婚.已婚.离异...)属于标称属性. 标称属性值可以用数字表示,如1,2,3等:但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值.中位数是没有意义的.众数是有意义的

数据分布形态:峰度与偏度

1.什么是峰度与偏度? 峰度(kurtosis)是描述分布形态的陡缓程度.表征概率密度函数分布曲线在平均值处峰值高低的特征数.用bk表示.直观看来,峰度反映了数据尾部厚度. 在相同的标准差下,峰度系数越大,分布就有更多的极端值,那么其余值必然要更加集中在众数周围,其分布必然就更加陡峭. 偏度(skewness),表征概率分布密度曲线相对于平均值不对称程度的特征数(因此它与方差有些类似).用bs表示.直观看来就是密度函数曲线尾部的相对长度.所以哪边尾巴长就往哪边偏,左偏就是左尾长,右偏就是右尾长.

数据预处理之缺失值的处理

缺失值的类型 首先对数据的变量(特征)按照缺失和不缺失进行分类:不含有缺失值的变量称为完全变量,含有缺失值的变量称为非完全变量. 缺失值的类型分为三种:完全随机缺失,随机缺失和非随机缺失. 完全随机缺失: 缺失的变量和其余的变量没有关系.比如"家庭住址"这个信息,和"身高"等其余的变量没有关系. 随机缺失: 缺失的变量和完全变量存在一定的关系.假如"学历"中不含缺失值,"收入"和它有关,那么"收入"为随机缺

数据挖掘-认识数据

数据对象与属性类型 数据集由数据对象组成.一个数据对象代表一个实体.例如销售数据库中,对象可以是顾客.商品.属性是一个数据字段,表示数据对象的一个特征. 属性类型 标称属性(nominal attribute):一些事物的名称,每个值代表某种类别.编码或者状态.不具有有意义的序,不是定量的,其均值和中位数无意义,总数有意义.例如,颜色这个对象的属性可能有黑色.红色.白色等,职业可能值有教师.医生等. 二元属性(binary attribute):一种标称属性,只有两个类别或状态:0或1.有对称和