四 [统计学笔记] 数据分布的数字特征_梅森上校的博客( 三 )


4. 箱线图
将中位数、四分位数和其他指标结合起来,可以更详细的反应数据的分布特征 。
箱线图是由一组数据的最小值(Xmin)、最大值(Xmax)、下四分位数(QL)、上四分位数(QU)和中位数(Me)这五个特征值构成 。通过箱线图,可以观察数据的中心位置、离散程度及对称性等特征,同时还可以进行多组数据分布的比较 。
四 [统计学笔记] 数据分布的数字特征_梅森上校的博客
算术平均数、众数和中位数三者的比较与应用
(1)算术平均数属于数值型平均数,它是根据全部数据计算的集中趋势测度值,因此可以综合反映全部数据的信息;众数和中位数属于位置型代表值,它们是根据数据分布的特定位置确定出的集中趋势测度值,因此不能概括全部数据的信息
(2)算术平均数和中位数在任何一组数据中都存在且具有唯一性,但不一定所有数据都存在众数,且众数也不具有唯一性 。一般情况下,在数据量充分大并且具有明显集中趋势时,计算众数才有意义;
(3)算术平均数只适用于定量数据,中位数适用于定序数据和定量数据,众数则适用于所有数据,即定性数据和定量数据均可;
(4)算术平均数受极端值的影响,因此,当数据偏斜程度较大时(数据中存在极端值),不宜用算术平均数来代表数据的一般水平 。众数和中位数不受极端值的影响,因此,当数据偏斜程度较大时,可以考虑用众数或中位数来代表数据的一般水平;
(5)算术平均数可以估计或推断总体特征值 。而众数和中位数不宜用作此类推断
(6)算术平均数和众数、中位数的数量关系主要取决于数据分布的偏斜程度(非对称程度)
四 [统计学笔记] 数据分布的数字特征_梅森上校的博客
从而略使中位数偏小,而众数则完全不受极小值大小和位置的影响,因此一般情况下,三者的关系表现为X<Me<M0
四 [统计学笔记] 数据分布的数字特征_梅森上校的博客
四 [统计学笔记] 数据分布的数字特征_梅森上校的博客
(7)皮尔逊经验公式数据呈现偏斜但偏斜程度不大时,算术平均数、众数和中位数之间存在一定的比例关系,即
数据离散程度的测定
离散程度测定问题的提出
由于差异性是数据的本质属性,所以各个数据与其分布中心之间总是存在着不同程度的偏离 。我们把数据偏离其中心值的程度叫做离散程度,离散程度可以说明数据之间差异程度的大小,那么如何测定一组数据的离散程度呢?
离散程度测定的作用
离散程度的大小主要通过变异指标来测定 。变异指标的主要作用有:
离散程度的测定
离散程度的测定,可以采用异众比率,极差、四分位差或者平均差等 。
异众比率
异众比率是指非众数组的频数占总频数的比重,通常用Vr表示,计算公式为:
式中:
是众数组的频数;
是变量值的总频数
异众比率的特点:
极差、四分位差和平均差极差
极差(Range)又称全距,是一组数据中最大值与最小值之差,通常用R表示 。计算公式为:
极差的特点:极差是变异指标中最简单的测度值,其优点是计算简便、易于掌握 。但因极差只利用了一组数据两端的信息,容易受到极端值的影响 。因此,极差不能全面、稳定地反映数据的离散程度 。


以上关于本文的内容,仅作参考!温馨提示:如遇专业性较强的问题(如:疾病、健康、理财等),还请咨询专业人士给予相关指导!

「辽宁龙网」www.liaoninglong.com小编还为您精选了以下内容,希望对您有所帮助: