美国经济分析局(BEA)公布的数据显示,美国年的人均收入高达6.3万美元,比年增长6.6%。看到这里,很多人会觉得美国人收入都好高,好富有呀。可现实情况却是:
收入前1%的富人拥有27%的国家财富。前10%的富人人均年收入是后90%人口的9倍多,则前1%的富人是40倍,而前0.1%富人则是倍之多。
另外一方面,贫困、饥饿和无家可归人口激增。年,美国无家可归者超过58万,饥饿人口超过万。
看到这里,你还会羡慕美国人的收入吗?
其实熟悉统计学的同学都知道,平均数有很强的迷惑性,或者说误导性。
平均指标用于各变量值分布的集中趋势。经常用来进行同类现象在不同空间、不同时间条件下的对比分析,从而反映现象在不同地区之间的差异,揭示现象在不同时间之间的发展趋势。
公
平均数是通过计算得到,因此它会因每一个数据的变化而变化,会抵消各个值的差异。根据平均数的公式我们不容易发现她有一个非常大的缺点,那就是受异常值(极大值、极小值)和样本量影响很大。一个显而易见的例子是:在统计杭州市民的人均财富时,由于将马云统计在内,整个杭州的人均财富被夸大,但统计全球人均财富时,马云这个极大值影响则很小。
上面的分析就引申两个问题:问题1,如何处理平均数的缺点?问题2,什么场景下才适用平均数,什么场景不适用平均数?
先回答第1个问题:答案至少有两个,一个是处理异常值,一个是改用中位数。处理异常值有三个方法,分别是确保异常值不是录入错误、赋予一个新值给异常值、删除异常值。具体内容后面在介绍数据清洗上详细展开如何侦测和处理异常值。而改用中位数则是因为中位数通过排序得到,它不受最大、最小两个极端数值的影响。以如下分布的数据集为例,中位数显然比平均数要好。
再回答第2个问题:两个条件下(分布对称和无异常值)适用平均数。比如如下的分布:
我们将介绍平均值的常见分类,包括简单算术平均、加权算术平均、调和平均、几何平均。他们分别适用哪些数据场景呢?我们下回揭晓。
欢迎大家留言、转发、点评和