数据分析--数字找朋友
从前有一个数字王国,里面的数字们喜欢在一起玩,不过它们有点挑剔,总是想跟与自己接近的数字玩,他们觉得其他都是远房亲戚,不亲。我们怎么帮助它们找到合适的一组数字呢?
10年积累的成都网站建设、网站设计经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站制作后付款的网站建设流程,更有庐江免费网站建设让你可以放心的选择与我们合作。
均值
平均数是统计中的一个重要概念。通常用来表示一组统计对象的集中趋势。
平均数里面最常用的是算术平均数(或称均值)。它是一组数字的和除以数字的个数。
在均值用于表示统计对象的一般水平,它是描述数据集中程度的一个统计量。我们既可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以看出组与组之间的差别。
例如数字20会跟下面两组数字哪一组玩呢?
A | 19 | 23 | 19 | 21 | 23 | 20 | 21 | 20 | 18 | 22 |
---|---|---|---|---|---|---|---|---|---|---|
B | 43 | 45 | 36 | 45 | 38 | 36 | 39 | 38 | 39 | 41 |
通过计算均值,A组的均值为20.6,B组的均值为40,所以数字20去和A组玩。
为什么要用一个均值这样的叫法,为什么不能直接叫平均数呢?
因为平均数有好多种:
- 算术平均数:n个数据相加后除以n。就是这里的均值。
- 几何平均数:n个数据相乘后开n次方。
- 调和平均数:n个数据的倒数取算术平均,再取倒数。
- 平方平均数(也称“均方根”):n个数据的平方取算数平均,再开根号。
- 移动平均数
- 算术-几何平均数
- 几何-调和平均数
- 。。。。。。
STOP!好吧,我们就用均值。。
数字20又来找人玩,这次的数据组是它们,均值是20,好像没什么问题,但是20好像并不开心:
C | 5 | 2 | 5 | 5 | 5 | 3 | 6 | 2 | 84 | 83 |
---|
这是怎么一回事?!
中位数
中位数是另一个表示集中趋势的一个值,中位数不是所有数字计算得出,而是把所有的数按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这组数据的中位数;如果数据的个数是偶数,则中间那2个数据的平均值就是这组数据的中位数。
所以上面的这组数字,应该用中位数来描述。
将所有数字从小到大排列后:
C | 2 | 2 | 3 | 5 | 5 | 5 | 5 | 6 | 83 | 84 |
---|
中位数为第5和第6个数的平均值,也就是5,说明C组集中在了数字5的周围,所以数字20不喜欢和它们一起玩。在这里,83,84偏离了整体,是异常值。
那就换一组数字吧,这次的数据组是它们,均值是20,中位数也是20,这次没什么问题了吧?
D | 3 | 5 | 5 | 5 | 6 | 34 | 34 | 36 | 36 | 36 |
---|
众数
众数指一组数据中出现次数最多的数据值。例如在(2,3,3,3)中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。用众数代表一组数据,适合于数据量较多时使用,且众数不受异常值的影响。
D组中出现次数最多的数字是5和36,表示数字分成了两堆接近的数,还是没有和数字20接近的,数字20也不喜欢和它们玩。
数字20受够了!它要求再找些靠谱的参考标准,好吧,下面是一些参考:
全距
全距又称极差,用来表示一组数据中最大值与最小值之间的差额,即最大值减最小值后所得数值。全距为离散程度的最简单测度值,比较容易受到异常值影响。
上面的四组数据的全距为:
A | B | C | D | |
---|---|---|---|---|
全距 | 5 | 9 | 82 | 33 |
对于数字20来说,如果全距太大,就有可能是个坑。不过光看全距说明不了更多问题,还要进一步来看。
百分位数
百分位数是将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
上面四组数据的10%百分位数和90%百分位数分别为:
百分位数 | A | B | C | D |
---|---|---|---|---|
10% | 18.9 | 36 | 2 | 4.8 |
90% | 23 | 45 | 83.1 | 36 |
百分位数对于数字20来说,是一个很好的参考,可以知道和他大小相仿的数字都集中在什么区域。但是这么多百分位数,选哪个好呢?
四分位数
四分位数可以理解为是特定的几个百分位数:25%,50%和75%。将一组数据从小到大排列后:
第一四分位数等于第25%的数字,也叫下四分位数;
第二四分位数等于第50%的数字,也就是中位数;
第三四分位数等于第75%的数字,也叫上四分位数;
第三四分位数与第一四分位数的差距又称四分位距。
四分位距提供了一个简单的判断数字分散程度的指标,对于数字20来说,可以有效的避免使用百分位数时的选择困难症。
上面四组数据的四分位数以及四分位距为:
四分位数 | A | B | C | D |
---|---|---|---|---|
下四分位数 | 19.25 | 38 | 3.5 | 5 |
上四分位数 | 21.75 | 42.5 | 5.75 | 35.5 |
四分位距 | 2.5 | 4.5 | 2.25 | 30.5 |
这样看来C组似乎比A组还要好,还有没有更靠谱一些的指标?
方差
方差用来描述一组数的离散程度,它将各个数和均值的差算一下平方,相加之后再除以总数,这样就可以算出各个数据分散的程度。
上面四组数据的方差为:
A | B | C | D | |
---|---|---|---|---|
方差 | 2.64 | 10.2 | 1009.8 | 232 |
C组和D组一下子就被排除了,偏离了太多。方差更好,不过由于平方了一下,如果想要更直观的表示和均值的距离的话,就要用到下面的标准差:
标准差
标准差是方差开平方,反映这组数字的离散程度。
标准差越大,代表大部分的数值和其平均值之间差异较大;标准差越小,代表这些数值较接近平均值。
上面四组数据的标准差为:(保留两位小数)
A | B | C | D | |
---|---|---|---|---|
标准差 | 1.62 | 3.19 | 31.78 | 15.23 |
标准差说明A组数据,平均和均值之间平均差距为1.62,大家都很接近,选这一组就没错了。
该用哪一个?
数字20:你一开始告诉我标准差不就好了?绕这么多弯子干什么?
上面的每一种值都有各自的适用场合,要根据关注的目标,使用合适的值进行描述,才是最合理的,没有唯一一个最好的衡量值。例如上面四组数据,如果只看标准差,能说明数字比较靠近,但并不能表明这一组数字靠近谁,还需要结合均值来一起考虑。
分享文章:数据分析--数字找朋友
文章网址:http://hbruida.cn/article/geegcp.html