数据分析--数字找朋友

从前有一个数字王国,里面的数字们喜欢在一起玩,不过它们有点挑剔,总是想跟与自己接近的数字玩,他们觉得其他都是远房亲戚,不亲。我们怎么帮助它们找到合适的一组数字呢?

10年积累的成都网站建设、网站设计经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站制作后付款的网站建设流程,更有庐江免费网站建设让你可以放心的选择与我们合作。

均值

平均数是统计中的一个重要概念。通常用来表示一组统计对象的集中趋势。

平均数里面最常用的是算术平均数(或称均值)。它是一组数字的和除以数字的个数。

在均值用于表示统计对象的一般水平,它是描述数据集中程度的一个统计量。我们既可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以看出组与组之间的差别。

例如数字20会跟下面两组数字哪一组玩呢?

A19231921232021201822
B 43 45 36 45 38 36 39 38 39 41

通过计算均值,A组的均值为20.6,B组的均值为40,所以数字20去和A组玩。

为什么要用一个均值这样的叫法,为什么不能直接叫平均数呢?

因为平均数有好多种:

  • 算术平均数:n个数据相加后除以n。就是这里的均值。
  • 几何平均数:n个数据相乘后开n次方。
  • 调和平均数:n个数据的倒数取算术平均,再取倒数。
  • 平方平均数(也称“均方根”):n个数据的平方取算数平均,再开根号。
  • 移动平均数
  • 算术-几何平均数
  • 几何-调和平均数
  • 。。。。。。

STOP!好吧,我们就用均值。。

数字20又来找人玩,这次的数据组是它们,均值是20,好像没什么问题,但是20好像并不开心:

C525553628483

这是怎么一回事?!

中位数

中位数是另一个表示集中趋势的一个值,中位数不是所有数字计算得出,而是把所有的数按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这组数据的中位数;如果数据的个数是偶数,则中间那2个数据的平均值就是这组数据的中位数。

所以上面的这组数字,应该用中位数来描述。

将所有数字从小到大排列后:

C223555568384

中位数为第5和第6个数的平均值,也就是5,说明C组集中在了数字5的周围,所以数字20不喜欢和它们一起玩。在这里,83,84偏离了整体,是异常值。

那就换一组数字吧,这次的数据组是它们,均值是20,中位数也是20,这次没什么问题了吧?

D355563434363636

众数

众数指一组数据中出现次数最多的数据值。例如在(2,3,3,3)中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。用众数代表一组数据,适合于数据量较多时使用,且众数不受异常值的影响。

D组中出现次数最多的数字是5和36,表示数字分成了两堆接近的数,还是没有和数字20接近的,数字20也不喜欢和它们玩。

数字20受够了!它要求再找些靠谱的参考标准,好吧,下面是一些参考:

全距

全距又称极差,用来表示一组数据中最大值与最小值之间的差额,即最大值减最小值后所得数值。全距为离散程度的最简单测度值,比较容易受到异常值影响。

上面的四组数据的全距为:

ABCD
全距 5 9 82 33

对于数字20来说,如果全距太大,就有可能是个坑。不过光看全距说明不了更多问题,还要进一步来看。

百分位数

百分位数是将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

上面四组数据的10%百分位数和90%百分位数分别为:

百分位数ABCD
10% 18.9 36 2 4.8
90% 23 45 83.1 36

百分位数对于数字20来说,是一个很好的参考,可以知道和他大小相仿的数字都集中在什么区域。但是这么多百分位数,选哪个好呢?

四分位数

四分位数可以理解为是特定的几个百分位数:25%,50%和75%。将一组数据从小到大排列后:

第一四分位数等于第25%的数字,也叫下四分位数;

第二四分位数等于第50%的数字,也就是中位数;

第三四分位数等于第75%的数字,也叫上四分位数;

第三四分位数与第一四分位数的差距又称四分位距。

四分位距提供了一个简单的判断数字分散程度的指标,对于数字20来说,可以有效的避免使用百分位数时的选择困难症。

上面四组数据的四分位数以及四分位距为:

四分位数ABCD
下四分位数 19.25 38 3.5 5
上四分位数 21.75 42.5 5.75 35.5
四分位距 2.5 4.5 2.25 30.5

这样看来C组似乎比A组还要好,还有没有更靠谱一些的指标?

方差

方差用来描述一组数的离散程度,它将各个数和均值的差算一下平方,相加之后再除以总数,这样就可以算出各个数据分散的程度。

上面四组数据的方差为:

ABCD
方差 2.64 10.2 1009.8 232

C组和D组一下子就被排除了,偏离了太多。方差更好,不过由于平方了一下,如果想要更直观的表示和均值的距离的话,就要用到下面的标准差:

标准差

标准差是方差开平方,反映这组数字的离散程度。

标准差越大,代表大部分的数值和其平均值之间差异较大;标准差越小,代表这些数值较接近平均值。

上面四组数据的标准差为:(保留两位小数)

ABCD
标准差 1.62 3.19 31.78 15.23

标准差说明A组数据,平均和均值之间平均差距为1.62,大家都很接近,选这一组就没错了。

该用哪一个?

数字20:你一开始告诉我标准差不就好了?绕这么多弯子干什么?

上面的每一种值都有各自的适用场合,要根据关注的目标,使用合适的值进行描述,才是最合理的,没有唯一一个最好的衡量值。例如上面四组数据,如果只看标准差,能说明数字比较靠近,但并不能表明这一组数字靠近谁,还需要结合均值来一起考虑。


分享文章:数据分析--数字找朋友
文章网址:http://hbruida.cn/article/geegcp.html