现在的位置: 首页 > 综合 > 正文

数据挖掘中的中位数

2013年01月26日 ⁄ 综合 ⁄ 共 1191字 ⁄ 字号 评论关闭

  在数据挖掘的学习中,遇到了中位数的概念,一GOOGLe之下,其实发现以前的课本等是没学习到的,但现在的中小学生都有学了,
现在复习一下

 

中位数的含义

中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。

从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。

在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。

2. 中位数的计算

确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:

1)对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:

则中位数就可以按下面的方式确定:如果值的个数为奇数则为中间值,为偶数则为中间两个值的平均值 

    比如2 3 4 5 6 7 8这几个数
     其中位数就是5

 又比如
2 3 4,5,6,7,8,9
则其中位数为(5+6)/2=5.5

2)由分组资料确定中位数

由组距数列确定中位数,应先按 的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。
              
                            

 

式中: Me——中位数;

L——中位数所在组下限;

U——中位数所在组上限;

fm——为中位数所在组的次数;

西格马F—总次数;

d——中位数所在组的组距;

Sm–1——中位数所在组以下的累计次数;

Sm+1——中位数所在组以上的累计次数。

比如:
 

Age                                     frequency

1-5                                             200

5-15                                         450

15-20                                     300

20-50                                     1500

50-80                                     700

80-110                                    44

    按照公式计算= 

20+(3194/2-950)*(50-20)/1500=32.94

  3194/2求出中位数在1500所在的那组,为20-50,该中位数以下的总数有200+450+30=950

 

                          
      

抱歉!评论已关闭.