小小箱线不简单,箱线图你真的读懂了吗?

7/20/2023 1:44:36 PM

箱线图

   箱线图(Box-plot)又称为盒须图、盒式图或箱形图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。

   箱线图还很适合非参数检验时查看不同类别X时,Y的数据分布情况,由于它使用的是中位数和四分位数等描述性统计量,比平均数和标准差更为稳健。

   箱线图:样本分布的图形化汇总,显示其形状、中心趋势和变异性。

   默认箱线图显示包括以下内容:

下面咱们就说说箱线图


        1.      箱线图结构

箱线1.jpg

      1)  异常值 (*) :超出上限或下限的观测值

      2)  上限:延伸至距框顶部1.5倍框高范围内的最大数据点。

      3)  四分位间距框:中间 50% 的数据

               顶部线条:Q3(上四分位数)。75% 的数据小于等于此值。

                中间直线:Q2(中位数)。50% 的数据小于或等于此值。

    下部直线:Q1(下四分位数)。25% 的数据小于等于此值。

      4)  下限:延伸至距框底部1.5倍框高范围内的最小数据点。(正常下限和上限一样长,但是如果最小值比下限点大的话,以最小值作为下线点。下须就比上须短了

      2.       如何计算四分位?

   中位数把数集分成两个50%,下四分位就是把前50%分成两个25%,上四分位就是把后50%,分成两个25%

   

箱线2.jpg


  

       假设数列一共有n个数

           1)当 n+1/4可以整除时

               Q1第在(n+1/4

               Q2 (n+1)/2

               Q3(n+1)/4*3

     举例 1 2 2 5 6 9 9 这个数列

            Q1在第 7+1/4 =2 位,即Q1=2

            Q2在第(7+1/2=4位,即Q2=5

            Q3在第(7+1/4*3=6位,即Q3=9

          2)当 n+1/4不能整除时

    举例 数列 1 2 3 4 5 6 7 8

           Q1 8+1/4=2.25位, 介于第二和第三位之间,但是更靠近第二位。所以第二位数权重占75%,第三位数权重占25%Q1=2*0.75+3*0.25/(0.75+0.25)=2.25

          Q2 8+1/2=4.5位,即第4和第5位的平均数,Q2=4.5

        同理Q3在(8+1/4*3=6.75位,在第六位和第七位之间,更靠近第7位。所以第7位权重75%,第6位权重25%

          Q3=(7*0.75+6*0.25)/(0.75+0.25)=6.75

3.       举例说明如何画箱线图:

         11个数字:37111114151718202535,通过这组数据画出箱线图。

   中位数:(n+1)/2 (11+1)/2=6 排在第6位的数字15

    Q1: (n+1)/4(11+1)/4=3 排在第3位的数字11

    Q3: (n+1)/4*3(11+1)/4*3=9 排在第9位的数字20

   四分位距IQRQ3-Q120-11=9

   上限:Q3Q3+1.5IQR范围内的最大值;即20+1.5*9=33.52033.5范围内的最大值25

   下限:Q1Q1-1.5IQR范围内的最小值;即11-1.5*9=-2.511-2.5范围内的最小值3

   异常点:超出上限或者下限的点位,即35

    

线箱3-1.jpg



    

          好了,这就是箱线图,你懂了吗?