箱线图 入门 01

2024-05-14

1. 箱线图 入门 01

    箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作 显示一组数据分散情况 资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于 品质管理 。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的 最大值、最小值、中位数 和两个 四分位数 ;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
                                          
     如上图所示,图中主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的 上边缘 , 上 四分位数 Q3 ,  中位数  , 下四分位数Q1 , 下边缘 ,还有一个  异常值  。
  
     使用5个点对 数据集 做简单总结,这5个点包括中点、上下四分位数Q1、Q3、分部状态的高位和低位(上下边缘)。箱形图很形象的分为中心、延伸以及分布状态的全部范围。
  
     箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过 百分位 计算方法进行实现。
  
     1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的 全距 稍长。
  
     2、画一个矩形盒,两端边的位置分别对应数据批的上下 四分位数 (Q3和Q1)。在矩形盒内部中位数(Xm)位置画一条线段为 中位线 。
  
     3、在Q3+1.5 IQR 和Q1-1.5 IQR 处画两条与中位线一样的线段,这两条线段为 异常值 截断点,称其为 内限 ;
  
           在Q3+3IQR和Q1-3IQR处画两条线段,称其为 外限 。
  
           处于内限以外位置的点表示的数据都是异常值,其中在 内限与外限之间的异常值为温和的异常值 (mild outliers),在 外限以外的为极端的异常值(extreme outliers) 。
  
             Remark:  四分位距IQR=Q3-Q1 
  
     4、从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的 分布区间 。
  
     5、用“〇”标出温和的异常值,用“*”标出极端的异常值。
  
     相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。
  
     至此一批数据的箱形图便绘出了。
  
       统计软件   绘制的箱形图一般没有标出内限和外限。 ?
  
 1.体现数据的异常值
  
     一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会对结果会带来 不良影响 ;重视异常值的出现,分析其产生的原因,常常成为 发现问题 进而 改进决策 的契机。
  
     箱形图为我们提供了识别异常值的一个标准:小于Q1-1.5IQR或大于Q3+1.5IQR的值为异常值; 这种方法来源于经验判断,但经验表明它在处理需要特别注意的数据方面表现不错。 
  
 
  
  
     箱形图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱形图判断异常值的标准以 四分位数 和 四分位距 为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。
  
     因此,箱形图在识别异常值方面有一定的优越性。
  
 2.反映数据的偏态和尾重
  
 对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。
  
 3.反映数据的形状
  
    在同一数轴上,几批数据的箱形图并行排列,几批数据的 中位数 、 尾长 、 异常值 、分布区间等形状信息便一目了然。箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。

箱线图 入门 01

2. 箱线图入门 03

箱线图入门补充 
  
 哎呀,看了之后感觉就是停不下来了,真的是很好奇啊,继续看看网页文章学习下吧!
  
 1.   复习&Review
  
 箱线图(Box plot)也称箱须图(Box-whisker Plot)、箱线图、盒图, 可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围 ,因形状如箱子而得名。1977年,美国著名数学家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介绍了箱形图。
  
 
  
                                          
 要求:熟知箱线图的 作用 及统计学的相关概念 四分位数 偏态等 
  
  01 职员薪酬分布 
  
 下图是不同地区数据分析师的薪酬统计情况。
                                          
 图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。
  
 上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。
  
  案例2:学生成绩分布 
  
 
                                          
 分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都出于80分以下。
  
 有时候我们会发现箱形图的某一部分仿佛被隐藏了,比如下图的第一个箱子。
  
 
  
                                          
 除此之外还有一些极端情况,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多 异常值 。这些情况的出现,有两个常见的原因。第一,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二,样本数据特别少,因此箱体受单个数据的影响被放大了。
  
  案例3:运动员水平分析 
  
 下面是一个箱线图演变过来的案例。从图中我们可以看到,在速度、敏捷、爆发、力量和身体指标五个方面近十年NBA选秀体侧数据的最值、正常水平(盒身)和中值(中位数),其中黄色标注的是周琦的个人数据。
  
 
  
                                                                                  
 综合来看,周琦的体测数据基本达到了NBA中锋的正常水准。在绕桩变向和禁区折返跑这两项敏捷度测试中,周琦表现不俗,有着超越常规NBA中锋的水准。中锋最重要的垂直纵跳一项,周琦也超出了联盟中锋的正常范围。身体素质上,周琦的身高臂展以及体脂水平都可以算得上顶尖。然而从体重这一项我们可以推测,周琦最大的问题在于他的力量。他必须尽快增重,增强自己的身体对抗能力以适应NBA的对抗强度。
  
  案例4:科学研究分析 
  
 箱形图最初的诞生无疑是为科研工作量身打造的,在诸多论文中都可以看到箱形图的使用。下图显示了世界各地地表水中29种不同个人护理产品的浓度分布情况。针对所测量的个人护理产品,中位数浓度通常在0.01和0.1 μg / L之间。

3. 箱线图你真的懂了吗?

 箱线图的理解,以下先画出一个箱线图
   
                                           
   箱线图上下两边是75% 25%分位数,箱子中部的线表示中位数,上下两边的距离称为 四分位距    箱子外的点表示的是上下两边1.5倍四分位距外的观测,即 离群点 , 异常值    箱子延伸出的直线可达到分布中最远的离群点处(此前不清楚为啥还要个直线)

箱线图你真的懂了吗?

4. 箱线图你真的懂了吗?

 箱线图的理解,以下先画出一个箱线图
   
                                           
   箱线图上下两边是75% 25%分位数,箱子中部的线表示中位数,上下两边的距离称为 四分位距    箱子外的点表示的是上下两边1.5倍四分位距外的观测,即 离群点 , 异常值    箱子延伸出的直线可达到分布中最远的离群点处(此前不清楚为啥还要个直线)

5. 箱线图的具体画法

箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:
直观地识别数据中异常值(离群点);
直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。
中横线:中位数
IQR:75%分位数(Q3)-25%分位数(Q1)
最小观察值(下边缘) = Q1 – 1.5 IQR
最大观察值 (上边缘)= Q3 + 1.5 IQR
箱盒图的使用场景情况如下:
查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
非参数检验时查看不同类别X时,Y的数据分布情况;
其它涉及查看数据分布或者异常值查看时。
SPSSAU操作截图如下:
上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充,或者在分析时进行过滤。
SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图如下:

上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。

箱线图的具体画法

6. 箱线图怎么画

箱线图怎么画
箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途,分别如下:
直观地识别数据中异常值(离群点);
直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。中横线:中位数
IQR:75%分位数(Q3)-25%分位数(Q1)
最小观察值(下边缘) = Q1 – 1.5 IQR
最大观察值 (上边缘)= Q3 + 1.5 IQR

箱盒图的使用场景情况如下:查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
非参数检验时查看不同类别X时,Y的数据分布情况;
其它涉及查看数据分布或者异常值查看时。

1.选取单元格区域A1:D5,单击“图表向导”图标2.在弹出的“图表类型”对话框中选中股价图的“开盘-盘高-盘低-收盘图”(第2个子图表类型),按下一步键。3.在图表数据源对话框的数据区域中将“系列产生在”修改为“行”,按下一步键。4.在“图表选项”对话框的分类(X)轴下方填入“治疗组”,在数值(Y)轴下方填入“最大呼气量(FEV)”,按完成键。5.在绘图区点击右键,选取“数据源→系列→添加”,在“名称”右侧用鼠标选取单元格A6,在“值”右侧用鼠标选取单元格区域B6:D6按确定键。6.在网格线上点击右键,“清除”网格线;在绘图区单击右键“清除”背景色。7.在横坐标上单击右键,选取“坐标轴格式→图案”,右上部主要刻度线类型复选“无”,按确定键。8.在纵坐标上单击右键,选取“坐标轴格式→数字→数值”,小数位数改为“0”,按确定键。9.在箱的中心位置P50系列标志上单击右键,选取“数据系列格式→图案”,在界面右侧数据标记的样式处选取“+”,前景颜色处选黑色,“大小”改为6磅,按确定键;在箱线图的顶部P100系列标志上单击右键,选取“数据系列格式→图案”,在界面右侧数据标记的样式处选取长横线“-”,前景颜色处选黑色,“大小”改为6磅,按确定键;在箱线图的底部P0系列标志上单击右键,选取“数据系列格式→图案”,在界面右侧数据标记的样式处选取长横线“-”,前景颜色处选黑色,“大小”改为6磅,按确定键。10.适当调整绘图区的大小,调整整个图表区域的字体大小,去除图表区的边框等,可获得箱线图。

7. 箱线图怎么画

工具/原料:戴尔xps15、Win10、OfficePPT2016
方法:
1、打开PPT2016办公软件。

2、点击菜单栏中的插入。

3、点击图表。

4、点击箱形图,点击箱形图,点击确定。

5、插入箱形图图表成功。

6、点击加号,添加图标元素。

7、点击毛刷,添加样式和颜色。

箱线图怎么画

8. 箱线图和条形图

 箱线图(boxplot)又称为盒须图,是一种描述连续型变量分布的统计图,因形状如箱子而得名。箱线图提供了一种使用5个点对数据集做简单总结的方式。这5个点包括 最小值(minimum)、下四分位数(第25百分位数,Q1)、中位数(第50百分位数,Q2)、上四分位数(第75百分位数,Q3)以及最大值(maximum) 。
    IQR表示四分位距(interquartile range), 即上四分位数与下四分位数的差值(Q3 - Q1)。默认情况下,两条须的延伸极限不会超过矩形盒两端加1.5倍四分位距的范围。此范围以外的值即 离群点(outliers)。 从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间。内限即异常值截断点为Q3 + 1.5 IQR和Q1 - 1.5 IQR,外限为Q3 + 3 IQR和Q1 – 3 IQR。处在内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和异常值(mild outliers),在外限以外的为极端异常值(extreme outliers)。
                                                                                  小提琴图是箱线图的变种,可以当作箱线图与核密度图的结合。与箱线图相比,小提琴图还可以反映数值的密度分布范围。
     
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           
   这里使用的是Rmisc包的summarySE函数。用法为:  summarySE(data = NULL, measurevar, groupvars = NULL, na.rm = FALSE, conf.interval = 0.95, .drop = TRUE)  。measurevar是含有测量值数据的一列的列名。groupvars是分组变量的列的列名。summarySE处理的为长格式数据,可以获得一个包含计数(count,N)、平均值(mean,measurevar)、标准差(standard deviation,sd)、平均值的标准误差(standard error of the mean,se)和置信区间(默认为95%)(confidence interval,mean±ci)的数据框。