《【教学课件】第九章资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第九章资料的统计分析.ppt(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章 资料的统计分析资料的统计分析 在调查结束后,我们必须对收集到的资料进行认真仔细在调查结束后,我们必须对收集到的资料进行认真仔细的整理。而整理的目的是为了分析,没有对资料的分析,的整理。而整理的目的是为了分析,没有对资料的分析,我们就不可能有对研究对象的总体把握,也不可能写出好的我们就不可能有对研究对象的总体把握,也不可能写出好的研究报告。研究报告。当然,作为社会调查研究对象的社会现象有其质和量两当然,作为社会调查研究对象的社会现象有其质和量两方面,我们对整理好的资料也必须展开定性和定量两方面的方面,我们对整理好的资料也必须展开定性和定量两方面的分析,缺一不可。但是,定性分析是以研
2、究者的理论功底为分析,缺一不可。但是,定性分析是以研究者的理论功底为基础,主要靠个人的悟性。定量分析就不同了,它是我们每基础,主要靠个人的悟性。定量分析就不同了,它是我们每个人通过学习都可以统一掌握的技术。所以学习社会研究方个人通过学习都可以统一掌握的技术。所以学习社会研究方法,课堂教学在资料分析方面重点讲得是统计分析,而对定法,课堂教学在资料分析方面重点讲得是统计分析,而对定性分析,本书是以穿插于有关章节的方式并以情境启发的方性分析,本书是以穿插于有关章节的方式并以情境启发的方式来加以讨论的。式来加以讨论的。第一节第一节第一节第一节 统计调查资料及其整理统计调查资料及其整理统计调查资料及其整
3、理统计调查资料及其整理 一、统计分组和频数分布一、统计分组和频数分布一、统计分组和频数分布一、统计分组和频数分布 统计整理是与统计分组相统计整理是与统计分组相联系的。所谓统计分组,就是联系的。所谓统计分组,就是将情况相同或相近的数据资料将情况相同或相近的数据资料加以分门别类的归并,使之简加以分门别类的归并,使之简单明晰,以便为统计分析中提单明晰,以便为统计分析中提取各种有用信息打下基础。取各种有用信息打下基础。经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。统计分组
4、有两方面的含义,对总体(或样本)而言是统计分组有两方面的含义,对总体(或样本)而言是统计分组有两方面的含义,对总体(或样本)而言是统计分组有两方面的含义,对总体(或样本)而言是“分分分分”,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差,即将总体中各个单位按照它们的差异性(如身高的差异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是异)区分为若干部分;对总体单位而言是“合合合合”,即将相近,即将相近,即将相近,即将相近似的单位组合起来。这样,
5、本来杂乱无章的数据便有序化了。似的单位组合起来。这样,本来杂乱无章的数据便有序化了。似的单位组合起来。这样,本来杂乱无章的数据便有序化了。似的单位组合起来。这样,本来杂乱无章的数据便有序化了。频数分布是统计分组的结果,频数分布是统计分组的结果,频数分布是统计分组的结果,频数分布是统计分组的结果,它是指众多的调查数据在各个组它是指众多的调查数据在各个组它是指众多的调查数据在各个组它是指众多的调查数据在各个组(各类别、各等级或各区间)出(各类别、各等级或各区间)出(各类别、各等级或各区间)出(各类别、各等级或各区间)出现或发生的次数。频数分布是对现或发生的次数。频数分布是对现或发生的次数。频数分布
6、是对现或发生的次数。频数分布是对客观事物自然形成的分布状态的客观事物自然形成的分布状态的客观事物自然形成的分布状态的客观事物自然形成的分布状态的集中反映和描述集中反映和描述集中反映和描述集中反映和描述。60名男性青年的身高表名男性青年的身高表(原始资料)(原始资料)单位:厘米单位:厘米 161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178
7、171 152 176 167 171 161 176 168 181 175 159 162 165 168 164 179 157 173 166 172 167 现在我们用现在我们用从某大学大一男从某大学大一男同学中抽取出来同学中抽取出来的的6060人的身高资人的身高资料来编制频数分料来编制频数分布表,布表,6060名男同名男同学身高(以厘米学身高(以厘米计)的原始资料计)的原始资料如右:如右:60名男性青年的身高表名男性青年的身高表 (序列资料)(序列资料)单位:厘米单位:厘米 152 160 163 165 167 169 170 171 174 177 155 161 163 16
8、5 167 169 170 172 174 178 157 161 164 166 168 169 170 172 175 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 179 159 162 165 167 168 169 171 173 176 181 很显然,面很显然,面对这一堆原始数对这一堆原始数据,如果我们不据,如果我们不作简化处理,是作简化处理,是不容易从中看出不容易从中看出什么规律性的。什么规律性的。为此,我们先将为此,我们先将它们由低到高排它们由低到高排成序列资料:
9、成序列资料:身高组身高组(cm)(cm)人数(人数()150154150154154158154158158162158162162166162166166170166170170174170174174178174178178182178182 1 1 2 2 7 7101016161212 7 7 5 5合计合计6060 将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身将原始资料编排成序列资料,实际上是在进行统计汇总。由于身高(高(高(高(X X)是连续变量,我们如果选)
10、是连续变量,我们如果选)是连续变量,我们如果选)是连续变量,我们如果选4cm4cm为间距,我们可以直接把序列资为间距,我们可以直接把序列资为间距,我们可以直接把序列资为间距,我们可以直接把序列资料编制成为含有料编制成为含有料编制成为含有料编制成为含有8 8个组的个组的个组的个组的频数分布表(频数用频数分布表(频数用频数分布表(频数用频数分布表(频数用f f 表示)。表示)。表示)。表示)。如此一来,原如此一来,原如此一来,原如此一来,原来来来来无序的原始资料就变为无序的原始资料就变为无序的原始资料就变为无序的原始资料就变为现在有序的分组资料。与现在有序的分组资料。与现在有序的分组资料。与现在有
11、序的分组资料。与此同时,学生总体中身高此同时,学生总体中身高此同时,学生总体中身高此同时,学生总体中身高的分布状况也清晰地呈现的分布状况也清晰地呈现的分布状况也清晰地呈现的分布状况也清晰地呈现出来。(注:由于身高是出来。(注:由于身高是出来。(注:由于身高是出来。(注:由于身高是连续变量,汇总时使用了连续变量,汇总时使用了连续变量,汇总时使用了连续变量,汇总时使用了“上组限不包括在内上组限不包括在内上组限不包括在内上组限不包括在内”的的的的处理原则。处理原则。处理原则。处理原则。)某校大一某校大一60名男生身高频数分布表名男生身高频数分布表 身高组身高组(cm)(cm)人数(人数(%)1501
12、54150154154158154158158162158162162166162166166170166170170174170174174178174178178182178182 1.7 1.7 3.3 3.311.7 11.7 16.716.726.626.620.020.0 11.7 11.7 8.3 8.3合计合计100.0100.0二、频率分布与总体内部结构二、频率分布与总体内部结构二、频率分布与总体内部结构二、频率分布与总体内部结构 分组资料虽然简单明了,但不能直接看出各组人数占这分组资料虽然简单明了,但不能直接看出各组人数占这分组资料虽然简单明了,但不能直接看出各组人数占这分
13、组资料虽然简单明了,但不能直接看出各组人数占这6060人的比人的比人的比人的比重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料重,从而显示出总体内部结构。为了实现这个要求,就要在分组资料的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用的基础上派生出频率分布表(频率用P P表示)。表示)。表示)。表示)。频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。某校大一某
14、校大一60名男生身高频率分布表名男生身高频率分布表 累计频数(累计频数(F F)n n向上累计向上累计以变量数以变量数列首组的频数为始点,逐列首组的频数为始点,逐个累计各组的频数,展示个累计各组的频数,展示小于该组上限的频数和。小于该组上限的频数和。n n向下累计向下累计以变量数以变量数列末组的频数为始点,逐列末组的频数为始点,逐个累计各组的频数,展示个累计各组的频数,展示大于该组下限的频数和。大于该组下限的频数和。以以以以上上上上我我我我们们们们看看看看到到到到了了了了三三三三种种种种形形形形式式式式的的的的资资资资料料料料:原原原原始始始始资资资资料料料料、次次次次序序序序资资资资料料料料
15、和和和和分分分分组组组组资资资资料料料料,这这这这反反反反映映映映了了了了对对对对资资资资料料料料进进进进行行行行整整整整理理理理和和和和简简简简化化化化的的的的顺顺顺顺序序序序。这这这这三三三三种种种种形形形形式式式式是是是是依依依依次次次次逐逐逐逐步步步步简简简简化化化化和和和和条条条条理理理理化化化化的的的的,使使使使人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。人们看起来越来越容易、越来越清楚。三、图示法三、图示法三、图示法三、图示法 把无序的原始资料整理成频数分布表,是表示统计把无序的原始资料整理成频数分布表,是表示统计资料的一
16、种有效方式,我们可以称为列表法。其实,用资料的一种有效方式,我们可以称为列表法。其实,用图示法来表示统计资料比列表法更能一目了然。我们可图示法来表示统计资料比列表法更能一目了然。我们可以根据整理好的频数分布(或频率分布和累积百分数分以根据整理好的频数分布(或频率分布和累积百分数分布)绘制出相应的统计图。最常用的有直方图、条形布)绘制出相应的统计图。最常用的有直方图、条形图、折线图、曲线图等。图、折线图、曲线图等。对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高对于连续变量的分布,可以用矩形图表示。矩形高度表示各
17、组的频数或频率。在等距分组的条件下,很显度表示各组的频数或频率。在等距分组的条件下,很显度表示各组的频数或频率。在等距分组的条件下,很显度表示各组的频数或频率。在等距分组的条件下,很显然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面然,各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象积同样可以用来表示各组的频数和频率,而且更加形象直观(如前图)。直观(如前图)。
18、直观(如前图)。直观(如前图)。1 1矩形图矩形图 方条图适用于表示离散变量的资料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基方条图适用于表示离散变量的资料。方条图与矩形图基本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量本相同,其高度表示各组的频数(或频率)。对于定类变量和定序变量的测量,它的宽度是没有意义的,各方条之间要和定序变量的测量,它的宽度是没有意义的,各方条之间要和定序变量的测量,它的宽度是没有意义的,各方
19、条之间要和定序变量的测量,它的宽度是没有意义的,各方条之间要留有一定的距离。留有一定的距离。留有一定的距离。留有一定的距离。2 2方条图方条图3 3 3 3折线图折线图折线图折线图 表示频数(或频率)分布的另一种相似的图形是折线表示频数(或频率)分布的另一种相似的图形是折线图。直接把矩形图各矩形顶部的中点用直线连接起来,并图。直接把矩形图各矩形顶部的中点用直线连接起来,并把原来的矩形抹掉,就得到了折线图。把原来的矩形抹掉,就得到了折线图。在在在在许许许许多多多多并并并并非非非非十十十十分分分分严严严严格格格格的的的的场场场场合合合合,人人人人们们们们往往往往往往往往乐乐乐乐于于于于把把把把频频
20、频频数数数数分分分分布布布布的的的的矩矩矩矩形形形形图图图图和和和和折折折折线线线线图图图图修修修修匀匀匀匀成成成成平平平平滑滑滑滑曲曲曲曲线线线线,这这这这样样样样看看看看起起起起来来来来更更更更美美美美观观观观。例例例例如如如如,19011901年年年年至至至至19851985年年年年,全全全全世世世世界界界界已已已已有有有有300300多多多多位位位位科科科科学学学学家家家家获获获获得得得得过过过过诺诺诺诺贝贝贝贝尔尔尔尔物物物物理理理理奖奖奖奖、化化化化学学学学奖奖奖奖和和和和生生生生物物物物医医医医学学学学奖奖奖奖。对对对对这这这这些些些些科科科科学学学学家家家家取取取取得得得得成成
21、成成果果果果的的的的年年年年龄龄龄龄进进进进行行行行统统统统计计计计,结结结结果果果果如如如如下下下下表表表表。再再再再以以以以年年年年龄龄龄龄为为为为横横横横坐坐坐坐标标标标,人人人人数数数数为为为为纵纵纵纵坐坐坐坐标标标标,使使使使可可可可制制制制成成成成“获获获获诺诺诺诺贝贝贝贝尔尔尔尔奖奖奖奖的的的的年龄曲线年龄曲线年龄曲线年龄曲线”(见下图(见下图(见下图(见下图9-39-3)。)。)。)。年龄年龄年龄年龄获奖人数获奖人数获奖人数获奖人数2525岁以下岁以下岁以下岁以下25302530303530353540354040454045455045505050岁以上岁以上岁以上岁以上15
22、15343470706868535337372828合计合计合计合计3053054 4曲线图曲线图第二节第二节 统计分析一:描述统计统计分析一:描述统计 所谓描述统计就是讨论所谓描述统计就是讨论所谓描述统计就是讨论所谓描述统计就是讨论范围仅以搜集资料本身为范围仅以搜集资料本身为范围仅以搜集资料本身为范围仅以搜集资料本身为限,而不予以扩大。包括推限,而不予以扩大。包括推限,而不予以扩大。包括推限,而不予以扩大。包括推论统计在内,没有描述统计论统计在内,没有描述统计论统计在内,没有描述统计论统计在内,没有描述统计作为基础,想要运用好也是作为基础,想要运用好也是作为基础,想要运用好也是作为基础,想要
23、运用好也是不可能的。描述统计所用数不可能的。描述统计所用数不可能的。描述统计所用数不可能的。描述统计所用数学较少,实用性又很强,因学较少,实用性又很强,因学较少,实用性又很强,因学较少,实用性又很强,因此在社会调查研究中使用的此在社会调查研究中使用的此在社会调查研究中使用的此在社会调查研究中使用的机会很多。机会很多。机会很多。机会很多。调调调调查查查查数数数数据据据据资资资资料料料料经经经经分分分分类类类类整整整整理理理理后后后后,已已已已经经经经使使使使杂杂杂杂乱乱乱乱无无无无章章章章的的的的原原原原始始始始数数数数据据据据资资资资料料料料成成成成为为为为有有有有系系系系统统统统、有有有有条
24、条条条理理理理的的的的数数数数据据据据资资资资料料料料,这这这这就就就就为为为为统统统统计计计计分分分分析析析析中中中中提提提提取取取取各各各各种种种种有有有有用用用用信信信信息息息息打打打打下下下下了了了了基基基基础础础础。而而而而在在在在社社社社会会会会研研研研究究究究的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。的定量分析中,描述统计是基础。一、集中趋势统计量一、集中趋势统计量一、集中趋势统计量一、集中趋势统计量 统计分析首先要解决的第一个问题是,要用一统计指标来统计分析首先要解决的第一个问题是,要用一统计指标来统计分析首先要解决的第一个问题是
25、,要用一统计指标来统计分析首先要解决的第一个问题是,要用一统计指标来代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这代表一系列的数据。这个具有代表性的统计指标,能够概括这一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。一系列数据的特征,集中反映这一系列数据的一般水平。主要内容算术平均数中位数众数1 1算术平均数(算术平均数(算术平均数(算术平均数()简单算术平均数简单算术平均数简单
26、算术平均数简单算术平均数(对于未分组资料对于未分组资料)注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1,2,3,1,2,3,N N,NN是总体单位数。是总体单位数。是总体单位数。是总体单位数。例例例例 求求求求7474、8585、6969、9l 9l、8787、7474、6969这些数字的这些数字的这些数字的这些数字的算术平均数。算术平均数。算术平均数。算术平均数。解解解解 78.478.4 加权算术平均数加权算术平均数加权算术平均数加权算术平均数(对于分组资料对于分组资
27、料)注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是注意:对求和符号,此时流动脚标的变动范围是1,2,3 ,1,2,3 ,n n,n n是组数,而是组数,而是组数,而是组数,而不是总体单位数。不是总体单位数。不是总体单位数。不是总体单位数。很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值(X X X X)大小的影响,大小的影响,大小的影响,大小的影响,而且受各组单位数而且受各组单位数而且受各组单位数而且受各组单位数(频数频数频数频数)的影
28、响。由于对于总体的影响要的影响。由于对于总体的影响要的影响。由于对于总体的影响要的影响。由于对于总体的影响要由频数由频数由频数由频数(f f f f)大小所决定,所以大小所决定,所以大小所决定,所以大小所决定,所以 f f f f 也被称为权数。值得注也被称为权数。值得注也被称为权数。值得注也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种值在总体中作用,同时反映了指标的结构,
29、所以它有两种值在总体中作用,同时反映了指标的结构,所以它有两种值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。加权式。加权式。加权式。注意:分组资料有注意:分组资料有单项式单项式和和组距式组距式两种
30、。计算加权两种。计算加权算术平均数,只有对每个变量值可分为一组的离散变量算术平均数,只有对每个变量值可分为一组的离散变量的分组资料(即单项式分组资料,参见下表)才能得到的分组资料(即单项式分组资料,参见下表)才能得到精确的结果。精确的结果。例例例例 求下表求下表求下表求下表(单项数列单项数列单项数列单项数列)所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数 。人口数人口数人口数人口数(X X)户数户数户数户数(f)(f)f Xf X频率频率频率频率(P)(P)2 23 34 45 56 67 78 85 58 8161610106 64 41 110102424
31、6464505036362828 8 80.100.100.160.160.320.320.200.200.120.120.080.080.020.02合计合计合计合计50502202201.001.00 对于对于对于对于组距数列(组距数列(组距数列(组距数列(参见下表)参见下表),要用每一组的组中值,要用每一组的组中值,要用每一组的组中值,要用每一组的组中值权充该组统一的变量值。权充该组统一的变量值。权充该组统一的变量值。权充该组统一的变量值。例例例例 求下表(求下表(求下表(求下表(组距数列)组距数列)组距数列)组距数列)所示数据的算术平均数所示数据的算术平均数所示数据的算术平均数所示数据
32、的算术平均数 。间距间距频数频数(f f)组中值(组中值(X)X)P Pf Xf XP XP X150154150154154158154158158162158162162166162166166170166170170174170174174178174178178182178182 1 1 2 2 7 7101016161212 7 7 5 5 1521521561561601601641641681681721721761761801800.0170.0170.0330.0330.1170.1170.1670.1670.2660.2660.2000.2000.1170.1170.083
33、0.083 152 152 312 3121120112016401640268826882064206412321232 900 900 2.584 2.584 5.184 5.18418.72018.72027.38827.38844.68844.68834.40034.40020.59220.59214.94014.940合计合计 60 601.0001.000 10108 10108 168.496168.496 算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和
34、,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。2 2中位数(中位数(中位数(中位数(M Md d)把总体单位把总体单位某一数量标志的某一数量标志的各个数值按大小各个数值按大小顺序排列,位于顺序排列,位于正中处的变量值,正中处的变量值,即为中位数,用即为中位数,用MMd d表示。表示。M Md d可用于定序、定距、定比资料。对未分组资料对未分组资料对未分组资料对未分组资料
35、(1)(1)、先把所有数据按大、先把所有数据按大小顺序排列,如果总体单小顺序排列,如果总体单位数为奇数,则取第位数为奇数,则取第(N+1N+1)/2/2 位上的变量值位上的变量值为中位数为中位数;(2 2)、如果总体单位数)、如果总体单位数为偶数。因为居中的数值为偶数。因为居中的数值不存在,按惯例,取第不存在,按惯例,取第 N/2N/2位和第(位和第(N+1N+1)/2/2 位位上的两个变量值的平均作上的两个变量值的平均作为中位数。为中位数。数。数。数。数。n n 例例例例 求求求求54545454,65656565,78787878,66666666,43434343这些数字的中位数。这些数
36、字的中位数。这些数字的中位数。这些数字的中位数。n n 例例例例 求求求求54545454,65656565,78787878,66666666,43434343,38 38 38 38 这些数字的中这些数字的中这些数字的中这些数字的中位数。位数。位数。位数。你会吗?例 求72、81、86、69、57这些数字的中位数。解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是MMd d。中位数对于分组资料对于分组资料(2
37、 2)组距数列组距数列组距数列组距数列按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的下限:按中位数所在组的上限:按中位数所在组的上限:按中位数所在组的上限:按中位数所在组的上限:当根据组距数列求中位数时,要采用所谓的比当根据组距数列求中位数时,要采用所谓的比例插值法:先根据例插值法:先根据N N2 2在累计频数分布中找到中位在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数再用以下任何一种方法求出中位数(注意:此处用注意:此处用的是向上累计的是向上累计)。例例 调
38、查大一男生调查大一男生6060人的身高如前表,求他人的身高如前表,求他们身高的中位数。们身高的中位数。解解 第一种方法第一种方法 166166 4 4 1681685(5(厘米厘米)请你用第二种方法来做一下 中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得分组资料有不确定组距时,仍可求得中位数。中位数。(4)中位数受抽样变动的影响较算术平均中位数受抽样变动的影响较算术平均数略大。数略大
39、。3 3众数众数众数众数(Mo)(Mo)众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数(或频或频或频或频数数数数)呈现出呈现出呈现出呈现出“峰峰峰峰”值的那些变量值,用值的那些变量值,用值的那些变量值,用值的那些变量值,用MMo o表示。表示。表示。表示。众数只与次数有关,可以用于定类、定序、众数只与次数有关,可以用于定类、定序、定距、定比资料。定距、定比资料。对于未分组资料对于未分组资料对于未分组资料对于未分组资料 直接观察。首先,将所有数据顺序排列;然后,只直接观察。首先,将所有数据顺序排列;然后,只要观察到某些变量值要观察
40、到某些变量值(与相邻变量值相比较与相邻变量值相比较)出现的次数出现的次数(或频数或频数)呈现呈现“峰峰”值,这些变量值就是众数。值,这些变量值就是众数。对于分组资料对于分组资料对于分组资料对于分组资料 单项式:单项式:单项式:单项式:观察频数分布观察频数分布(或频率分布或频率分布)组距式:组距式:组距式:组距式:Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。例例例例 就就就就7272、8181、5656、8686、8181、5757这几个数字求众数。这几个数字求众数。这几个数字求众数。这几个数字求众数。解解解解 按照众数的定义识别,众数是按照众
41、数的定义识别,众数是按照众数的定义识别,众数是按照众数的定义识别,众数是8181。例例 调查大一男生调查大一男生6060人的身高情况如前表,求他们身人的身高情况如前表,求他们身 高的众数。高的众数。解解 因为是组距式分组资料,运用前式计算因为是组距式分组资料,运用前式计算 为什么众数有时不存在,有时有两个以上?二、离中趋势统计量二、离中趋势统计量 主要内容主要内容:(:(1 1)全距全距;(2 2)异众比率)异众比率;(;(3 3)标)标准差。准差。所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有例如有A A、B B、C C、DD四
42、组学生各四组学生各5 5人的成绩如下:人的成绩如下:A A组:组:60 60,6060,6060,6060,6060 B B组:组:5858,5959,6060,6161,6262 C C组:组:4040,5050,6060,7070,8080 D D组:组:8080,8080,8080,8080,8080 数据显示,平均数相同,离势可能不同;平均数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。数不同,离势可能相同。1.全距全距(R)R=Xmax Xmin 例例 求求7474,8484,6969,9191,8787,7474,6969这些数字这些数字的全距。的全距。解解 把数字按
43、顺序重新排列:把数字按顺序重新排列:6969,6969,7474,7474,8484,8787,9191,显然有,显然有 R=Xmax Xmin 91 6922 全距(全距(R R):最大值和最小值之差。也叫):最大值和最小值之差。也叫极差极差。全距越大,表示变动越大。全距越大,表示变动越大。优点:优点:缺点:缺点:计算简单、计算简单、计算简单、计算简单、直观。直观。直观。直观。(1 1)受极端值影响大;)受极端值影响大;)受极端值影响大;)受极端值影响大;(2 2)没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间没有量度中间各个单位间的差异性,数据利用率的差异性,数据利用率
44、的差异性,数据利用率的差异性,数据利用率 低,信息丧低,信息丧低,信息丧低,信息丧失严重;失严重;失严重;失严重;(3 3)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样)受抽样变动影响大,大样本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距大。本全距比小样本全距大。2.2.异众比率异众比率异众比率异众比率(VVR R)所谓异众比率,是指非众数的频数与总体单位数所谓异众比率,是指非众数的频数与总体单位数的比值,用的比值,用VVR R来表示来表示 其中:其中:为众数的频数;为众数的频数;是总体单位数是总体单位数 异众比率能表明众数所异众比率能表明众数所异众比
45、率能表明众数所异众比率能表明众数所不能代表的那一部分变不能代表的那一部分变不能代表的那一部分变不能代表的那一部分变量值在总体中的比重。量值在总体中的比重。量值在总体中的比重。量值在总体中的比重。例例例例 调查某小区调查某小区调查某小区调查某小区50505050户家庭的人口情况如表户家庭的人口情况如表户家庭的人口情况如表户家庭的人口情况如表9.59.59.59.5,求,求,求,求异众比率。异众比率。异众比率。异众比率。解解解解 3.标准差(标准差(标准差(标准差(S)S)在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用标在统计分析中,对于定距变量,用
46、标准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做准差来作为离中趋势统计量是最基本的做法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的法。这是指在一组数据中,各数值之间的差距是不相等的,有的差距大,有的差距差距是不相等的,有的差距大,有的差距差距是不相等的,有的差距大,有的差距差距是不相等的,有的差距大,有的差距小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来小,以它们之间平均相差多少作为标准来衡量一组数据的离散程度
47、,即标准差。更衡量一组数据的离散程度,即标准差。更衡量一组数据的离散程度,即标准差。更衡量一组数据的离散程度,即标准差。更准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于准确地讲,标准差用于衡量各数值相对于算术平均数的平均偏离程度。算术平均数的平均偏离程度。算术平均数的平均偏离程度。算术平均数的平均偏离程度。对于未分组资科对于未分组资科对于未分组资科对于未分组资科 一个数据与该组数据的算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所有离差平方的算术平均,这是所谓的均方差,简称方差(
48、)。将方差开平方后所得的值就是标准差。方差方差:标准差标准差:例例例例 求求求求7272、8181、8686、6969、57 57 这些数字的标准差。这些数字的标准差。这些数字的标准差。这些数字的标准差。对于分组资料对于分组资料对于分组资料对于分组资料 计算左边数列的标准差 例例例例 调查大一男生调查大一男生调查大一男生调查大一男生6060人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的人的身高情况如前表所示,求他们身高的标准差。标准差。标准差。标准差。解解解解 因为是分组资料,运用(因为是分组资料,运用(因为是分组资料,运用(因为是
49、分组资料,运用(9.109.10)式,计算参见下表)式,计算参见下表)式,计算参见下表)式,计算参见下表 值得注意的是,计算分组资料的标准差,也可以依据值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:频率分布来进行计算式由此可以写成:或者或者第三节第三节 统计分析二:推论统计统计分析二:推论统计 所谓推论统计,所谓推论统计,所谓推论统计,所谓推论统计,主要是依据概率论,主要是依据概率论,主要是依据概率论,主要是依据概率论,研究如何依据有限资研究如何依据有限资研究如何依据有限资研究如何依据有限资料对总体性质作推断,料对总体性质作推断,料对总体性质作推断,料对总体性
50、质作推断,从而使统计的功能大从而使统计的功能大从而使统计的功能大从而使统计的功能大为扩充。为扩充。为扩充。为扩充。在在在在社社社社会会会会研研研研究究究究中中中中,抽抽抽抽样样样样调调调调查查查查被被被被公公公公认认认认为为为为是是是是一一一一种种种种最最最最完完完完善善善善、最最最最有有有有科科科科学学学学根根根根据据据据的的的的调调调调查查查查方方方方法法法法。然然然然而而而而它它它它在在在在数数数数学学学学上上上上要要要要求求求求比比比比较较较较高高高高,一一一一定定定定要要要要有有有有推推推推论论论论统统统统计计计计。那那那那种种种种认认认认为为为为样样样样本本本本理理理理所所所所当当