《统计学基础 第三章 数据分布特征的描述.ppt》由会员分享,可在线阅读,更多相关《统计学基础 第三章 数据分布特征的描述.ppt(141页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1普通高等教育普通高等教育“十一五十一五”国家级规划教材国家级规划教材统计学导论统计学导论STATISTICS 科学出版社科学出版社第三章第三章 数据分布特征的描述数据分布特征的描述第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定第二节第二节 统计变量离散程度的测定统计变量离散程度的测定第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度第四节第四节 利用利用Excel计算描述统计指标计算描述统计指标第一节第一节 统计变量集中趋势的测定统计变量集中趋势的测定平均指标的基本理论平均指标的基本理论数值平均数数值平均数位置平均数位置平均数平均数的应用平均数的应用数据分布的特征数据分布的特
2、征数据分布的位置特征和离散特征。数据分布的位置特征和离散特征。位置特征位置特征离散特征离散特征第一节第一节 平均指标的基本理论平均指标的基本理论 一、平均指标的概念和分类一、平均指标的概念和分类 平均指标也称为统计平均数,它是说明同平均指标也称为统计平均数,它是说明同质总体内某一数量标志在具体时间、地点条质总体内某一数量标志在具体时间、地点条件下达到的一般水平的综合指标。件下达到的一般水平的综合指标。平均指标的种类平均指标的种类(一)(一)算术平均数算术平均数(二)(二)调和平均数调和平均数(三)(三)几何平均数几何平均数(四)(四)中位数中位数(五)(五)众数众数数值平均数数值平均数位置平均
3、数位置平均数二、数值平均数二、数值平均数 (一)算术平均数的基本形式(一)算术平均数的基本形式例:例:直直接接承承担担者者 注意区分算术平均数与强度相对数注意区分算术平均数与强度相对数算术平均数和强度相对数的区别算术平均数和强度相对数的区别 (1)算术平均数是根据同一个总体的标)算术平均数是根据同一个总体的标志总量和总体总量计算的,分子分母来自同志总量和总体总量计算的,分子分母来自同一个总体;而强度相对数是两种有密切联系一个总体;而强度相对数是两种有密切联系现象之比,分子分母分别来自两个总体。现象之比,分子分母分别来自两个总体。(2)算术平均数对比的分子分母存在着)算术平均数对比的分子分母存在
4、着依存汇总关系,分子是根据分母得来的;而依存汇总关系,分子是根据分母得来的;而强度相对数对比的分子分母不存在依存汇总强度相对数对比的分子分母不存在依存汇总关系。关系。算术平均数的计算方法算术平均数的计算方法 1.简单算术平均数简单算术平均数n把每项数据直接加总后除以它们的项数。把每项数据直接加总后除以它们的项数。n通常用于对未分组的数据计算算术平均数。通常用于对未分组的数据计算算术平均数。n计算公式:计算公式:分分组组例题例题1表表 5-25-2年龄年龄人数(人)人数(人)x xf f22224 42525101030305 550501 1合计合计2020表表 5-15-1男性男性女性女性2
5、2222222222222222525252525252525252525252525252525252525303030303030303050503030n解:采用简单算术平均法计算,即全体队解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):员的平均年龄为(单位:周岁):若采用简单平均:若采用简单平均:分组数据不能简单分组数据不能简单平均平均!因为各组变!因为各组变量值的次数不等!量值的次数不等!2.加权算术平均数加权算术平均数适用于总体资料经过分组适用于总体资料经过分组整理形成变量数列的情况整理形成变量数列的情况 加权算术平均数的加权算术平均数的计算公式计算公式:加权是为
6、了体现各变量值轻重不同的影响作用,加权是为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的对各个变量值赋予不尽相同的权数(权数(fi).上例分组后的正确计算方法是:上例分组后的正确计算方法是:表现为次数、频数、单位数;即表现为次数、频数、单位数;即公式公式公式公式 中的中的中的中的 表现为频率、比重;即公式表现为频率、比重;即公式表现为频率、比重;即公式表现为频率、比重;即公式中的中的中的中的指指变量数列中各组标志值出现的次数,变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志是变量值的承担者,反映了各组的标志值对平均数的影响程度。值对平均数的影响程度。权数权数权数
7、权数绝对权数绝对权数绝对权数绝对权数相对权数相对权数相对权数相对权数3.算术平均数的数学性质算术平均数的数学性质(1)变量值与其算术平均数的离差之和衡等变量值与其算术平均数的离差之和衡等于零,即:于零,即:(2 2)变量值与其算术平均数的离差平方和变量值与其算术平均数的离差平方和为最小,即:为最小,即:(二)调和平均数(二)调和平均数 调和平均数是总体各单位标志值倒数的算调和平均数是总体各单位标志值倒数的算术平均数的倒数,又叫术平均数的倒数,又叫倒数平均数。倒数平均数。调和平均数的计算形式也分为简单调和调和平均数的计算形式也分为简单调和平均数和加权调和平均数两种。平均数和加权调和平均数两种。一
8、、简单调和平均数一、简单调和平均数 适用于总体资料未经分组整理、尚为原适用于总体资料未经分组整理、尚为原始资料的情况。始资料的情况。其计算公式为:其计算公式为:【例例2】设市场上某种蔬菜早市每斤设市场上某种蔬菜早市每斤1元,中午元,中午每斤每斤2元,晚市每斤元,晚市每斤2.5元,若早、中、晚各买元,若早、中、晚各买1元,问每斤的平均价格。元,问每斤的平均价格。分析:分析:(1)早、中、晚各买)早、中、晚各买1元,共买了元,共买了3元;元;(2)早上用)早上用1元买了元买了1斤,中午用斤,中午用1元买了元买了0.5斤,晚上用斤,晚上用1元买了元买了0.4斤,一共买了斤,一共买了1+0.5+0.4
9、=1.9斤;斤;(3)平均每斤的价格为)平均每斤的价格为 把以上过程综合起来,平均价格的计算把以上过程综合起来,平均价格的计算过程如下:过程如下:二、加权调和平均数二、加权调和平均数 适用于总体资料经过分组整理形成变量适用于总体资料经过分组整理形成变量数列的情况。数列的情况。其计算公式为:其计算公式为:【例例3】设市场中某种蔬菜早、中、晚的所购设市场中某种蔬菜早、中、晚的所购金额不同,求平均采购价格。金额不同,求平均采购价格。价格(元价格(元/斤)斤)采采购金金额/元元采采购量量/斤斤xmm/x早市早市中午中午晚市晚市1.002.002.5045642.52.4合合计158.9 【解解】平均每
10、斤价格:平均每斤价格:当己知各组变量值和标志总量时,调和平当己知各组变量值和标志总量时,调和平均数可以作为算术平均数变形使用。均数可以作为算术平均数变形使用。因为:因为:加权算术平均数和加权调和平均数的联加权算术平均数和加权调和平均数的联系:系:二者的应用条件不同:如果资料中给出二者的应用条件不同:如果资料中给出每组变量值每组变量值x和对应的次数和对应的次数f,而没有给出各,而没有给出各组的标志总量组的标志总量xf,这时要用加权算术平均数,这时要用加权算术平均数计算平均数;如果资料中给出每组变量值计算平均数;如果资料中给出每组变量值x和和各组的标志总量各组的标志总量xf,而没有给出各组的次数,
11、而没有给出各组的次数f,这是要用调和平均数计算平均数。,这是要用调和平均数计算平均数。(三)由相对数或平均数计算平均数(三)由相对数或平均数计算平均数由于比值(由于比值(平均数或相对数平均数或相对数)不能直接相加,求)不能直接相加,求解比值的平均数时,需将其还原为构成比值的分解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比。子、分母原值总计进行对比。设相对数设相对数 分子变量分子变量分子变量分子变量分母变量分母变量分母变量分母变量则有:则有:己知己知己知己知,采用基本,采用基本,采用基本,采用基本平均数公式平均数公式平均数公式平均数公式己知己知己知己知 ,采用加权算术采用加权
12、算术采用加权算术采用加权算术平均数公式平均数公式平均数公式平均数公式己知己知己知己知 ,采用加权调和采用加权调和采用加权调和采用加权调和平均数公式平均数公式平均数公式平均数公式比值比值比值比值1.由相对数计算平均数由相对数计算平均数【例例4】根据下表资料计算该地区全部商店的根据下表资料计算该地区全部商店的平均流通费用率。平均流通费用率。商店按年商品商店按年商品流转额分组流转额分组/万元万元各组商店平各组商店平均流通费用均流通费用率率X/%流转额流转额f/万元万元流通费用流通费用m=Xf/万元万元100以下以下100-200200-300300-400400-500500以上以上 11.5 11
13、.09.4 7.86.65.7 1001050325024501800110011.5 115.5 305.5 191.1 118.862.7合计合计9750805.1 【解解】:如果只有第:如果只有第1、2栏资料,没有第栏资料,没有第3栏栏资料,这时需要用加权算数平均法进行计算,资料,这时需要用加权算数平均法进行计算,即六个组的平均费用率为:即六个组的平均费用率为:现在假定如果掌握的资料中没有第现在假定如果掌握的资料中没有第2栏,栏,只有第只有第1栏和第栏和第3栏,那么需要用调和平均法栏,那么需要用调和平均法进行计算,即平均流通费用率为:进行计算,即平均流通费用率为:2.由平均数计算平均数由
14、平均数计算平均数 【例例5】已知某商品在市场上的平均价格以及已知某商品在市场上的平均价格以及销售量资料如下表所示,现依据表中资料计销售量资料如下表所示,现依据表中资料计算总平均价格。算总平均价格。市场市场平均价格平均价格X(元(元/千克)千克)销售量销售量f/千克千克销售额销售额M=Xf/元元甲甲乙乙丙丙 1.80 2.20 1.80 30000 20000 25000 54000 44000 45000 合计合计 75000 143000 解:解:若已知销售量,需要加权算数平均若已知销售量,需要加权算数平均法。法。若未知销售量,直接掌握销售额,则若未知销售量,直接掌握销售额,则应用加权调和平
15、均数。应用加权调和平均数。(四)几何平均数(四)几何平均数几何平均数是几何平均数是N N项变量值连乘积的开项变量值连乘积的开N N次方根。次方根。用于计算现象的平均比率或平均速度。用于计算现象的平均比率或平均速度。应用:应用:qq各个比率或速度的连乘积等于总比率或总速度;各个比率或速度的连乘积等于总比率或总速度;各个比率或速度的连乘积等于总比率或总速度;各个比率或速度的连乘积等于总比率或总速度;qq相乘的各个比率或速度不为零或负值。相乘的各个比率或速度不为零或负值。相乘的各个比率或速度不为零或负值。相乘的各个比率或速度不为零或负值。应用的前提条件:应用的前提条件:1.简单几何平均数简单几何平均
16、数 适用于总体资料未经分组整理尚为适用于总体资料未经分组整理尚为原始资料的情况。原始资料的情况。其计算公式为:其计算公式为:【例例6】某流水生产线有前后衔接的五道工序。某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平,求整个流水生产线产品的平均合格率。均合格率。因该流水线的最终合格品即为第五道工序因该流水线的最终合格品即为第五道工序的合格品,的合格品,故该流水线总的合格品应为故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:则该流水线产品总的合格
17、率为:即该流水线总的合格率等于各工序合格率即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。需采用几何平均法计算。若上题中不是由五道连续作业的工序组若上题中不是由五道连续作业的工序组成的流水生产线,而是成的流水生产线,而是五个独立作业五个独立作业的车间,的车间,且各车间的合格率同前,又假定各车间的产且各车间的合格率同前,又假定各车间的产量相等均为量相等均为100件,求该企业的平均合格率。件,求该企业的平均合格率。不再符合几何平均数的适用条件,需按照求解相不再符合几何平均数的适用条件,需按照求解相对数的平均数的方
18、法计算。又因为对数的平均数的方法计算。又因为应采用加权算术平均数公式计算,即应采用加权算术平均数公式计算,即2.加权几何平均数加权几何平均数 适用于总体资料经过分组整理形成适用于总体资料经过分组整理形成变量数列的情况。变量数列的情况。其计算公式为:其计算公式为:【例例7】某某金融机构以复利计息。近金融机构以复利计息。近12年来的年来的年利率有年利率有4年为年为 3,2年为年为5,2年为年为8,3年年为为10,1年为年为15。求平均年利率。求平均年利率。设本金为设本金为V,则至各年末的本利和应为:则至各年末的本利和应为:第第1年末本利和为:年末本利和为:第第2年末本利和为:年末本利和为:第第12
19、年末本利和为:年末本利和为:第第2年的计年的计息基础息基础第第12年的计年的计息基础息基础则该笔本金则该笔本金12年总的本利率为:年总的本利率为:即即12年总本利率等于各年本利率的连乘积年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。本利率应采用几何平均法。解解:若上题中不是按复利而是按若上题中不是按复利而是按单利计息单利计息,且各年的利率与上相同,求平均年利率。且各年的利率与上相同,求平均年利率。分分析析第第1年末的应得利息为年末的应得利息为:第第2年末的应得利息为年末的应得利息为:第第12年末的应得利息为
20、:年末的应得利息为:设本金为设本金为V,则各年末应得利息为:则各年末应得利息为:则该则该笔本金笔本金12年应得的利息总和为:年应得的利息总和为:=V(0.034+0.052+0.151)这里的利息率或本利率不再符合几何这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平平均数的适用条件,需按照求解比值的平均数的方法计算。因为均数的方法计算。因为假定本假定本金为金为V 所以,应采用加权算术平均数公式计算平所以,应采用加权算术平均数公式计算平均年利息率,即均年利息率,即:解:解:(五)(五)数值平均数计算公式的选用顺序数值平均数计算公式的选用顺序是否为比率是否为比率或速度或速度各个
21、比率或速各个比率或速度的连乘积是否等于总比度的连乘积是否等于总比率或总速度率或总速度是否为是否为其他比值其他比值是是是是否否否否否否否否是是是是否否否否是是是是 几何平均法几何平均法算术平均法算术平均法求解比值的平均数的方法求解比值的平均数的方法指标指标三、位置平均数三、位置平均数 (一)众数(一)众数 指总体中出现次数最多的变量值,用指总体中出现次数最多的变量值,用 表示,它不受极端数值的影响,用来说表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。明总体中大多数单位所达到的一般水平。众数的确定:众数的确定:1.单项数列单项数列确定众数的方法:出现次数最多的标志确定众数的
22、方法:出现次数最多的标志值就是众数。值就是众数。例如,已知例如,已知某企业某日工人的日产量资料如下某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800800计算该企业该日全部工人日产量的众数。计算该企业该日全部工人日产量的众数。2.组距数列组距数列确定众数的方法确定众数的方法由由最多次数来确定众数所在组最多次数来确定众数所在组按按公式计算众数公式计算众数【例例8 8】某厂工人生产某种零件数量的资料如某厂工人生产某种零件数量的资料如下,计算众数:下,计算众数:月生产零件数量月生产零件数量/个个工人人数工
23、人人数/人人200以下以下200400400600600以上以上 3 732 8合计合计50月产量(件)工人人数(人)向上累计次数(人)200以下200400400600600以上 3 732 8 3104250合计50出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200没有突出地集中在没有突出地集中在某个年份某个年份413名学生出生时间分布直方图名学生出生时间分布直方图众数的原理及应用众数的原理及应用(无众数)(无众数)众数的原理及应用众数的原理及应用192.5190.5188.5186.5184.5182.518
24、0.5178.5176.5174.5172.5170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100413413名学生的身高分布直方图名学生的身高分布直方图名学生的身高分布直方图名学生的身高分布直方图(双众数)(双众数)当数据分布呈现出双众数或多众数时,可以当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。断定这些数据来源于不同的总体。出现了两个明显出现了两个明显的分布中心的分布中心(二)中位数(二)中位数 1.概念:概念:将总体各单位标志值按大小顺序排列后,将总体各单位标志值按大小顺
25、序排列后,指处于数列中间位置的标志值,用指处于数列中间位置的标志值,用 表示。表示。不受不受极端数值的影响,在总体标志值差异很大极端数值的影响,在总体标志值差异很大时,具有较强的代表性。时,具有较强的代表性。2.中位数的作用:中位数的作用:中位数的确定中位数的确定1.由由未分组未分组资料确定中位数资料确定中位数(1)对某个标志值按大小顺序资料加以排列;)对某个标志值按大小顺序资料加以排列;(2)然后用下列公式确定中位数的位置。)然后用下列公式确定中位数的位置。n为偶数为偶数n为奇数为奇数中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例例9 9】某售
26、货小组某售货小组5 5个人,某天的销售额按从小到个人,某天的销售额按从小到大的顺序排列为大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数应为第中位数应为第3和第和第4个单位标志值的算术平均数,即个单位标志值的算术平均数,即 再例如,上述售货小组为再例如,上述售货小组为6 6个人,某天的销售额个人,某天的销售额按从小到大的顺序排列为按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元、元、760760元,则元,则中位数位置:中位数位置:中位数的确定中位数的确
27、定2.由由单项数列单项数列确定中位数确定中位数 计算各组的累计次数;计算各组的累计次数;根据中位数位置确定中位数。根据中位数位置确定中位数。【例例1010】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数(人)向上累计次数(人)1011121314 70100380150100 70170550700800合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的确定中位数的确定3.由由组距数列组距数列确定中位数确定中位数确定中位数的值。确定中位数的值。从数列的累积频数栏确定
28、第从数列的累积频数栏确定第 个单位所在的组,个单位所在的组,即中位数组;即中位数组;式中:式中:L表示中位数所在组的下限;表示中位数所在组的下限;中为数所在组的次数;中为数所在组的次数;中位数所在组以前各组的累积次数;中位数所在组以前各组的累积次数;d 中位数所在组的组距;中位数所在组的组距;【例例1111】某某车间车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上 3 732 8 3104250合计合计50计算该车间工人月产量的中位数。计算该车
29、间工人月产量的中位数。月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上 3 732 8 3104250合计合计50计算该车间工人月产量的中位数。计算该车间工人月产量的中位数。下限公式为:下限公式为:上限公式为:上限公式为:(三)分位数(三)分位数(选学)(选学)一般称能够将全部总体单位按标志值大一般称能够将全部总体单位按标志值大小等分为小等分为k k个部分的数值为个部分的数值为“k k分位数分位数”。一般并不表明分布的集中趋势一般并不表明分布的集中趋势一般并不表明分布的集中趋势一般并不表明分布的集中趋势
30、(也即本身不属于位置也即本身不属于位置也即本身不属于位置也即本身不属于位置平均数平均数平均数平均数),但可以作为考察分布集中趋势和变异状况,但可以作为考察分布集中趋势和变异状况,但可以作为考察分布集中趋势和变异状况,但可以作为考察分布集中趋势和变异状况的有效工具。的有效工具。的有效工具。的有效工具。分位数的作用:分位数的作用:1.四分位数四分位数 四分位数是能够将全部总体单位按标志四分位数是能够将全部总体单位按标志值大小等分为四部分的三个数值,分别记为值大小等分为四部分的三个数值,分别记为 。第一个四分位数。第一个四分位数 也叫也叫“下四分位数下四分位数”;第三个四分位数第三个四分位数 也叫也
31、叫“上四分位数上四分位数”。的位次为:的位次为:四分位数的确定四分位数的确定(未分组资料)(未分组资料)的位次为:的位次为:的位次为:的位次为:如果如果(n+1)是是4的倍数,则按上面公式计算出的倍数,则按上面公式计算出来的位次都是整数,这时来的位次都是整数,这时,各个位次上的标,各个位次上的标志值就是相应的四分位数;志值就是相应的四分位数;如果如果(n+1)不是不是4的倍数,按上面公式计算出的倍数,按上面公式计算出来的四分位数位次就可能带有小数,这时,来的四分位数位次就可能带有小数,这时,有关的四分位数就应该是与该带小数相邻的有关的四分位数就应该是与该带小数相邻的两个整数位次上的标志值的某种
32、加权算术平两个整数位次上的标志值的某种加权算术平均数。均数。【例例1212】当当给定给定n=50n=50,容易确定:容易确定:的位次的位次=51=514=12.754=12.75 的位次的位次=51=512=25.52=25.5 的位次的位次=3=351514=38.254=38.25这时第一个四分位数应该为:这时第一个四分位数应该为:四分位数的确定四分位数的确定(分组资料)(分组资料)【例例13】某市居民家庭收入资料如下,要求计算居民某市居民家庭收入资料如下,要求计算居民家庭收入的四分位数。家庭收入的四分位数。年收入水平(元)年收入水平(元)居民户数(居民户数(f)向上累计向上累计8000以
33、下以下8000-1000010000-1500015000-2000020000-2500025000-3000030000-3500035000-4000040000以上以上 18 74180240260140 53 26 9 18 92 272 512 772 912 965 9911 000合计合计1 000四分位数的确定四分位数的确定(分组资料)(分组资料)(二)十分位数(二)十分位数 十分位数是能够将全部总体单位按标志值大十分位数是能够将全部总体单位按标志值大小等分为十部分的九个数值,分别记为小等分为十部分的九个数值,分别记为 。第一个十分位数。第一个十分位数 也叫也叫“下十分位数下
34、十分位数”;第九个十分位数;第九个十分位数 也叫也叫“上十分位数上十分位数”。十分位数的确定十分位数的确定(未分组资料)(未分组资料)的位次为:的位次为:的位次为:的位次为:的位次为:的位次为:的位次为:的位次为:如果如果(n+1)是是10的倍数,则按上面公式计的倍数,则按上面公式计算出来的位次都是整数,这时,各个位算出来的位次都是整数,这时,各个位次上的标志值就是相应的十分位数;次上的标志值就是相应的十分位数;如果如果(n+1)(n+1)不是不是1010的倍数,按上面公式计的倍数,按上面公式计算出来的十分位数位次就可能带有小数,算出来的十分位数位次就可能带有小数,这时,有关的十分位数就应该是
35、与该带小这时,有关的十分位数就应该是与该带小数相邻的两个整数位次上的标志值的某种数相邻的两个整数位次上的标志值的某种加权算术平均数。加权算术平均数。(三)各种平均指标的比较(三)各种平均指标的比较 1.算术平均数、调和平均数与几何平均数的算术平均数、调和平均数与几何平均数的关系关系 2.算术平均数和众数、中位数的数量关系算术平均数和众数、中位数的数量关系n在对称分布中,三者相等在对称分布中,三者相等.即:即:均值均值=Me=Mo;x MeMe xn在左偏分布中,一般有:在左偏分布中,一般有:均值均值MeMon在右偏分布中,一般有:在右偏分布中,一般有:Mo Me 均值均值。n皮尔生经验公式:在
36、轻微偏态时,三者皮尔生经验公式:在轻微偏态时,三者的近似关系:的近似关系:第二节统计变量离散程度的测定第二节统计变量离散程度的测定 离散指标的基本理论离散指标的基本理论极差和平均差极差和平均差方差和标准差方差和标准差离散系数离散系数异众比率异众比率离散特征离散特征离散特征数的含义一、变异指标的基本理论一、变异指标的基本理论指总体中各单位标志值背离指总体中各单位标志值背离分布中心的规模或程度,用分布中心的规模或程度,用标志变异指标标志变异指标来反映。来反映。离中趋势离中趋势反映统计数据差异程度的综反映统计数据差异程度的综合指标,也称为合指标,也称为标志变动度标志变动度变异指标值越大,平均指标的代
37、表性越小;变异指标值越大,平均指标的代表性越小;变异指标值越大,平均指标的代表性越小;变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大反之,平均指标的代表性越大反之,平均指标的代表性越大反之,平均指标的代表性越大变异指标的作用变异指标的作用q衡量和比较衡量和比较平均数平均数代表性的大小;代表性的大小;q是进行是进行质量控制质量控制的基础;的基础;q是衡量风险程度的尺度。是衡量风险程度的尺度。例如:某车间有两个生产小组,各有例如:某车间有两个生产小组,各有7名名工人,各人日产量如下工人,各人日产量如下:甲组:甲组:20,40,60,70,80,100,120乙组:乙组:67,68
38、,69,70,71,72,73变异指标的种类变异指标的种类以标志值之间相互比较说明变异情况以标志值之间相互比较说明变异情况 以平均数为比较标准来说明标志的变异情况以平均数为比较标准来说明标志的变异情况 以正态分布为标准说明分配数列偏离情况以正态分布为标准说明分配数列偏离情况的指标的指标 平均差平均差标准差标准差平均差系数平均差系数标准差系数标准差系数方方差差峰度峰度偏度偏度全距全距分位差分位差二、极差和平均差二、极差和平均差 (一)极差(一)极差 全距是总体单位中,最大标志值与最小全距是总体单位中,最大标志值与最小标志值之差,又称标志值之差,又称“全距全距”。最大变量值或最最大变量值或最高组上
39、限或开口高组上限或开口组假定上限组假定上限最小变量值或最最小变量值或最低组下限或开口低组下限或开口组假定下限组假定下限 【例例14】某售货小组某售货小组5人某天的销售额分别为人某天的销售额分别为4400元、元、4800元、元、5200元、元、6000元、元、7500元,元,则则【例例1515】某车间工人日产零件分组资料如下某车间工人日产零件分组资料如下表所示:表所示:按日产零件数分组按日产零件数分组按日产零件数分组按日产零件数分组零件数零件数零件数零件数(件)(件)(件)(件)工人数工人数工人数工人数(人)(人)(人)(人)10 10 1515151520202020252525 25 303
40、0 125 125 770 770 720 720 220 220 10 1044443232 8 8合计合计合计合计183518359494 若组距式分组中有开口组,则在开口若组距式分组中有开口组,则在开口组上限和下限的计算中,取相邻组的组距为组上限和下限的计算中,取相邻组的组距为开口组组距进行计算。开口组组距进行计算。【例例1616】某季度某工业公司某季度某工业公司1818个企业产值计个企业产值计划完成情况如下:划完成情况如下:计划完成程度计划完成程度计划完成程度计划完成程度%企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)(万元)(万元)(万元)9
41、090以下以下以下以下9090100100100100110110110110以上以上以上以上 2 2 3 31010 3 3 800 800 2 500 2 500 17 200 17 200 4 400 4 400合计合计合计合计181824 90024 900q缺点缺点:仅取决于两个极端值的水平,不能反仅取决于两个极端值的水平,不能反映其间的变量分布情况;映其间的变量分布情况;受个别极端值的影响过于显著,不符受个别极端值的影响过于显著,不符合稳健性和耐抗性的要求。合稳健性和耐抗性的要求。极差的特点极差的特点q优点优点:计算方法简单、易懂;计算方法简单、易懂;(二)平均差(二)平均差 平均
42、差是各个数据与其算术平均数的离平均差是各个数据与其算术平均数的离差绝对值的算术平均数,用差绝对值的算术平均数,用 表示。表示。平均差越大,表明标志变异程度越大;平均差越大,表明标志变异程度越大;反之,平均差越小,表明标志变异程度越小。反之,平均差越小,表明标志变异程度越小。简单平均差简单平均差适用于未分组资料适用于未分组资料总体算术总体算术平均数平均数总体单总体单位总数位总数第第 个单位个单位的变量值的变量值 根据资料是否分组,可有简单平均式和根据资料是否分组,可有简单平均式和加权平均式两种。加权平均式两种。【例例1717】某售货小组某售货小组5 5个人,某天的销售额分个人,某天的销售额分别为
43、别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,元,求该售货小组销售额的平均差。求该售货小组销售额的平均差。解:解:即该即该售货小组售货小组5 5个人销售额的平均差为个人销售额的平均差为93.693.6元。元。加权平均差加权平均差适用于分组资料适用于分组资料总体算术总体算术平均数平均数第第 组变量值组变量值出现的次数出现的次数第第 组的变量组的变量值或组中值值或组中值【例例18】计算下表中某公司职工月工资的平均差计算下表中某公司职工月工资的平均差月工资月工资(元)(元)组组中值(元)中值(元)职工人数(人)职工人数(人)300以下以下3004
44、00400500500600600700700800800900900以上以上250350450550650750850950208314382456305237 78 20合计合计2 000解:解:即该即该公司职工月工资的平均差为公司职工月工资的平均差为138.95138.95元。元。q优点优点:不易受极端数值的影响,能综合反映不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;全部单位标志值的实际差异程度;q缺点缺点:用绝对值的形式消除各标志值与算术用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。理
45、和参与统计分析运算。平均差的特点平均差的特点三、标准差和标准差系数三、标准差和标准差系数 1.标准差的意义及计算方法标准差的意义及计算方法 标准差是各个数据与其算术平均数的离标准差是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用差平方的算术平均数的开平方根,用 来表来表示;标准差的平方又叫作方差,用示;标准差的平方又叫作方差,用 来表来表示。示。简单标准差简单标准差适用于未分组资料适用于未分组资料总体单总体单位总数位总数第第 个单位个单位的变量值的变量值总体算术总体算术平均数平均数 标准差的计算分为简单标准差和加权标标准差的计算分为简单标准差和加权标准差两种。准差两种。【例例19】
46、某售货小组某售货小组5个人,某天的销售额分个人,某天的销售额分别为别为440元、元、480元、元、520元、元、600元、元、750元,元,求该售货小组销售额的标准差。求该售货小组销售额的标准差。解:解:加权标准差加权标准差适用于分组资料适用于分组资料总体算术总体算术平均数平均数第第 组变量值组变量值出现的次数出现的次数第第 组的变量组的变量值或组中值值或组中值【例例20】计算下表中某公司职工月工资的标准差计算下表中某公司职工月工资的标准差月工资(元)月工资(元)组组中值(元)中值(元)职工人数(人)职工人数(人)300以下以下300400400500500600600700700800800
47、900900以上以上250350450550650750850950 208 314 382 456 305 237 78 20合计合计2 000解:解:(比较:其工资的平均差为(比较:其工资的平均差为138.95元)元)即该公司职工月工资的标准差为即该公司职工月工资的标准差为167.9元。元。标准差的特点标准差的特点q不易受极端数值的影响,能综合反映全部不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;单位标志值的实际差异程度;q用平方的方法消除各标志值与算术平均数用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理离差的正负值问题,可方便地用于数学处理和统
48、计分析运算。和统计分析运算。标准差的简便运算标准差的简便运算简单标准差简单标准差简单标准差简单标准差加权标准差加权标准差加权标准差加权标准差避免离差平方和计算过程的出现避免离差平方和计算过程的出现目的目的:变量值平方变量值平方的平均数的平均数变量值平均数变量值平均数的平方的平方 【例例21】某地区某地区7个储蓄户的存款余额分别为个储蓄户的存款余额分别为(百元):(百元):12.0,12.5,14.0,15.0,16.0,18.0,19.5。计算它们的标准差。计算它们的标准差。计算表如下:计算表如下:储蓄序号储蓄序号存款余额(百元)存款余额(百元)123456712.012.514.015.01
49、6.018.019.5 144.00 156.25 196.00 225.00 256.00 324.00 380.00合计合计107.01681.50解:解:【例例22】用下面的资料计算用下面的资料计算420户居民耗电量户居民耗电量的标准差。的标准差。按月耗电量分组按月耗电量分组(度)(度)户数户数(户)(户)组中值组中值 (度)(度)20以下以下20-3030-4040-5050-6060-7070以上以上20408014088322015253545556575300100028006300484020801500 4500 25000 98000 283500 266200 13520
50、0 112500合计合计42018820924900解:解:2.标准差的数学性质标准差的数学性质 (1)变量的方差等于变量平方的平均数减变变量的方差等于变量平方的平均数减变量平均数的平方。量平均数的平方。(2)变量与算术平均数计算的方差小于变)变量与算术平均数计算的方差小于变量与任何其他常数的方差。量与任何其他常数的方差。(3)常数的方差等于零。)常数的方差等于零。(4)变量线性变换的方差等于变量的方差)变量线性变换的方差等于变量的方差乘以变量系数的平方。乘以变量系数的平方。3.标准化值标准化值 对于来自不同均值和标准差的个体的数对于来自不同均值和标准差的个体的数据,不能直接对比。需要将其转化