《第三章 数据分布特征描述.ppt》由会员分享,可在线阅读,更多相关《第三章 数据分布特征描述.ppt(123页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 数据分布特征数据分布特征描述描述STAT原始原始数据数据静态静态分布分布动态动态趋势趋势总量指标总量指标(绝对规模)(绝对规模)相对指标相对指标(相对关系)(相对关系)平均指标平均指标(集中趋势)(集中趋势)变异指标变异指标(离散趋势)(离散趋势)水平指标水平指标(绝对规模)(绝对规模)速度指标速度指标(相对变化)(相对变化)因素分析因素分析(趋势预测)(趋势预测)统计统计指标指标加工加工整理整理第一节第一节 总量指标与相对指标总量指标与相对指标STAT原始原始数据数据统计统计指标指标静态静态分布分布动态动态趋势趋势总量指标总量指标相对指标相对指标平均指标平均指标变异指标变异指标
2、水平指标水平指标速度指标速度指标因素分析因素分析加工加工整理整理人口总数人口总数人口性别比例人口性别比例平均年龄平均年龄年龄标准差年龄标准差不同年份人口数不同年份人口数人口自然增长率人口自然增长率人口数量模型人口数量模型STAT无名数无名数有名数有名数用倍数、系数、成数、用倍数、系数、成数、等表示等表示用双重计量单位表示的复名数用双重计量单位表示的复名数相对指标的表现形式相对指标的表现形式成数应当用整数的形式来表述成数应当用整数的形式来表述3成、近成、近7成成8.6成成 分母分母为为1分母为分母为1.00分母分母为为10分母分母为为100分母为分母为1000STAT 第三章第三章 数据分布特征
3、描述数据分布特征描述第一节第一节 总量指标与相对指标总量指标与相对指标第二节第二节 集中趋势的测定集中趋势的测定第三节第三节 离中趋势的测定离中趋势的测定STAT问题?问题?(1)在概率论中,为什么要研究随机变量的数字特征?(2)随机变量的数字特征有哪些?一一名名统统计计学学家家遇遇到到一一位位数数学学家家,统统计计学学家家调调侃侃数数学学家家说说道道:“你你们们不不是是说说若若且且,则则吗吗!那那么么想想必必你你若若是是喜喜欢欢一一个个女女孩孩,那那么么那那个个女女孩孩喜喜欢欢的的男男孩孩你你也也会会喜喜欢欢喽喽!?”数数学学家家想想了了一一下下反反问问道道:“那那么么你你把把左左手手放放到
4、到一一锅锅一一百百度度的的开开水水中中,右右手手放放到到一一锅锅零零度度的的冰冰水水里里想想来来也也没没事事吧吧!因因为为它它们们平平均均的的温温度度不过是五十度而已!不过是五十度而已!”统计学家与数学家统计学家与数学家 如果你的脚已经踩在炉子上,如果你的脚已经踩在炉子上,而头却在冰箱里,统计学家会告而头却在冰箱里,统计学家会告诉你诉你,平均而言平均而言,你相当舒服。你相当舒服。调侃统计学家调侃统计学家 STAT第二节第二节 集中趋势的测定集中趋势的测定一、集中趋势的涵义一、集中趋势的涵义 二、平均指标的种类及计算方法二、平均指标的种类及计算方法STAT频数表频数表(用(用SPSS制作)制作)
5、有效有效数据数据频数频数频率频率有效有效频率频率累计累计频率频率约约2/3的人身高不超过的人身高不超过165cm83名女生的身高名女生的身高分布的集中趋势、分布的集中趋势、中心数值中心数值算术平均数算术平均数指总体中各单位的次数分布从两边向指总体中各单位的次数分布从两边向中间集中的趋势,中间集中的趋势,用用平均指标平均指标来反映。来反映。集中趋势集中趋势可以反映现象总体的客观规定性;可以反映现象总体的客观规定性;可以对比同类现象在不同的时间、地可以对比同类现象在不同的时间、地点和条件下的一般水平;点和条件下的一般水平;可以分析现象之间的依存关系。可以分析现象之间的依存关系。测定集中趋势的意义:
6、测定集中趋势的意义:指同质总体中各单位某一数指同质总体中各单位某一数量标志的一般水平,是对总量标志的一般水平,是对总体单位间数量差异的抽象化体单位间数量差异的抽象化STAT一、集中趋势的涵义一、集中趋势的涵义 二、平均指标的种类及计算方法二、平均指标的种类及计算方法第二节第二节 集中趋势的测定集中趋势的测定STAT二、平均指标的种类及计算方法二、平均指标的种类及计算方法 算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数数值平均数数值平均数位置平均数位置平均数基本形式:基本形式:例:例:直直接接承承担担者者算术平均数算术平均数A.简单算术平均数简单算术平均
7、数 适用于总体资料未经适用于总体资料未经分组整理、尚为原始资料分组整理、尚为原始资料的情况的情况式中:式中:为算术平均数为算术平均数;为总体单位总数;为总体单位总数;为第为第 个单位的标志值。个单位的标志值。算术平均数的计算方法算术平均数的计算方法平均每人日销售额为:平均每人日销售额为:某售货小组某售货小组5 5个人,某天的销售额个人,某天的销售额分别为分别为520520元、元、600600元、元、480480元、元、750750元、元、440440元,则元,则【例【例1】算术平均数的计算方法算术平均数的计算方法【例】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)
8、日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800计算该企业该日全部工人的平均日产量。计算该企业该日全部工人的平均日产量。算术平均数的计算方法算术平均数的计算方法解:解:算术平均数的计算方法算术平均数的计算方法若上述资料为组距数列,则应取各组的组若上述资料为组距数列,则应取各组的组中值作为该组的代表值用于计算;此时求中值作为该组的代表值用于计算;此时求得的算术平均数只是其真值的近似值。得的算术平均数只是其真值的近似值。说说明明B.加权算术平均数加权算术平均数适用于总体资料经过适用于总体资料经过分组整理形成变量数列的分组整理形成变量数列的情况情
9、况式中:式中:为算术平均数为算术平均数;为第为第 组的次数;组的次数;为组数;为组数;为第为第 组的标志值或组中值。组的标志值或组中值。算术平均数的计算方法算术平均数的计算方法分析:分析:成绩(分)成绩(分)人数(人)人数(人)甲班甲班乙班乙班丙班丙班603915010013950平均成绩(分)平均成绩(分)619980起到权衡轻起到权衡轻起到权衡轻起到权衡轻重的作用重的作用重的作用重的作用算术平均数的计算方法算术平均数的计算方法决定平均数决定平均数决定平均数决定平均数的变动范围的变动范围的变动范围的变动范围表现为次数、频数、单位数;即表现为次数、频数、单位数;即公式公式 中的中的表现为频率、
10、比重;即公式表现为频率、比重;即公式中的中的算术平均数的计算方法算术平均数的计算方法指变量数列中各组标志值出现的次指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各数,是变量值的承担者,反映了各组的标志值对平均数的影响程度组的标志值对平均数的影响程度权数权数绝对权数绝对权数相对权数相对权数权数在概率论中的含义是什么?平均数又是什么?随机变量的数字特征随机变量的数字特征 离散随机变量的离散随机变量的CDF 曾宪报在其博士学位论文统计权数论曾宪报在其博士学位论文统计权数论中提出了他认为中提出了他认为“简洁性好、概括性简洁性好、概括性强强”、“关于权数的最新认识关于权数的最新认识”的定义:
11、的定义:权数是衡量系统内诸要素相对重要程度权数是衡量系统内诸要素相对重要程度的一组数值。的一组数值。权数与加权权数与加权234567819权数与加权权数与加权234567819权数与加权权数与加权234567819权数与加权权数与加权234567819算术平均数的计算取决于变算术平均数的计算取决于变量值和权数的共同作用:量值和权数的共同作用:变量值决定平均数的范围;变量值决定平均数的范围;权数则决定平均数的位置权数则决定平均数的位置变量值与其算术平均数的离差之变量值与其算术平均数的离差之和衡等于零,即:和衡等于零,即:变量值与其算术平均数的离差平变量值与其算术平均数的离差平方和为最小,即:方和
12、为最小,即:算术平均数的主要数学性质算术平均数的主要数学性质离差的概念离差的概念12345678-1-1-213思考题思考题 比特啤酒公司雇用了比特啤酒公司雇用了468468名员工,其中有名员工,其中有5656名管理人员,名管理人员,130130名行政和技术人员,名行政和技术人员,其余其余282282人是工人。这三组人的周平均工人是工人。这三组人的周平均工资分别是资分别是500500英镑、英镑、300300英镑和英镑和200200英镑。英镑。财务主管希望计算全体员工的平均工资。财务主管希望计算全体员工的平均工资。正确的计算方法正确的计算方法STAT二、平均指标的种类及计算方法二、平均指标的种类
13、及计算方法 算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数数值平均数数值平均数位置平均数位置平均数STAT日产量(件)日产量(件)日产量(件)日产量(件)各组工人日总产量(件)各组工人日总产量(件)各组工人日总产量(件)各组工人日总产量(件)1010111112121313141470070011001100456045601950195014001400合计合计合计合计97109710【例【例2】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:计算该企业该日全部工人的平均日产量。计算该企业该日全部工人的平均日产量。调和平均数的应用调和
14、平均数的应用STAT即该企业该日全部工人的平均日产量为即该企业该日全部工人的平均日产量为12.1375件。件。调和平均数的应用调和平均数的应用解:解:【例】【例】设设X=(2,4,6,8),则其调和平),则其调和平均数可由定义计算如下:均数可由定义计算如下:再求算术平均数:再求算术平均数:求各标志值的倒数求各标志值的倒数:,再求倒数:再求倒数:是总体各单位标志值倒数的算术平是总体各单位标志值倒数的算术平均数的倒数,又叫均数的倒数,又叫倒数平均数。倒数平均数。调和平均数调和平均数harmean(harmonic mean)A.简单调和平均数简单调和平均数 适用于总体资料未经适用于总体资料未经分组
15、整理、尚为原始资料分组整理、尚为原始资料的情况的情况式中:式中:为调和平均数为调和平均数;为变量值为变量值 的个数;的个数;为第为第 个变量值。个变量值。调和平均数的计算方法调和平均数的计算方法B.加权调和平均数加权调和平均数适用于总体资料经过分适用于总体资料经过分组整理形成变量数列的情组整理形成变量数列的情况况式中:式中:为第为第 组的变量值;组的变量值;为第为第 组的标志总量。组的标志总量。调和平均数的计算方法调和平均数的计算方法当已知各组变量值和标志总量时,当已知各组变量值和标志总量时,作为算术平均数的变形使用。作为算术平均数的变形使用。因为:因为:调和平均数的应用调和平均数的应用调和平
16、均数的用途:调和平均数的用途:作为独立意义上的平均数使用作为独立意义上的平均数使用基本上没有用途。基本上没有用途。作为算术平均数的变形使用是作为算术平均数的变形使用是其常见的用法。但此时已经不能称其常见的用法。但此时已经不能称为调和平均数,只能称其为为调和平均数,只能称其为调和平调和平均方法均方法。求解比值的平均数的方法求解比值的平均数的方法由于比值(由于比值(平均数或相对数平均数或相对数)不能直接相)不能直接相加,求解比值的平均数时,需将其还原为加,求解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比构成比值的分子、分母原值总计进行对比设比值设比值 分子变量分子变量分母变量分
17、母变量则有:则有:求解比值的平均数的方法求解比值的平均数的方法己知己知 ,采用基本平采用基本平均数公式均数公式己知己知 ,采用加权算术采用加权算术平均数公式平均数公式己知己知 ,采用加权调和采用加权调和平均数公式平均数公式比值比值【例【例3】某季度某工业公司某季度某工业公司18个工业企业产个工业企业产值计划完成情况如下:值计划完成情况如下:计划完成程度计划完成程度计划完成程度计划完成程度()组中值组中值组中值组中值()企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)(万元)(万元)(万元)9090以下以下以下以下909010010010010011011
18、0110110以上以上以上以上858595951051051151152 23 310103 380080025002500172001720044004400合计合计合计合计18182490024900计算该公司该季度的平均计划完成程度。计算该公司该季度的平均计划完成程度。求解比值的平均数的方法求解比值的平均数的方法【例【例3】某季度某工业公司某季度某工业公司18个工业企业产个工业企业产值计划完成情况如下:值计划完成情况如下:计划完成程度计划完成程度计划完成程度计划完成程度()组中值组中值组中值组中值()企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)
19、(万元)(万元)(万元)9090以下以下以下以下9090100100100100110110110110以上以上以上以上858595951051051151152 23 310103 380080025002500172001720044004400合计合计合计合计18182490024900计算该公司该季度的平均计划完成程度。计算该公司该季度的平均计划完成程度。求解比值的平均数的方法求解比值的平均数的方法分析:分析:应采用加权算术平均数公式计算应采用加权算术平均数公式计算【例【例4】某季度某工业公司某季度某工业公司18个工业企业产值计个工业企业产值计划完成情况如下(按计划完成程度分组):划完
20、成情况如下(按计划完成程度分组):组别组别组别组别企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)(万元)(万元)(万元)实际产值实际产值实际产值实际产值(万元)(万元)(万元)(万元)1 12 23 34 42 23 310103 38008002500250017200172004400440068068023752375180601806050605060合计合计合计合计181824900249002617526175计算该公司该季度的平均计划完成程度。计算该公司该季度的平均计划完成程度。求解比值的平均数的方法求解比值的平均数的方法【例【例4】某季
21、度某工业公司某季度某工业公司18个工业企业产值计个工业企业产值计划完成情况如下(按计划完成程度分组):划完成情况如下(按计划完成程度分组):组别组别组别组别企业数企业数企业数企业数(个)(个)(个)(个)计划产值计划产值计划产值计划产值(万元)(万元)(万元)(万元)实际产值实际产值实际产值实际产值(万元)(万元)(万元)(万元)1 12 23 34 42 23 310103 38008002500250017200172004400440068068023752375180601806050605060合计合计合计合计181824900249002617526175计算该公司该季度的平均计划
22、完成程度。计算该公司该季度的平均计划完成程度。求解比值的平均数的方法求解比值的平均数的方法分析:分析:应采用平均数的基本公式计算应采用平均数的基本公式计算STAT二、平均指标的种类及计算方法二、平均指标的种类及计算方法 算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数数值平均数数值平均数位置平均数位置平均数是是N N项变量值连乘积的开项变量值连乘积的开N N次方根次方根几何平均数几何平均数Geomean(geomatric mean)用于计算现象的平均比率或平均速度用于计算现象的平均比率或平均速度应用:应用:各个比率或速度的连乘积等于总比率或总各个比率或
23、速度的连乘积等于总比率或总速度;速度;相乘的各个比率或速度不为零或负值。相乘的各个比率或速度不为零或负值。应用的前提条件:应用的前提条件:A.简单几何平均数简单几何平均数适用于总体资料未经分组整适用于总体资料未经分组整理尚为原始资料的情况理尚为原始资料的情况式中:式中:为几何平均数为几何平均数;为变量值的为变量值的个数;个数;为第为第 个变量值。个变量值。几何平均数的计算方法几何平均数的计算方法【例【例5 5】某流水生产线有前后衔接的五道工序。某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为某日各工序产品的合格率分别为9595、9292、9090、8585、8080,求整个流水生
24、产线产品,求整个流水生产线产品的平均合格率。的平均合格率。分析:分析:设最初投产设最初投产100A个单位个单位,则,则第一道工序的合格品为第一道工序的合格品为100A0.95;第二道工序的合格品为第二道工序的合格品为(100A0.95)0.92;第五道工序的合格品为第五道工序的合格品为(100A0.950.920.900.85)0.80;因该流水线的最终合格品即为第五道工序因该流水线的最终合格品即为第五道工序的合格品,的合格品,故该流水线总的合格品应为故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:则该流水线产品总的合格率为:即即该流水线
25、总的合格率等于各工序合格率的该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。采用几何平均法计算。因该流水线的最终合格品即为第五道工序因该流水线的最终合格品即为第五道工序的合格品,的合格品,故该流水线总的合格品应为故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:则该流水线产品总的合格率为:即该流水线总的合格率等于各工序合格率的即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。
26、采用几何平均法计算。解:解:思考思考若上题中不是由五道连续作业的工序若上题中不是由五道连续作业的工序组成的流水生产线,而是五个组成的流水生产线,而是五个独立作独立作业的车间业的车间,且各车间的合格率同前,且各车间的合格率同前,又假定各车间的产量相等均为又假定各车间的产量相等均为100100件,件,求该企业的平均合格率。求该企业的平均合格率。几何平均数的计算方法几何平均数的计算方法 因各车间彼此独立作业,所以有因各车间彼此独立作业,所以有 第一车间的合格品为:第一车间的合格品为:1000.95;第二车间的合格品为:第二车间的合格品为:1000.92;第五车间的合格品为:第五车间的合格品为:100
27、0.80。则该企业全部合格品应为各车间合格品的则该企业全部合格品应为各车间合格品的总和,即总和,即总合格品总合格品=1000.95+1000.80几何平均数的计算方法几何平均数的计算方法分析:分析:不再符合几何平均数的适用条件,需按照不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为求解比值的平均数的方法计算。又因为应采用加权算术平均数公式计算,即应采用加权算术平均数公式计算,即 B.加权几何平均数加权几何平均数适用于总体资料经过分组整理适用于总体资料经过分组整理形成变量数列的情况形成变量数列的情况式中:式中:为几何平均数为几何平均数;为第为第 组的次数;组的次数;为组数;
28、为组数;为第为第 组的标志值或组中值。组的标志值或组中值。几何平均数的计算方法几何平均数的计算方法【例【例6】某金融机构以复利计息。近某金融机构以复利计息。近12年来的年来的年利率有年利率有4年为年为3,2年为年为5,2年为年为8,3年为年为10,1年为年为15。求平均年利率。求平均年利率。设本金为设本金为V,则至各年末的本利和应为:,则至各年末的本利和应为:第第1年末的本利和为:年末的本利和为:第第2年末的本利和为:年末的本利和为:第第12年末的本利和为:年末的本利和为:分析:分析:第第2年的年的计息基础计息基础第第12年的年的计息基础计息基础则该笔本金则该笔本金12年总的本利率为:年总的本
29、利率为:即即12年总本利率等于各年本利率的连乘积,年总本利率等于各年本利率的连乘积,符合几符合几何平均数的适用条件,故计算平均年本利率应采用何平均数的适用条件,故计算平均年本利率应采用几何平均法。几何平均法。解:解:几何平均数的计算方法几何平均数的计算方法思思考考若上题中不是按复利而是按若上题中不是按复利而是按单利单利计息计息,且各年的利率与上相同,且各年的利率与上相同,求平均年利率。求平均年利率。分分析析第第1年末的应得利息为年末的应得利息为:第第2年末的应得利息为年末的应得利息为:第第12年末的应得利息为:年末的应得利息为:设本金为设本金为V,则各年末应得利息为:,则各年末应得利息为:则该
30、笔本金则该笔本金12年应得的利息总和为:年应得的利息总和为:=V(0.034+0.052+0.151)这里的利息率或本利率不再符合几何这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平平均数的适用条件,需按照求解比值的平均数的方法计算。因为均数的方法计算。因为假定本假定本金为金为V 所以,应采用加权算术平均数公式计算平所以,应采用加权算术平均数公式计算平均年利息率,即:均年利息率,即:解:解:(比较:按复利计息时的平均年利率为(比较:按复利计息时的平均年利率为6.85)就同一资料计算时,有:就同一资料计算时,有:xxxGH设设 x 取值为:取值为:、10算术平均与几何平均更为
31、常用一些,算术平均与几何平均更为常用一些,其中几何平均数对小的极端值敏感,其中几何平均数对小的极端值敏感,算术平均数对大的极端值敏感。算术平均数对大的极端值敏感。是否为比率是否为比率或速度或速度各个比率或速各个比率或速度的连乘积是否等于总比度的连乘积是否等于总比率或总速度率或总速度是否为是否为其他比值其他比值是是是是否否否否否否否否是是是是否否否否是是是是 几何平均法几何平均法算术平均法算术平均法求解比值的平均数的方法求解比值的平均数的方法数值平均数计算数值平均数计算数值平均数计算数值平均数计算公式的选用顺序公式的选用顺序公式的选用顺序公式的选用顺序指标指标STAT二、平均指标的种类及计算方法
32、二、平均指标的种类及计算方法 算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数数值平均数数值平均数位置平均数位置平均数STAT将总体各单位标志值按大小顺将总体各单位标志值按大小顺序排列后,指处于数列中间位序排列后,指处于数列中间位置的标志值,用置的标志值,用 表示表示中位数中位数(Median)Median)不受极端数值的影响,在总体标志值差不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。异很大时,具有较强的代表性。中位数的作用:中位数的作用:二、平均指标的种类及计算方法二、平均指标的种类及计算方法 如果统计资料中如果统计资料中含有异常的或
33、极含有异常的或极端的数据,就有端的数据,就有可能得到非典型可能得到非典型的甚至可能产生的甚至可能产生误导的平均数,误导的平均数,这时使用中位数这时使用中位数来度量集中趋势来度量集中趋势比较合适。比较合适。比如有比如有5 5笔付款:笔付款:9 9元,元,1010元,元,1010元,元,1111元,元,6060元元 平均付款为平均付款为100/5=20100/5=20元。元。很明显,这并不很明显,这并不是一个好的代表是一个好的代表值,而中位数值,而中位数1010元是一个更好的元是一个更好的代表值。代表值。中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例
34、【例6 6】某售货小组某售货小组5 5个人,某天的销售额按个人,某天的销售额按从小到大的顺序排列为从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)中位数的位次为:中位数的位次为:中位数应为第中位数应为第3和第和第4个单位标志值的算术平个单位标志值的算术平均数,即均数,即【例【例7 7】若上述售货小组为若上述售货小组为6 6个人,某天的销个人,某天的销售额按从小到大的顺序排列为售额按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、6006
35、00元、元、750750元、元、760760元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)【例【例8 8】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:中位数的确定中位数的确定(单值数列)(单值数列)中位数的确定中位数的确定(组距数列)(组距数列)【例【例9 9】某车间某车间505
36、0名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50计算该车间工人月产量的中位数。计算该车间工人月产量的中位数。中位数的确定中位数的确定(组距数列)(组距数列)共共 个单位个单位共共 个单位个单位共共 个单位个单位共共 个单位个单位LU中位数组中位数组中位数组中位数组组距为组距为d共共 个单位个单位假定该组内的单假定该组内的单位呈均匀分布位呈均匀分布共有单位数共有单位数共有单位数共有单位数 中位数下限公式为中位数下限公式为
37、中位数下限公式为中位数下限公式为 该段长度应为该段长度应为该段长度应为该段长度应为 STAT二、平均指标的种类及计算方法二、平均指标的种类及计算方法 算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数数值平均数数值平均数位置平均数位置平均数STAT指总体中出现次数最多的变量指总体中出现次数最多的变量值,用值,用 表示表示,它不受极端数它不受极端数值的影响,用来说明总体中大值的影响,用来说明总体中大多数单位所达到的一般水平。多数单位所达到的一般水平。众数众数(Mode)二、平均指标的种类及计算方法二、平均指标的种类及计算方法有时众数是一个合适的代表值有时众数
38、是一个合适的代表值 比如在服装行业中,生产商、批发商比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不时,更感兴趣的是最普遍的尺寸而不是平均尺寸。是平均尺寸。日产量(件)日产量(件)工人人数(人)工人人数(人)101112131470100380150100合计合计800【例【例1010】已知已知某企业某日工人的日产量资料如下某企业某日工人的日产量资料如下:众数的确定众数的确定(单值数列)(单值数列)计算该企业该日全部工人日产量的众数。计算该企业该日全部工人日产量的众数。众数的确定众数的确定(组距数列)(组距数列)【
39、例【例B B】某车间某车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50计算该车间工人月产量的众数。计算该车间工人月产量的众数。众数的原理及应用众数的原理及应用83名女生身高原始数据名女生身高原始数据83名女生身高组距数列名女生身高组距数列当数据分布存在明显的集中趋势,当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存当数据分布的集中
40、趋势不明显或存在两个以上分布中心时,不适合使用在两个以上分布中心时,不适合使用众数(众数(前者无众数,后者为双众数或前者无众数,后者为双众数或多众数,也等于没有众数多众数,也等于没有众数)。)。众数的原理及应用众数的原理及应用出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200413名学生出生时间分布直方图名学生出生时间分布直方图众数的原理及应用众数的原理及应用没有突出地集没有突出地集中在某个年份中在某个年份192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5
41、170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100众数的原理及应用众数的原理及应用413名学生的身高分布直方图名学生的身高分布直方图出现了两个明出现了两个明显的分布中心显的分布中心形状形状 Shape表明数据是如何表明数据是如何分布分布的的偏态偏态Skew Skew 与与 对称对称SymmetrySymmetry左偏左偏:均值均值 中位数中位数对称对称(零偏度零偏度):均值:均值 =中位数中位数右偏的右偏的左偏的左偏的对称的对称的均值均值=中位数中位数=众数众数均值均值 中位数中位数 众数众数众数众
42、数 中位数中位数 均值均值 位置测度的一种常用方法:位置测度的一种常用方法:百分位数百分位数(Percentile)概念:概念:第第p p个百分位数是这样的数值:至少有个百分位数是这样的数值:至少有p%p%个数值跟它一样大或比它小;至少有个数值跟它一样大或比它小;至少有(100(100p)%p)%个数值跟它一样大或比它大。个数值跟它一样大或比它大。例如,一个考生入学考试的口语成绩是例如,一个考生入学考试的口语成绩是5454分,分,对应第对应第7070个百分位数,我们就可以知道大约有个百分位数,我们就可以知道大约有70%70%的考生成绩比他低,或者说大约有的考生成绩比他低,或者说大约有30%30
43、%的考的考生成绩比他高。生成绩比他高。位置测度的另一种常用方法:位置测度的另一种常用方法:四分位数四分位数(Quartile)通常将数据分成四个部分是合通常将数据分成四个部分是合乎需要的,每一部分大约包括乎需要的,每一部分大约包括1/41/4或或25%25%的数据,分位点称为的数据,分位点称为四分位数。四分位数。位置测度的另一种常用方法:位置测度的另一种常用方法:四分位数四分位数(Quartile)25%25%25%25%Q1Q2Q3把排序数据等分为四个区间把排序数据等分为四个区间QuartersQuartersSTAT 第三章第三章 数据分布特征描述数据分布特征描述第一节第一节 总量指标与相
44、对指标总量指标与相对指标第二节第二节 集中趋势的测定集中趋势的测定第三节第三节 离中趋势的测定离中趋势的测定 课程课程学生学生语文语文 数学数学英语英语 总成绩总成绩 平均成绩平均成绩甲甲乙乙丙丙606555656565706575195195195656565单位:分单位:分某班三名同学三门课程的成绩如下:某班三名同学三门课程的成绩如下:请比较三名同学学习成绩的差异。请比较三名同学学习成绩的差异。集中趋势弱、集中趋势弱、离中趋势强离中趋势强集中趋势强、集中趋势强、离中趋势弱离中趋势弱STAT第三节第三节 离中趋势的测定离中趋势的测定一、离中趋势的涵义一、离中趋势的涵义 二、标志变异指标的种类
45、及计算二、标志变异指标的种类及计算三、是非标志的标准差及方差三、是非标志的标准差及方差指总体中各单位标志值背离指总体中各单位标志值背离分布中心的规模或程度,分布中心的规模或程度,用用标志变异指标标志变异指标来反映。来反映。离中趋势离中趋势反映统计数据差异程度的综反映统计数据差异程度的综合指标,也称为合指标,也称为标志变动度标志变动度变异指标值越大,平均指标的代表性变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大越小;反之,平均指标的代表性越大测定离中趋势的意义测定离中趋势的意义 用来衡量和比较平均数代表性的大小;用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性
46、和节用来反映社会经济活动过程的均衡性和节奏性;奏性;用来测定变量数列次数分布较正态分布的用来测定变量数列次数分布较正态分布的偏离程度。偏离程度。STAT第三节第三节 离中趋势的测定离中趋势的测定一、离中趋势的涵义一、离中趋势的涵义 二、标志变异指标的种类及计算二、标志变异指标的种类及计算三、是非标志的标准差及方差三、是非标志的标准差及方差测定标志变异度的绝对量指标测定标志变异度的绝对量指标(与原变量值名数相同与原变量值名数相同)测定标志变异度的相对量指标测定标志变异度的相对量指标(表现为无名数表现为无名数)全距全距平均差平均差标准差标准差全距全距系数系数平均差平均差系数系数标准差标准差系数系数
47、标志变异指标的种类标志变异指标的种类指所研究的数据中,最大值与指所研究的数据中,最大值与最小值之差,又称最小值之差,又称极差极差。全距全距最大变量值或最最大变量值或最高组上限或开口高组上限或开口组假定上限组假定上限最小变量值或最最小变量值或最低组下限或开口低组下限或开口组假定下限组假定下限【例【例A A】某售货小组某售货小组5 5人某天的销售额分别为人某天的销售额分别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则【例【例B B】某季度某工业公司某季度某工业公司1818个工个工业企业产值计划完成情况如下:业企业产值计划完成情况如下:计划
48、完成程度计划完成程度()组中值组中值()企业数企业数(个)(个)计划产值计划产值(万元)(万元)90以下以下90100100110110以上以上8595105115231038002500172004400合计合计1824900计算该公司该季度计划完成程度的全距。计算该公司该季度计划完成程度的全距。优点优点:计算方法简单、易懂;计算方法简单、易懂;缺点缺点:易受极端数值的影响,不能易受极端数值的影响,不能全面反映所有标志值差异大小及分全面反映所有标志值差异大小及分布状况,准确程度差布状况,准确程度差往往应用于生产过程的质量控制中往往应用于生产过程的质量控制中全距的特点全距的特点 简单平均差简单
49、平均差适用于未分组资料适用于未分组资料是各个数据与其算术平均数的离差是各个数据与其算术平均数的离差绝对值的算术平均数,用绝对值的算术平均数,用 表示表示平均差平均差计算公式:计算公式:总体算术总体算术平均数平均数总体单总体单位总数位总数第第 个单位个单位的变量值的变量值【例【例11】某售货小组某售货小组5个人,某天的销售额个人,某天的销售额分别为分别为440元、元、480元、元、520元、元、600元、元、750元,求该售货小组销售额的平均差。元,求该售货小组销售额的平均差。解:解:即该售货小组即该售货小组5个人销售额的平均差为个人销售额的平均差为93.6元。元。加权平均差加权平均差适用于分组
50、资料适用于分组资料平均差的计算公式平均差的计算公式总体算术总体算术平均数平均数第第 组变量值组变量值出现的次数出现的次数第第 组的变量组的变量值或组中值值或组中值【例【例12】计算下表中某公司职工月工资的平均差。计算下表中某公司职工月工资的平均差。月工资(元)月工资(元)组中值(元)组中值(元)职工人数(人)职工人数(人)300以下以下300400400500500600600700700800800900900以上以上2503504505506507508509502083143824563052377820合计合计2000解:解:即该公司职工月工资的平均差为即该公司职工月工资的平均差为13