《离中趋势的测度.ppt》由会员分享,可在线阅读,更多相关《离中趋势的测度.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、离中趋势的测度现在学习的是第1页,共55页n随着电子商务的发展,网上购物称为一种时尚,快递公随着电子商务的发展,网上购物称为一种时尚,快递公司如雨后春笋般出现,所以邮政服务正在努力向用户友司如雨后春笋般出现,所以邮政服务正在努力向用户友好型转变。现在有这样一种情况,过几天我的妈妈过生好型转变。现在有这样一种情况,过几天我的妈妈过生日,我去邮局咨询一下日,我去邮局咨询一下“请告诉我提前多少天寄出生日请告诉我提前多少天寄出生日贺卡,这样在我妈妈生日当天刚好收到,不早也不晚贺卡,这样在我妈妈生日当天刚好收到,不早也不晚”。递送时间的一致性可以用递送时间的标准差来衡量,递送时间的一致性可以用递送时间的
2、标准差来衡量,标准差越小就意味着递送时间的一致性就越强。标准差越小就意味着递送时间的一致性就越强。现在学习的是第2页,共55页现在学习的是第3页,共55页实实例例:一一些些银银行行要要求求顾顾客客在在每每个个窗窗口口等等待待,而而另另一一些些银银行行分分发发号号码码,相相当当于顾客在一个大队列中等待,在什么不同吗?于顾客在一个大队列中等待,在什么不同吗?银行一:银行一:6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 (一列)一列)-银行二:银行二:4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0(多列)(多列)顾客等待时间(以分钟
3、计)顾客等待时间(以分钟计)现在学习的是第4页,共55页银行一(一列等待)银行一(一列等待)平均数平均数=7.15中位数中位数=7.20银行二(多列等待)银行二(多列等待)平均数平均数=7.15中位数中位数=7.204 5 6 7 8 9 10 现在学习的是第5页,共55页离散程度1.1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值现在学
4、习的是第6页,共55页异众比率(variation ratio)n1.离散程度的测度值之一离散程度的测度值之一n2.非众数组的频数占总频数的比率非众数组的频数占总频数的比率n3.计算公式为计算公式为 4.用于衡量众数的代表性现在学习的是第7页,共55页异众比率(例题分析)解:解:解:解:在在在在所所所所调调调调查查查查的的的的200200人人人人当当当当中中中中,关关关关注注注注非非非非别别别别克克克克的的的的人人人人数数数数占占占占44%44%,异异异异众众众众比比比比率率率率还还还还是是是是比比比比较较较较大大大大。因因因因此此此此,用用用用“别别别别克克克克”来来来来反反反反映映映映城城
5、城城市市市市居居居居民民民民对对对对汽汽汽汽车车车车品品品品牌牌牌牌的的的的一一一一般趋势,其代表性不是很好般趋势,其代表性不是很好般趋势,其代表性不是很好般趋势,其代表性不是很好某地区居民关注汽车品牌的频数分布某地区居民关注汽车品牌的频数分布 汽车品牌汽车品牌人数人数(人人)比例比例频率频率(%)别克别克 福特福特 马自达马自达 标志标志 现代现代 吉利吉利112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100现在学习的是第8页,共55页四分位差(quartile deviation)n1.离散程度的测
6、度值之一离散程度的测度值之一n2.也称为内距或四分间距也称为内距或四分间距n3.上四分位数与下四分位数之差上四分位数与下四分位数之差n QD=QU-QLn4.反映了中间反映了中间50%数据的离散程度数据的离散程度5.不受极端值的影响不受极端值的影响6.用于衡量中位数的代表性用于衡量中位数的代表性现在学习的是第9页,共55页四分位差(顺序数据的算例)解解解解:设设设设非非非非常常常常不不不不满满满满意意意意为为为为1,1,不不不不满满满满意意意意为为为为2,2,一一一一般般般般为为为为3,3,满满满满意意意意为为为为 4,4,非非非非常常常常满满满满意意意意为为为为5 5 已已已已知知知知 Q
7、QL L=不满意不满意不满意不满意 =2=2 Q QU U =一般一般一般一般 =3=3四分位差:四分位差:四分位差:四分位差:Q QD D=Q QU U =Q QL L =3 2=3 2 =1=1某企业员工对管理水平评价的频数分布某企业员工对管理水平评价的频数分布回答类别回答类别企业企业人数人数 (人人)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300现在学习的是第10页,共55页数值型未分组数据的四分位差(算例)n【例例】:一个部门:一个部门1月份月份10个人的收入数据个人的收入数据n
8、原始数据原始数据:1500 750 780 660 1080 850 960 2000 1250 1630n排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000n位位 置置:1 2 3 4 5 6 7 8 9 10 现在学习的是第11页,共55页数值型数据:方差和标准差现在学习的是第12页,共55页n下面是两名同学射击比赛的成绩情况下面是两名同学射击比赛的成绩情况现在学习的是第13页,共55页现在学习的是第14页,共55页 请同学们思考,当平均水平相同时,还可以从哪些方面分析,来说请同学们思考,当平均水平相同时,还可以从哪些方面分析,来说明两个人
9、射击成绩的差异?从而判断究竟选派那位同学参加比赛更合明两个人射击成绩的差异?从而判断究竟选派那位同学参加比赛更合适呢?适呢?1、从变化范围的大小进行分析,谁参加比赛更合适呢?从变化范围的大小进行分析,谁参加比赛更合适呢?n通常,一组数据中的最大值减去最小值所得的差,叫做这组通常,一组数据中的最大值减去最小值所得的差,叫做这组数据的极差(数据的极差(range)n极差极差=数据中的最大值数据中的最小值数据中的最大值数据中的最小值 n小结:极差表示了一组数据变化范围的大小,但由于只考虑小结:极差表示了一组数据变化范围的大小,但由于只考虑了它的两个极端数据的变化,而没有考虑其它数据,因此用了它的两个
10、极端数据的变化,而没有考虑其它数据,因此用它来表示一组数据的波动情况还比较粗略它来表示一组数据的波动情况还比较粗略 nn 现在学习的是第15页,共55页极差(range)n1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差n2.离散程度的最简单测度值离散程度的最简单测度值n3.易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布5.计算公式为计算公式为6.R=max(xi)-min(xi)现在学习的是第16页,共55页2、从波动大小进行分析。观察折线图、从波动大小进行分析。观察折线图,你你能发现两人射击成绩的波动差异吗?能发现两人射击成绩的波动差异吗?现在学习的是第17页
11、,共55页n1用数值怎样表示一次成绩偏离平均数的程度?用数值怎样表示一次成绩偏离平均数的程度?n2怎样表示怎样表示10次成绩偏离平均数的程度?次成绩偏离平均数的程度?n3平均水平之上的数减去平均数是正数,平均水平以下的数减去平均数是负数。直平均水平之上的数减去平均数是正数,平均水平以下的数减去平均数是负数。直接相加就会接相加就会“正负抵消正负抵消”,和为,和为0为了避免为了避免“正负抵消正负抵消”的问题怎么办的问题怎么办?n4如果两组数据不一样多,怎么解决数据个数的影响?如果两组数据不一样多,怎么解决数据个数的影响?n综上所述,我们可以用综上所述,我们可以用“先平均,再求差,然后平方,最后再平
12、均先平均,再求差,然后平方,最后再平均”得到的结果表得到的结果表示一组数据的波动大小这个结果通常称为方差(示一组数据的波动大小这个结果通常称为方差(variance)现在学习的是第18页,共55页方差和标准差(variance and standard deviation)1.离散程度的测度值之一离散程度的测度值之一2.最常用的测度值最常用的测度值3.反映了数据的分布反映了数据的分布4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或差;根据样本数据计算的,称为样本
13、方差或标准差标准差现在学习的是第19页,共55页样本方差和标准差(simple variance and standard deviation)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n-1n-1n-1去除去除去除!现在学习的是第20页,共55页样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.当当
14、样样本本数数据据的的个个数数为为 n 时时,若若样样本本均均值值 x 确确定定后后,只只有有n-1个个数数据据可可以以自自由由取取值值,其其中中必必有有一一个个数数据据则则不不能能自自由由取值取值3.例例如如,样样本本有有3个个数数值值,即即x1=2,x2=4,x3=9,则则 x=5。当当 x=5 确确定定后后,x1,x2和和x3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x1=6,x2=7,那那么么x3则则必必然然取取2,而不能取其他值,而不能取其他值4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面来来解解释释
15、,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差去去估估计计总总体体方方差差2时,它是时,它是2的无偏估计量的无偏估计量现在学习的是第21页,共55页样本方差与标准差(例题分析1)【例例】个成年人某个月上网时间的数据如下(单位:小时),计算其方个成年人某个月上网时间的数据如下(单位:小时),计算其方差及其标准差。差及其标准差。现在学习的是第22页,共55页样本方差与标准差(例题分析1)现在学习的是第23页,共55页样本方差与标准差(例题分析2)【例例4-14】在在【例例4-7】中,中,50个固定电话新客户第一个月的电个固定电话新客户第一个月的电话清单的平均
16、电话费用,试据此表资料计算方差及其标准差。话清单的平均电话费用,试据此表资料计算方差及其标准差。现在学习的是第24页,共55页样本方差与标准差(例题分析2)现在学习的是第25页,共55页平均差(mean deviation)1.各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为未分组数据未分组数据组距分组数据组距分组数据现在学习的是第26页,共55页平均差(例题分析)某电脑公司销售量数据平均差计算表 按销售量分组组中值(Mi)频数(fi)140
17、15015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计1202040现在学习的是第27页,共55页平均差(例题分析)含义:含义:每一天的销售量平均数相比,平均相差17台 含义:含义:每一天的销售量平均数相比,平均相差17台现在学习的是第28页,共55页相对位置的测量:标准分数现在学习的是第29页,共55页标准分数(standard score)n1.
18、也称标准化值也称标准化值n2.对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量n3.可用于判断一组数据是否有离群点可用于判断一组数据是否有离群点n4.用于对变量的标准化处理用于对变量的标准化处理n5.计算公式为计算公式为现在学习的是第30页,共55页标准化值标准化值(例题分析例题分析)9个家庭人均月收入标准化值计算表 家庭编号人均月收入(元)标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996现在学习的是第31页,共55页标准分
19、数(性质)1.均值等于均值等于02.方差等于方差等于1现在学习的是第32页,共55页标准分数(性质)z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在改改组组数数据据中中的的位位置置,也也没没有有改改变变该该组组数数分分布布的的形形状状,而而只只是是将将该该组组数数据据变变为为均均值值为为0,标标准差为准差为1。现在学习的是第33页,共55页经验法则n经验法则表明:当一组数据对称分布时经验法则表明:当一组数据对称分布时n约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的范围之个标准差的范围之内内n约有约有95%的数据在平
20、均数加减的数据在平均数加减2个标准差的范个标准差的范围之内围之内n约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的范围个标准差的范围之内之内n若不是对称分布会怎样?若不是对称分布会怎样?现在学习的是第34页,共55页n假定某学校在校大学生每月的生活消费支出近似服从正态分布,其月假定某学校在校大学生每月的生活消费支出近似服从正态分布,其月生活消费支出的均值为生活消费支出的均值为500元,标准差为元,标准差为50元。对于大学生生活消元。对于大学生生活消费支出的分布情况,你有何看法?费支出的分布情况,你有何看法?n解:因为数据是正态分布,我们可以应用经验法则得到:解:因为数据是正态分布
21、,我们可以应用经验法则得到:n大约大约68%的月生活消费支出在的月生活消费支出在450元(元(500-50)和)和550元元(500+50)之间)之间n大约大约95%的月生活消费支出在的月生活消费支出在400元(元(500-250)和)和600元元(500+250)之间)之间n大约大约99.7%的月生活消费支出在的月生活消费支出在350元(元(500-350)和)和650元元(500+350)之间)之间现在学习的是第35页,共55页相对离散程度:离散系数现在学习的是第36页,共55页离散系数(coefficient of variation)1.标准差与其相应的均值之比标准差与其相应的均值之比
22、2.对数据相对离散程度的测度对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.计算公式为计算公式为现在学习的是第37页,共55页离散系数离散系数(实例和计算过程)(实例和计算过程)某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据据如如表表。试试比比较较产品销售额与销售利润的离散程度产品销售额与销售利润的离散程度 某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X212345678170220390430480
23、65095010008.112.518.022.026.540.064.069.0现在学习的是第38页,共55页S S2 2=23.0923.09(万元)(万元)V V2 2=32.521532.521523.0923.09=0.7100.710X X2 2=32.521532.5215(万元)(万元)X X1 1=536.25536.25(万元)(万元)S S1 1=309.19309.19(万元)(万元)V V1 1=536.25536.25309.19309.19=0.5770.577结论:结论:计算结果表明,计算结果表明,V V1 1 0为右偏分布为右偏分布 偏度系数偏度系数 0为左偏
24、分布为左偏分布现在学习的是第46页,共55页偏度系数(skewness coefficient)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据分组数据计算现在学习的是第47页,共55页峰 度现在学习的是第48页,共55页峰度(kurtosis)1.统计学家统计学家Pearson于于1905年首次提出年首次提出2.数据分布扁平程度的测度数据分布扁平程度的测度 峰度系数峰度系数=0扁平峰度适中扁平峰度适中 峰度系数峰度系数0为尖峰分布为尖峰分布现在学习的是第49页,共55页峰度系数(kurtosis coefficient)1.根据原始数据计算根据原始数据计算2.根据分组数据计算根据
25、分组数据计算现在学习的是第50页,共55页偏度与峰度(例题分析)n 【例例4-18】现对某品牌的现对某品牌的100只日光灯只日光灯的使用寿命进行测试,得到如下数据。计的使用寿命进行测试,得到如下数据。计算日光灯使用寿命分布的偏度系数和峰度算日光灯使用寿命分布的偏度系数和峰度系数。系数。现在学习的是第51页,共55页偏度与峰度(例题分析)现在学习的是第52页,共55页偏度与峰度(例题分析)现在学习的是第53页,共55页 计算结果表明,计算结果表明,偏度系数几乎为偏度系数几乎为0 0,说明该产品使,说明该产品使用寿命的分布十用寿命的分布十分接近对称分布;分接近对称分布;峰度系数略小于峰度系数略小于0 0,说明该产品使,说明该产品使用寿命的分布要用寿命的分布要比正态分布略微比正态分布略微平坦一些。总的平坦一些。总的来讲,该产品使来讲,该产品使用寿命的分布非用寿命的分布非常接近正态分布。常接近正态分布。偏度与峰度(例题分析)现在学习的是第54页,共55页学习结束现在学习的是第55页,共55页