《2描述统计.ppt》由会员分享,可在线阅读,更多相关《2描述统计.ppt(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、均值测度均值测度2图表法图表法3 1变异程度测度变异程度测度3 3第二章第二章 描述统计描述统计相对位置测度及异常值检验相对位置测度及异常值检验3 4第二章第二章 描述统计描述统计第一节第一节 图表法图表法一、次数分布一、次数分布(一)次数分布的概念及次数分布数列的类型(一)次数分布的概念及次数分布数列的类型1.次数分布的概念次数分布的概念 指根据研究的需要,采用一定的分组标志指根据研究的需要,采用一定的分组标志将总体划分为若干个性质不同的组成部分后,将总体划分为若干个性质不同的组成部分后,将总体的所有单位按组归类排列,形成的总体将总体的所有单位按组归类排列,形成的总体单位在各组间的分布。单位
2、在各组间的分布。第二章第二章 描述统计描述统计次数分布的组成要素:组别次数分布的组成要素:组别 分布在各组的总体单位数分布在各组的总体单位数【频数频数】p15【频率频率】p15 第二章第二章 描述统计描述统计 2.次数分布数列的类型次数分布数列的类型(1)按分组标志的性质分:)按分组标志的性质分:属性分布数列、变量分布数列属性分布数列、变量分布数列(2)根据用以分组的变量的取值是否唯一分:)根据用以分组的变量的取值是否唯一分:单项数列、组距数列单项数列、组距数列 组距组距 上限、下限(上限、下限(注:上限不在内注:上限不在内)等距数列等距数列 异距数列异距数列 第二章第二章 描述统计描述统计次
3、数密度:本组的次数与本组的组距之比。次数密度:本组的次数与本组的组距之比。组中值组中值 l组中值组中值=(上限下限)(上限下限)/2l缺下限开口组组中值缺下限开口组组中值=上限上限邻组组距邻组组距/2l缺上限开口组组中值缺上限开口组组中值=下限邻组组距下限邻组组距/2 注意:在异距数注意:在异距数列中,反映总体列中,反映总体单位在各组分布单位在各组分布密集程度的指标密集程度的指标 第二章第二章 描述统计描述统计(二)次数分布的主要类型(二)次数分布的主要类型1.钟形分布钟形分布l特征:两头小,中间大。特征:两头小,中间大。(1)对称分布:)对称分布:0第二章第二章 描述统计描述统计(2)偏态分
4、布:)偏态分布:右偏(正偏)分布右偏(正偏)分布 左偏(负偏)分布左偏(负偏)分布00第二章第二章 描述统计描述统计2.U形分布形分布 特征:两头大,中间小特征:两头大,中间小 0第二章第二章 描述统计描述统计3.J形分布形分布特征:一边小,一边大特征:一边小,一边大(1)正)正J形分布形分布 (2)反)反J形分布形分布 00第二章第二章 描述统计描述统计二、直方图二、直方图p18 直方图是用直方形的高度和宽度来表直方图是用直方形的高度和宽度来表示次数分布特征的图形示次数分布特征的图形。l平面直角坐标系中的横轴表示各组组限,纵轴平面直角坐标系中的横轴表示各组组限,纵轴表示次数。表示次数。l注意
5、:注意:对于异距数列则应以次数密度为纵轴、对于异距数列则应以次数密度为纵轴、各组组限为横轴绘制直方图。各组组限为横轴绘制直方图。第二章第二章 描述统计描述统计三、累计分布图三、累计分布图 累计次数分布:累计次数分布:将变量数列各组的次数和比率逐组累计相加将变量数列各组的次数和比率逐组累计相加而成累计次数分布,它表明总体在某一变量值而成累计次数分布,它表明总体在某一变量值的某一水平上、下一共包含的总体次数和比率。的某一水平上、下一共包含的总体次数和比率。包括:包括:向上累计向上累计 向下累计向下累计 第二章第二章 描述统计描述统计按按销销售售额额分分组组(千元)(千元)人人 数(人)数(人)向上
6、累向上累计计向下累向下累计计12以下以下66135121413191291416294811616183684871820251095120221712626222491359合合 计计135某保险公司某保险公司160名推销员月销售额的分组数据名推销员月销售额的分组数据以下累以下累计计以上累以上累计计第二章第二章 描述统计描述统计第二节第二节 均值测度均值测度 数据分布集中趋势的测度指标又称平均指标。数据分布集中趋势的测度指标又称平均指标。常见的平均指标有常见的平均指标有算术平均数算术平均数、调和平均数调和平均数、几何平均数几何平均数、中位数中位数和和众数众数。反映一组数据反映一组数据的集中趋
7、势的集中趋势第二章第二章 描述统计描述统计一、算术平均数一、算术平均数 简单算术平均数、加权算术平均数和是简单算术平均数、加权算术平均数和是非标志算术平均数非标志算术平均数(一)简单算术平均数(一)简单算术平均数 适用范围:适用范围:未分组资料未分组资料或或各变量值出现次数相同的资料各变量值出现次数相同的资料第二章第二章 描述统计描述统计例:根据某保险公司例:根据某保险公司160名推销员的月销售名推销员的月销售额统计数据(额统计数据(p14 表表2-1),计算),计算160名销名销售员的月平均销售额是多少?售员的月平均销售额是多少?第二章第二章 描述统计描述统计(二)加权算术平均数(二)加权算
8、术平均数 l适用范围:适用范围:分组资料分组资料 例例2.3 p20影响加权平均数大小的因素:影响加权平均数大小的因素:各组变量值大小各组变量值大小 各组次数多少(权数大小)各组次数多少(权数大小)第二章第二章 描述统计描述统计 权数有两种表现形式:权数有两种表现形式:绝对数形式和相对数形式。用绝对数绝对数形式和相对数形式。用绝对数权数和相对数权数计算的结果一致。即权数和相对数权数计算的结果一致。即 第二章第二章 描述统计描述统计(三)是非标志算术平均数(三)是非标志算术平均数 是非标志是指只有是非标志是指只有“是是”和和“非非”两两种属性表现的标志。种属性表现的标志。例例2.4 p21 第二
9、章第二章 描述统计描述统计二、调和平均数二、调和平均数 调和平均数是各个变量值倒数的算术调和平均数是各个变量值倒数的算术平均数的倒数,又称为倒数平均数。平均数的倒数,又称为倒数平均数。分为:分为:简单调和平均数、加权调和平均数简单调和平均数、加权调和平均数(一)简单调和平均数(一)简单调和平均数计算公式:计算公式:适用于各变适用于各变量值均为一量值均为一个单位个单位 第二章第二章 描述统计描述统计例:例:设某农贸市场某种蔬菜每公斤的价格设某农贸市场某种蔬菜每公斤的价格有有0.40.4元、元、0.250.25元、元、0.20.2元三种,若每种价元三种,若每种价格的蔬菜各买格的蔬菜各买1 1元,求
10、这种蔬菜每公斤的元,求这种蔬菜每公斤的平均价格。平均价格。若用算术平均若用算术平均数计算,缺少数计算,缺少分母资料分母资料第二章第二章 描述统计描述统计(二)加权调和平均数(二)加权调和平均数计算公式:计算公式:适用:适用:各变量值不是同等单位,对平均数的作用也不相同各变量值不是同等单位,对平均数的作用也不相同 第二章第二章 描述统计描述统计例,例,根据下表资料,计算某企业购入的四批某原根据下表资料,计算某企业购入的四批某原材料的平均价格。材料的平均价格。表,某企业购入某种原材料资料表,某企业购入某种原材料资料 购购入批次入批次单价(元单价(元/公斤)公斤)x采购金额采购金额(元)(元)m采购
11、量(公采购量(公斤)斤)m/x1351000028624020000500345150003334505000100合合 计计500001219第二章第二章 描述统计描述统计原材料平均单价:原材料平均单价:第二章第二章 描述统计描述统计例,例,根据下表资料,计算三个商店销售额的平均根据下表资料,计算三个商店销售额的平均计划完成程度。计划完成程度。表,三个商店的销售资料表,三个商店的销售资料 商店名称商店名称计划完成程计划完成程度(度(%)x实际销售额实际销售额(万元)(万元)m计划销售额计划销售额(万元)(万元)m/x一商店一商店9511401200二商店二商店1051344012800三商店
12、三商店11023002091合合 计计1688016091第二章第二章 描述统计描述统计三、几何平均数三、几何平均数 几何平均数是计算平均比率和平均速几何平均数是计算平均比率和平均速度最适用的一种方法,用度最适用的一种方法,用G表示。表示。简单几何平均数、加权几何平均数简单几何平均数、加权几何平均数 第二章第二章 描述统计描述统计(一)简单几何平均数(一)简单几何平均数 简单几何平均数是简单几何平均数是n n个变量值连乘积的个变量值连乘积的n n次方根,计算公式:次方根,计算公式:第二章第二章 描述统计描述统计例,例,某机械厂有毛坯车间、粗加工车间、精品某机械厂有毛坯车间、粗加工车间、精品加工
13、车间、装配车间四个流水连续作业的车加工车间、装配车间四个流水连续作业的车间。本月份毛坯车间制品合格率为间。本月份毛坯车间制品合格率为95%95%,粗加,粗加工车间合格率为工车间合格率为92%92%,精加工车间合格率为,精加工车间合格率为90%90%,装配车间合格率为,装配车间合格率为85%85%,求四个车间平,求四个车间平均产品合格率。均产品合格率。第二章第二章 描述统计描述统计(二)加权几何平均数(二)加权几何平均数 加权几何平均数计算公式:加权几何平均数计算公式:第二章第二章 描述统计描述统计例,例,设某笔为期设某笔为期2020年的投资按复利计算收益,前年的投资按复利计算收益,前1010年
14、的年利率为年的年利率为10%10%,中间,中间5 5年的年利率为年的年利率为8%8%,最后最后5 5年的年利率为年的年利率为6%6%,则整个投资期内的年平,则整个投资期内的年平均利率是多少?均利率是多少?第二章第二章 描述统计描述统计四、中位数四、中位数 把总体各变量值按大小顺序排列,处于中点把总体各变量值按大小顺序排列,处于中点位置的位置的变量值变量值就是中位数,中位数用就是中位数,中位数用“Me”Me”表示。表示。(一)根据未分组资料确定中位数(一)根据未分组资料确定中位数第一步:按大小顺序排列第一步:按大小顺序排列第二步:用公式确定中位数位置第二步:用公式确定中位数位置l注意:注意:总体
15、单位数(总体单位数(n n)为奇数时,处于中间位置上)为奇数时,处于中间位置上的那个变量值就是中位数;的那个变量值就是中位数;总体单位数为偶数时,中位数则是位于中间总体单位数为偶数时,中位数则是位于中间位置的两个变量值的算术平均数。位置的两个变量值的算术平均数。第二章第二章 描述统计描述统计(二)根据分组资料确定中位数(二)根据分组资料确定中位数1.由单项数列确定中位数由单项数列确定中位数 l例例2.11 某村农民家庭按儿童人数分组资料见表某村农民家庭按儿童人数分组资料见表2-8,求每个家庭儿童人数的中位数。,求每个家庭儿童人数的中位数。P25第二章第二章 描述统计描述统计表表2-8 某村农民
16、家庭按儿童人数分组资料某村农民家庭按儿童人数分组资料 按儿童数分按儿童数分组组(个(个/户户)家庭数(家庭数(户户)家庭数累家庭数累计计(户户)066114202254539544357合合计计57第二章第二章 描述统计描述统计2.由组距数列确定中位数由组距数列确定中位数 第一步:确定中位数位置第一步:确定中位数位置第二步:根据比例插值法用公式推算中位数第二步:根据比例插值法用公式推算中位数 下限公式下限公式 上限公式上限公式第二章第二章 描述统计描述统计例例2.12整理后的某保险公司整理后的某保险公司160名推销员月销售额的分组数据见表名推销员月销售额的分组数据见表2-9,试确定,试确定该公
17、司月销售额的中位数。该公司月销售额的中位数。按销售额分(千元)人数(人)向上累计向下累计12以下6616012141319154141629481411618368411218202510976202217126512224141403424269149202628715611282041604合计160第二章第二章 描述统计描述统计五、众数五、众数 众数是指总体中众数是指总体中出现次数最多出现次数最多的的变量值变量值,用用MO表示。表示。(一)由单项数列确定众数(一)由单项数列确定众数 在单项数列中出现次数最多的变量值就是众在单项数列中出现次数最多的变量值就是众数。数。例例2.13 P27、
18、28 第二章第二章 描述统计描述统计(二)由组距数列确定众数(二)由组距数列确定众数 步骤:步骤:先将出现次数最多的一组定为众数组,然后先将出现次数最多的一组定为众数组,然后再利用插补法确定众数的近似值。再利用插补法确定众数的近似值。下限公式下限公式 上限公式上限公式 第二章第二章 描述统计描述统计例例2.14 以表以表2-9资料为例,计算众数。资料为例,计算众数。表表2-9 按销售额分组(千元)人数(人)向上累计向下累计12以下66160121413191541416294814116183684112182025109762022171265122241414034242691492026
19、28715611282041604合计160第二章第二章 描述统计描述统计六、集中趋势测度指标的比较六、集中趋势测度指标的比较(一)各种数值平均数的比较(一)各种数值平均数的比较 1.适用场合不同适用场合不同 2.某些数值平均数对于被平均变量的取值有着某些数值平均数对于被平均变量的取值有着特殊的限制特殊的限制第二章第二章 描述统计描述统计(二)数值平均数与位置平均数的比较(二)数值平均数与位置平均数的比较1.数值平均数相对于数据的概括能力比位置平均数值平均数相对于数据的概括能力比位置平均数更强数更强2.数值平均数对于数据的灵敏度很高,对极端值数值平均数对于数据的灵敏度很高,对极端值的耐抗性较低
20、,位置平均数则相反的耐抗性较低,位置平均数则相反 3.数值平均数与位置平均数各自适用的数据类型数值平均数与位置平均数各自适用的数据类型不同不同 第二章第二章 描述统计描述统计(三)中位数、众数和算术平均数的关系(三)中位数、众数和算术平均数的关系 当现象呈现对称分布时,有,当现象呈现对称分布时,有,正偏情况下,有,正偏情况下,有,负偏情况下,有,负偏情况下,有,中位数始终位于算术平均数和众数之间。中位数始终位于算术平均数和众数之间。第二章第二章 描述统计描述统计【即皮尔生规则即皮尔生规则】前提:前提:在钟形分布只存在适度或轻微偏斜的情况在钟形分布只存在适度或轻微偏斜的情况下下 结论:结论:中位
21、数一般介于众数与算术平均数之间,中位数一般介于众数与算术平均数之间,且中位数与算术平均数的距离大约只是中位数且中位数与算术平均数的距离大约只是中位数与众数之距离的一半。即与众数之距离的一半。即 第二章第二章 描述统计描述统计 第三节第三节 变异程度测定变异程度测定 离散趋势的指标主要有离散趋势的指标主要有全距全距、平均差平均差、标准差标准差、方差方差及及变异系数变异系数 第二章第二章 描述统计描述统计一、全距一、全距 全距是总体各单位某一数量标志的最全距是总体各单位某一数量标志的最大值与最小值之差又称极差,常用大值与最小值之差又称极差,常用R表示。表示。其计算公式为:其计算公式为:全距(全距(
22、R)最大值最小值)最大值最小值 例例2.15 p30 第二章第二章 描述统计描述统计二、平均差二、平均差 平均差是各变量值对其算术平均数离平均差是各变量值对其算术平均数离差绝对值的算术平均数。用差绝对值的算术平均数。用“AD”表示。表示。(一)根据未分组资料计算平均差(一)根据未分组资料计算平均差 例例2.16 p31 第二章第二章 描述统计描述统计(二)根据分组资料计算平均差(二)根据分组资料计算平均差 此时平均差又称为加权平均差,其计此时平均差又称为加权平均差,其计算公式如下:算公式如下:第二章第二章 描述统计描述统计三、标准差和方差三、标准差和方差 标准差是总体各单位变量值与其算术标准差
23、是总体各单位变量值与其算术平均数离差平方的算术平均数的平方根,平均数离差平方的算术平均数的平方根,又称均方差或均方根差。用符号又称均方差或均方根差。用符号 表示。表示。方差是标准差的平方,用符号方差是标准差的平方,用符号 表示。表示。第二章第二章 描述统计描述统计(一)标准差和方差的计算(一)标准差和方差的计算1、根据未分组资料计算标准差和方差、根据未分组资料计算标准差和方差 例例2.18 P33 第二章第二章 描述统计描述统计2、根据分组资料计算标准差和方差、根据分组资料计算标准差和方差 此时的标准差和方差称为加权标准差此时的标准差和方差称为加权标准差和加权方差,其计算公式如下:和加权方差,
24、其计算公式如下:例例2.19 p33、34 第二章第二章 描述统计描述统计 按按销销售售额额分分组组(千元)(千元)组组中中值值(x)人数(人数(f)xf12以下以下11666341.1112141313169398.9914161529435363.421618173661285.38182019254755.2920222117357102.8822242314322278.482426259225375.582628277189501.002830294116437.65合合计计16029662889.78加权标准差和方差计算表加权标准差和方差计算表第二章第二章 描述统计描述统计 第二章
25、第二章 描述统计描述统计(二)标准差和方差的简捷计算(二)标准差和方差的简捷计算 同理同理 第二章第二章 描述统计描述统计 一般情况下,根据同一资料计算的标志变一般情况下,根据同一资料计算的标志变异指标异指标R、AD、,在数值上存在以下关系:,在数值上存在以下关系:R AD 第二章第二章 描述统计描述统计(三)是非标志标准差的计算方法(三)是非标志标准差的计算方法 是非标志标准差的计算公式为:是非标志标准差的计算公式为:第二章第二章 描述统计描述统计例例2.20 某班某班50名学生英语考试成绩及格人名学生英语考试成绩及格人数为数为39人,不及格人数为人,不及格人数为11人。求及格率人。求及格率
26、的标准差。的标准差。第二章第二章 描述统计描述统计(四)方差的加法定理(四)方差的加法定理例例2.21 某乡有织袜专业户某乡有织袜专业户9户,分别拥有的织布机为:户,分别拥有的织布机为:2、2、3、4、6、7、8、10、12台,求这台,求这9户拥有户拥有的织布机数量的总方差。的织布机数量的总方差。这这9 9户拥有的织布机台数的总方差为户拥有的织布机台数的总方差为 第二章第二章 描述统计描述统计例例2.21 某乡有织袜专业户某乡有织袜专业户9户,分别拥有的织布机为:户,分别拥有的织布机为:2、2、3、4、6、7、8、10、12台,求这台,求这9户拥有户拥有的织布机数量的总方差。的织布机数量的总方
27、差。将原始资料编制成组距数列将原始资料编制成组距数列按按织织袜机袜机台数分台数分组组(户户)台数(台)台数(台)(台)(台)144112.7542.25583217.003.0091222211.0050.00合合计计95495.25组组平均台数平均台数户户数数第二章第二章 描述统计描述统计 方差的加法定理方差的加法定理 组间方差组间方差是各组平均数对总平均数离差平是各组平均数对总平均数离差平方的算术平均数。方的算术平均数。平均组内方差平均组内方差是每组中各单位变量值对组平是每组中各单位变量值对组平均数离差平方的算术平均数的平均数。均数离差平方的算术平均数的平均数。第二章第二章 描述统计描述统
28、计 原始数据编制成组距数列后,总方差分解原始数据编制成组距数列后,总方差分解成两部分,即组间方差和平均组内方差。成两部分,即组间方差和平均组内方差。总方差:总方差:可以证明总方差、组间方差和平均组内方可以证明总方差、组间方差和平均组内方差之间的关系为:差之间的关系为:例例2.21 p36、37 第二章第二章 描述统计描述统计四、变异系数四、变异系数 常用的变异系数是标准差系数其计算常用的变异系数是标准差系数其计算公式为公式为:例例2.22 p38 第二章第二章 描述统计描述统计第四节第四节 相对位置测度相对位置测度 及异常值的检验及异常值的检验 通过平均数和标准差,还可以对数据通过平均数和标准
29、差,还可以对数据的相对位置进行测度。其具体方法有:的相对位置进行测度。其具体方法有:z分数分数、切贝谢夫定理切贝谢夫定理、经验法则经验法则、异常值异常值检测检测四种方法。四种方法。第二章第二章 描述统计描述统计一、一、z分数分数 Z分数通常被称为标准化数值。分数通常被称为标准化数值。Z表示表示观察值偏离平均数的标准差个数,其计算观察值偏离平均数的标准差个数,其计算公式为:公式为:第二章第二章 描述统计描述统计二、切贝谢夫定理二、切贝谢夫定理 切贝谢夫定理:在任意一组数据中,至少有切贝谢夫定理:在任意一组数据中,至少有(1-1/z)个数据落在平均数)个数据落在平均数z倍标准差范围内,倍标准差范围
30、内,z是是大于大于1的任意数值。的任意数值。当当z=2,3,4个标准差时,得出如下结论:个标准差时,得出如下结论:至少至少75%的数据落在平均数加减的数据落在平均数加减2倍标准差范围内倍标准差范围内 至少至少89%的数据落在平均数加减的数据落在平均数加减3倍标准差范围内倍标准差范围内 至少至少94%的数据落在平均数加减的数据落在平均数加减4倍标准差范围内倍标准差范围内2第二章第二章 描述统计描述统计三、经验法则三、经验法则 经验法则:经验法则:对于呈对称分布的数据来说,大约对于呈对称分布的数据来说,大约68%的的数据落在平均数加减数据落在平均数加减1倍标准差的范围内;大约倍标准差的范围内;大约
31、95%的数据落在平均数加减的数据落在平均数加减2倍标准差的范围内;倍标准差的范围内;大约大约99%的数据落在平均数加减的数据落在平均数加减3倍标准差的范倍标准差的范围内。围内。第二章第二章 描述统计描述统计四、异常值检测四、异常值检测 有时在一组数据中会有一个或几个非正常有时在一组数据中会有一个或几个非正常大或非正常小的观察值。这些极端值称为异常大或非正常小的观察值。这些极端值称为异常值。值。第二章第二章 描述统计描述统计主要概念与术语主要概念与术语算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数 中位数中位数 众数众数 全距全距 平均差平均差 标准差标准差 方差方差 变异系数变异系数 z分数分数 切贝谢夫定理切贝谢夫定理 经验法则经验法则 异常值异常值