《2022年第五章离散趋势测量法.docx》由会员分享,可在线阅读,更多相关《2022年第五章离散趋势测量法.docx(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 第五章 离散趋势测量法其次节、全距与四分位差. 一、全距. . . . minXi1、未分组资料运算公式全距又称极差,是一组数据的最大值与最小值之差,用表示;运算公式为:R.maxXi.minXi 式中,X i、max 分别表示为一组数据的最大值与最小值;由于全距是依据一组数据的两个极值表示的,所以全距说明白一组数据数值的变动范畴;越大,说明数值变动的范畴越大,即数列中各变量值差异大,反之,越小,说明数值变动的范畴越小,即数列中各变量值差异小;2、分组资料运算公式 R=最高组上限- 最低组下限 . . . . 名师归纳总结 . R=最高组组中组
2、 -最低组组中值R=最高组组中组 -最低组下限R=最第 1 页,共 10 页- - - - - - -精选学习资料 - - - - - - - - - 高组上限 -最低组组中值假如资料经过整理,并形成组距安排数列,全距可近似表示为:R最高组上限值最低组下限值3、优缺点:优点:运算简洁,易于懂得;缺点:( 1)受极端值影响大,遇含开口组的资料时无法运算;( 2)数据利用率低,信息丢失严峻;( 3)受抽样变动影响大(一般大样本的全距会比小样本的全距大);二、四分位差( inter-quartile range )上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距;四分位差的运算
3、方法:Q D=Q3-Q1 /2 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散;此外,由于中位数处于 数据的中间位置,因此,四分位差的大小在肯定程度上也说明白中位数对 一组数据的代表程度;四分位差主要用于测度次序数据的离散程度;当然,对于数值型数据 也可以运算四分位差,但不适合于分类数据;优缺点:主要是防止了全距受极端值影响的缺点,数据利用率低,信息丢失严峻;受抽样变动影响大;第三节、平均差. 其他优缺点同全距:名师归纳总结 - - - - - - -第 2 页,共 10 页精选学习资料 - - - - - - - - - . . 平均
4、差是各变量值与其算术平均数离差肯定值的平均数,用 A.D 表 示;依据把握资料的不同, 平均差有以下两种运算方法:1. 简洁平均法 对于未分组资料,采纳简洁平均法;其运算公式为:2. 加权平均法 在资料分组的情形下,应采纳加权平均式第四节、方差和标准差 . 一、概念要点 . 方差和标准差同平均差一样,也是依据全部数据运算的,反映每个 数据与其算术平均数相比平均相差的数值,因此它能精确地反映出数据的差异程度;但与平均差不同之处是在运算时的处理方法不同,平均差是取离差的肯定 值排除正负号,而方差、标准差是取离差的平方排除正负号,这更便于数学上的处理; 因此,方差、标准差是实际中应用最广泛的离中程度
5、度量值;由于总体的方差、标准差与样本的方差、标准差在运算上有所区分 . . . . . . 1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开名师归纳总结 方;2、离散程度的测度值之一;3、最常用的测度值;4、反映了第 3 页,共 10 页- - - - - - -精选学习资料 - - - - - - - - - 数据的分布;5、反映了各变量值与均值的平均差异;6、依据总体数据运算的,称为总体方差或标准差;依据样本数据运算的,称为样 本方差或标准差 二、总体的方差和标准差 设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的运算公式分别为(二)样本的方差和标准差 样本的
6、方差、标准差与总体的方差、标准差在运算上有所差别;总体 的方差和标准差在对 各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准 差在对各个离差平方平均时是用样本数据个数或总频数减 4. 方差的数学性质 第五节、标准分 相对位置的度量:标准分数1 去除总离差平方和;有了均值和标准差之后,我们可以运算一组数据中各个数值的标准分 数,以测度每个数据在该组数据中的相对位置,并可以用它来判定一组数 据是否有离群值;1、定义;变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标 准化值或值标准分数也给出了一组数据中各数值的相对位置;比如,假如某个数名师归纳总结 - - - - - - -
7、第 4 页,共 10 页精选学习资料 - - - - - - - - - 值的标准分数为 -2,我们就知道该数值低于均值2 倍的标准差;.4.21 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,经常需要对各变量数值进行标准化处理;实际上, z 分数只是将原始数据进行了线性变换,它并没有转变一个 数据在该组数据中的位置,也没有转变该组数分布的外形,而只是将该组数据变为均值为 0、标准差为 1 . 体会法就说明:当一组数据对称分布时 . . . . . . . . . . . 名师归纳总结 . 约有 68.27%的数据在平均数加减1 个标准差的范畴内约第 5 页,共 10
8、 页有 95.45%的数据在平均数加减2 个标准差的范畴内约有 99.73%的数据在平均数加减3 个标准差的范畴内;由此可见,一组数据中低于或高于平均数 3 个标准差以上的数据很少;因此,在统计上,往往将平均数3- - - - - - -精选学习资料 - - - - - - - - - 个标准差以外的数据称为反常值或离群值2、标准分的特性(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z 是和 X 一一对应的变量; ( 2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较;( 3)均值和方差不同的正态分布经 Z 分数标准化后,可以转化为标准正态分布,所以
9、Z 又称标准正态变量;(4)Z 分数的数学特性:Z 分数之和等于 0; Z 分数的算术平均数等于 0; Z分数的标准差和方差均为 1;3、标准分的主要作用:标准分数的作用主要在两个方面,一是可以说明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较;第六节 离散系数相对离散程度:离散系数用离差的肯定指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较;这种由肯定离差与其算术平均数的比值,叫变异系数;. . . . 1、全距系数:全距与算术平均数之比;2、平均差系数:平均差与算术平均数之比;3、标准差系数(最重要和最常用的变异系数)(1)
10、标准差与其相应的均值之比. ( 2)排除了数据水平高低和计量单位的影响名师归纳总结 - - - - - - -第 6 页,共 10 页精选学习资料 - - - - - - - - - . ( 3)测度了数据的相对离散程度 . ( 4)用于对不同组别数据离散程度的比较 离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算 术平均数的比值;离散系数是一个无名数,可以用于比较不同数列的变异 程度;离散系数通常用表示, 常用的离散系数有平均差系数和标准差系数,其运算公式分别为:例 3.19 甲乙两组工人的平均工资分别为138.14 元、176 元,标准差分别为 21.32 元、 24.67 元
11、;两组工人工资水平离散系数运算如下:【例】某治理局抽查了所属的8 家企业,其产品销售数据如表,试比较产品销售额与销售利润的离散程度X1=536.25(万元)X2=32.5215(万元) S1=309.19(万元)S2=23.09(万元)V2=S2/X2=0.710 V1=S1/X1=0.577 结论: 运算结果说明, V1<V2 ,说明产品销售额的离散程度小于销 售利润的离散程度第七节、异众比率. . 非众数组的频数占总频数的比率 示; 异众比率的运算公式为:. variation ratio ,称为异众比率, 用表式中:为变量值的总频数;为众数组的频数 . 名师归纳总结 - - - -
12、 - - -第 7 页,共 10 页精选学习资料 - - - - - - - - - . . 异众比率的作用是衡量众数对一组数据的代表性程度的指标;异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好;异众比率主要用于测度分类数据的离散程度,当然,对于次序数据也可以运算异众比率例 3.10一家市场调查公司为讨论不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查;调查员在某天对50 名顾客购买饮料的品牌进行了纪录;整理得不同品牌饮料的频数分布资料如表 4.4.1 所示,要求依据资料运算异众比率数据类型和所适用的离散程度测度值数据分
13、布偏态与峰度的测度指标. . . 偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述;对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数;集中趋势和离中趋势是数据分布的两个重要特点,但要全面明白数据分布的特点,仍需要知道数据分布的外形是否对称、偏斜的程度以及分布的扁平程度等;偏态和峰度就是对这些分布特点的描述;一、偏态的度量. (一)由算术平均数与众数之间的关系求偏态系数名师归纳总结 - - - - - - -第 8 页,共 10 页精选学习资料 - - - - - - - - - . 任何一个频数分布的算术平均数与众数之间的差异情形,与这个频 数分
14、布的外形有固定的关系;如频数分布是对称的,就算术平均数等于众数;如频数 分布为右偏,就算术平均数大于众数;如频数分布为左偏,就算术平均数 小于众数;用其二者的差量除以标准差,即可求得偏态系数,. . (二)动差法动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计 学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动 差来说明频数分布的性质;. . 二、峰度的度量 峭程度的指标;. . 峰度是用来衡量分布的集中程度或分布曲线的尖. 当峰度 0 时,表示分布的外形比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数四周,这样的分布称为尖峰分布,如图 3.4(a);
15、 =0 时,分布为正态分布; 0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分 布称为平峰分布如图 3.4(b);例 3.20 依据例 4.5.1 中的数据,运算农夫家庭人均收入分布的峰度 系数名师归纳总结 - - - - - - -第 9 页,共 10 页精选学习资料 - - - - - - - - - 【例】已知 1997 年我国农村居民家庭按纯收入分组的有关数据如表;试运算偏态系数KKFFii X.X.(百元) .X.X.21.429429(百元) .21.iiKK ii. .11Fii.F ii.11 KKFFii .X.(百元) .X.12.089089(百元)
16、.12.iiKK ii.11Fii.F ii.11 K11K11333 .X.X.3FX.XX.FFX.2121.429429.F .3.3 .ii.11iiii.ii.1.1iiiiNN.33.1.12.1.12.089089.33.16891 689.252517661766.73397339.00.956956 结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的 分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭就占少数,而且偏斜的程度较大【例】依据表中的运算结果,运算农村居民家庭纯收入分布的峰度系 数;.4.4 X.Xii.11KKii.XX.FFii4444NN.7252172521.2525 1.12.1.12.089089.22.33.44 结论:由于 =3.4>3 ,说明我国农村居民家庭纯收入的分布为尖峰分 布,说明低收入家庭占有较大的比重;名师归纳总结 - - - - - - -第 10 页,共 10 页