《【教学课件】第二章资料整理.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第二章资料整理.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 资料整理资料整理资料整理:资料整理:对对原始资料原始资料进行进行审核、分组、汇总、审核、分组、汇总、描述和归纳描述和归纳,使之条理化和便于统计分析,使之条理化和便于统计分析和推断。和推断。1原始资料:统计调查和实验结果原始资料:统计调查和实验结果(1)如牛场、鸡场和猪场的性能测定结果)如牛场、鸡场和猪场的性能测定结果 (产奶量、产蛋数、产仔数、称重等);(产奶量、产蛋数、产仔数、称重等);(2)屠宰试验结果;)屠宰试验结果;(3)实验结果包括基因型、特异条带的有)实验结果包括基因型、特异条带的有 无、强弱;饲料成分的含量等无、强弱;饲料成分的含量等第二章第二章 资料整理资料整理2
2、第二章第二章 资料整理资料整理原始数据:原始数据:大量的、大量的、“杂乱无章杂乱无章”不能直接用于统计分析,必须经过统不能直接用于统计分析,必须经过统整理和加工。整理和加工。3第二章第二章 资料整理资料整理资料整理的主要内容资料整理的主要内容(1)审核与订正审核与订正:人为错误、小数点等:人为错误、小数点等(2)分组与汇总分组与汇总:内部结构、类型和特征:内部结构、类型和特征(3)计计 算各种综合数字特征算各种综合数字特征:如,:如,n、平均数、标、平均数、标 准差准差(4)统计表或统计图统计表或统计图:显示资料的基本特征和内在:显示资料的基本特征和内在 规律规律4第二章第二章 资料整理资料整
3、理2.1 资料的分类资料的分类2.2 数据的频率分布数据的频率分布2.3 数据的表示方法数据的表示方法2.4 集中趋势的度量集中趋势的度量2.5 离散趋势的度量离散趋势的度量52.1 资料的分类资料的分类统计资料:指反映事物、现象或过程的数据资料。统计资料:指反映事物、现象或过程的数据资料。包括原始资料和次级资料。包括原始资料和次级资料。特点:特点:(1)数字性:)数字性:数字形式或者可以转换为数字形式。数字形式或者可以转换为数字形式。(2)大量性:)大量性:大量相像或对同类相像观察所取得的大量相像或对同类相像观察所取得的 数据资料。数据资料。(3)具体性:)具体性:已经实现的事实的记载。已经
4、实现的事实的记载。62.1.1 连续性资料(或计量资料)连续性资料(或计量资料)指一定范围内可取任何实数值的数据资指一定范围内可取任何实数值的数据资料,通常是用度量衡等计量工具测量后得到的。料,通常是用度量衡等计量工具测量后得到的。如:体重、产奶量、产毛量等。如:体重、产奶量、产毛量等。数据的连续性受到实际测定规模和测量工数据的连续性受到实际测定规模和测量工具精度的限制,如:天平和尺的精确程度。具精度的限制,如:天平和尺的精确程度。实际得到的资料并非完全连续的,连续性实际得到的资料并非完全连续的,连续性只是理论上的。只是理论上的。72.1.1 离散性资料离散性资料 指一定范围内只取有限种可能值
5、的数据资料。指一定范围内只取有限种可能值的数据资料。1.计数资料:计数资料:计数的方式得到,必须用整数表示。计数的方式得到,必须用整数表示。如:产蛋数、产仔数。如:产蛋数、产仔数。2.分类资料:分类资料:可分为多个不同的类别。可分为多个不同的类别。(1)不同类别之间无等级之分。)不同类别之间无等级之分。如:性别(公母)、如:性别(公母)、基因型(基因型(AA AB BB)、毛)、毛 色(红、白、黑)。色(红、白、黑)。8(2)不同类别之间有内在的等级之分。)不同类别之间有内在的等级之分。如:成绩(优、良、高)、产奶量(高、如:成绩(优、良、高)、产奶量(高、中、低)中、低)分类资料可以用文字描
6、述,也可以转换分类资料可以用文字描述,也可以转换为数字,用自然数来表示。为数字,用自然数来表示。如:如:0代表公,代表公,1代表母。代表母。不同的数字只代表类型,不代表大小。不同的数字只代表类型,不代表大小。2.1.1 离散性资料离散性资料92.2 数据的频率分布数据的频率分布 频率分布反映一组数据中不同观测出现频率分布反映一组数据中不同观测出现频率。对数据的分布特征和趋势一目了然。频率。对数据的分布特征和趋势一目了然。2.2.1 2.2.1 离散性资料的频率分布离散性资料的频率分布 计数资料和分类资料的频率分布指每个计数资料和分类资料的频率分布指每个自然值或属于不同类别的观测值出现的次数自然
7、值或属于不同类别的观测值出现的次数(频数)和所占的比例。(频数)和所占的比例。见教材见教材 P7-8 P7-8 表表2-12-1和表和表2-22-2。102.2.2 连续性资料的频率分布连续性资料的频率分布 首先,首先,将资料进行分组将资料进行分组 然后,然后,将观测值分别纳入相应的组内将观测值分别纳入相应的组内 最后,最后,计算各组中观测值的频数和频率计算各组中观测值的频数和频率112.2.2 连续性资料的频率分布连续性资料的频率分布 一、数据分组一、数据分组1.求全距:求全距:变数的最大值与最小值之差变数的最大值与最小值之差2.确定组数:确定组数:取决于样本含量,表取决于样本含量,表243
8、.确定组距:确定组距:每组的最大值与最小值之差每组的最大值与最小值之差 组距全距组距全距/组数组数 组距为整数(计算得到的小数化为整数),组距为整数(计算得到的小数化为整数),各组的组距相同,用各组的组距相同,用 i 表示表示.122.2.2 连续性资料的频率分布连续性资料的频率分布4.求组中值和组限求组中值和组限 组限:每组的两个极限值组限:每组的两个极限值 组下限:最小值组下限:最小值 组上限:最大值组上限:最大值 组中值:(组上限组中值:(组上限+组下限)组下限)/2 组下限组下限=组中值组中值-0.5X组距组距 一般是首先确定第一组的组中值,然后根据加上一般是首先确定第一组的组中值,然
9、后根据加上组距得到第二组的组中值,依次类推组距得到第二组的组中值,依次类推13 一般是首先确定第一组的组中值,然后根据加上一般是首先确定第一组的组中值,然后根据加上 组距得到第二组的组中值,依次类推组距得到第二组的组中值,依次类推 第一组的组中值一般接近或等于资料中的最小值,第一组的组中值一般接近或等于资料中的最小值,这样可以避免资料中的最小值被排除在外。这样可以避免资料中的最小值被排除在外。为避免上一组的组上限与下一组的组下限相等时,为避免上一组的组上限与下一组的组下限相等时,使得其分组时的归属问题,通常采用将该数值向后靠使得其分组时的归属问题,通常采用将该数值向后靠的原则,即上一组的组上限
10、稍小于下一组的组下限。的原则,即上一组的组上限稍小于下一组的组下限。或采用开口式分组,即每组无确定的组上限。或采用开口式分组,即每组无确定的组上限。以课本表以课本表2-3为例详细说明。为例详细说明。2.2.2 连续性资料的频率分布连续性资料的频率分布142.2.2 连续性资料的频率分布连续性资料的频率分布 二、计算频率分布二、计算频率分布 根据组限,将资料中的数据分别分配到根据组限,将资料中的数据分别分配到各组中,然后计算各组的频数和频率。从各组中,然后计算各组的频数和频率。从而很容易地了解资料的特点。而很容易地了解资料的特点。见表见表2-5 小结:计算频率小结:计算频率 分组分组 组限组限
11、全距全距 组数组数 组距组距152.2.3 百分位数(百分位点)百分位数(百分位点)指将一组指将一组 n 个数据由小到大排列,如果个数据由小到大排列,如果小于小于 某数值的数据个数为全体数据个数的某数值的数据个数为全体数据个数的x%,则称该数为第,则称该数为第 x 百分位数或百分位数或 x%分位数。分位数。25%分位数或下四分位数:分位数或下四分位数:0.25n个数的后一个数。个数的后一个数。50%分位数或中位数:分位数或中位数:0.5n个数的后一个数。个数的后一个数。75%分位数或上四分位数:分位数或上四分位数:0.75n个数的后一个数。个数的后一个数。162.3 统计表统计表 统计资料的基
12、本表现形式,也是最常见的形式。统计资料的基本表现形式,也是最常见的形式。使得数据具有条理性、清晰易懂、便于比较和分使得数据具有条理性、清晰易懂、便于比较和分析。析。形式:标题、纵列标题、横列标题、表体形式:标题、纵列标题、横列标题、表体 见表见表2-5 类型:简单表(一组横标目和一组列标目)类型:简单表(一组横标目和一组列标目)复合表(多组横标目和一组列标目、一复合表(多组横标目和一组列标目、一 组横标目和多组列标目、多组横标目和多组横标目和多组列标目、多组横标目和多 组列标目)组列标目)见见p114表和表和p204表表17 利用点、线、面、体形象、直观地表示统利用点、线、面、体形象、直观地表
13、示统计资料的基本特征和变化趋势。计资料的基本特征和变化趋势。一、条形图一、条形图 利用平行柱型的长短表示数的大小。利用平行柱型的长短表示数的大小。适用于分类资料和离散性数量资料的频率分布适用于分类资料和离散性数量资料的频率分布 见图见图2-1 2.3 统计图统计图18二、直方图二、直方图 利用距形面积表示各组中数据出现的频数。利用距形面积表示各组中数据出现的频数。适用于连续性资料的频率分布适用于连续性资料的频率分布 见图见图2-2三、饼图三、饼图 利用扇形面积表示不同类别的频率,可采用不同利用扇形面积表示不同类别的频率,可采用不同 的色彩。的色彩。适用于类别不多的分类资料的频率分布。适用于类别
14、不多的分类资料的频率分布。见图见图2-3 2.3 统计图统计图192.3 统计图统计图四、线形图四、线形图 利用曲线表示数据的动态变化趋势。利用曲线表示数据的动态变化趋势。不同的指标可以分别用不同的形式来表示,以示不同的指标可以分别用不同的形式来表示,以示 区别区别 见图见图2-420统计表与统计图统计表与统计图 统计表:信息量大、精确的数值。统计表:信息量大、精确的数值。不仅反映资料的特征和趋势,还可以提供不仅反映资料的特征和趋势,还可以提供 更详细的信息。更详细的信息。统计图:形象、生动、直观统计图:形象、生动、直观 主要反映资料的主要特征和趋势主要反映资料的主要特征和趋势 经常需要统计表
15、结合统计图来说明问题;经常需要统计表结合统计图来说明问题;根据研究目的灵活应用;统计表应用更多、根据研究目的灵活应用;统计表应用更多、更常见。更常见。21上次课主要内容回顾上次课主要内容回顾1.原始资料原始资料 2.统计资料统计资料2.3.资料整理的目的和过程资料整理的目的和过程3.4.连续性资料和离散性资料连续性资料和离散性资料4.5.连续性资料的频率分布(全距、组数、组距、连续性资料的频率分布(全距、组数、组距、组中值、组上限、组下限、频数、频率)组中值、组上限、组下限、频数、频率)5.6.离散性资料的频率分布(类别、频数、频率)离散性资料的频率分布(类别、频数、频率)6.7.统计表(简单
16、表、复合表、与统计图的关系)统计表(简单表、复合表、与统计图的关系)7.8.统计图(种类以及适合那类资料)统计图(种类以及适合那类资料)22 在数理统计中,平均数是用来反映在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有:心位置。常用的度量指标有:1.1.算术平均数算术平均数 2.2.中位数(中位数(M)3.3.众数(众数(Mo)4.4.几何平均数(几何平均数(M g)5.5.调和平均数(调和平均数(H)2.5 集中趋势的度量集中趋势的度量23意义:意义:作为一个资料的代表,指资料中各变数集中作为一个资料的代表,指资料中
17、各变数集中较多的中心位置,用来与另一资料相比较。不同的较多的中心位置,用来与另一资料相比较。不同的平均数适合于不同的数据资料。平均数适合于不同的数据资料。例如:例如:不同国家、地区、种族之间身高、体重等的不同国家、地区、种族之间身高、体重等的 比较;不同品种的家畜、家禽之间生产性能比较;不同品种的家畜、家禽之间生产性能 的比较的比较2.5 集中趋势的度量集中趋势的度量24主要内容:主要内容:一、算术平均数一、算术平均数二、中位数、众数、几何平均数和调和平均数二、中位数、众数、几何平均数和调和平均数三、三、5 5 种平均数的关系和评价种平均数的关系和评价 2.5 集中趋势的度量集中趋势的度量25
18、2.5.1 2.5.1 算术平均数算术平均数一、定义一、定义 一组资料中,所有观测值的总和除以其个资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数数所得到的商,称为算术平均数,简称平均数或均数。或均数。最常用的一种集中趋势度量指标。最常用的一种集中趋势度量指标。样本的平均数记为样本的平均数记为 总体平均数记为总体平均数记为 262.5.1 2.5.1 算术平均数算术平均数 :第:第i个观察值或变数个观察值或变数 n:观察值或变数的个数:观察值或变数的个数:求和符号(:求和符号(sigma)计算公式:计算公式:27一、直接法:一、直接法:例例2.12.1:5 5头猪的体重
19、分别为头猪的体重分别为7070、7272、8080、8383、88kg 88kg,问,问 5 5头猪的算术平均数是多少?头猪的算术平均数是多少?从计算结果看从计算结果看5 5头猪都距头猪都距78.678.6(kgkg)不远,)不远,所以平均数是数量资料的代表值。所以平均数是数量资料的代表值。上述计算方法称为上述计算方法称为直接法直接法,适用于样本小,适用于样本小,即资料内包含变数个数不多,一般在即资料内包含变数个数不多,一般在3030个变数以个变数以下未经分组的资料。下未经分组的资料。2.5.1 2.5.1 算术平均数算术平均数28二、加权法二、加权法 1.1.分类资料:每个类别在某个指标上取
20、相同的值。分类资料:每个类别在某个指标上取相同的值。2.2.计数资料和连续性资料:频率分布表计数资料和连续性资料:频率分布表 加权法,即计算时先将各个变数乘上它加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总合,的权数,再经过总和,然后除以权数的总合,称为加权平均数。称为加权平均数。2.5.1 2.5.1 算术平均数算术平均数29 x xi i=变数值变数值 f fi i=变数值变数值x xi i出现的频数出现的频数计算公式:计算公式:2.5.1 2.5.1 算术平均数算术平均数30例例2.22.2:一个有一个有10001000个个体的群体,等位基因个个体的群体,等位基因
21、 A A 的的 频率为频率为0.60.6,另一个,另一个400400个个体的群体,个个体的群体,等位基因等位基因 A A 的频率为的频率为0.30.3,这两个群体的混,这两个群体的混 合在一起,整个混合群体的等位基因合在一起,整个混合群体的等位基因 A A 的的 频率为:频率为:2.5.1 2.5.1 算术平均数算术平均数31例例2.32.3:200200头大白猪的仔猪的一月窝重的资料见表头大白猪的仔猪的一月窝重的资料见表2-12-1组别组别组中值组中值频数(频数(f f)fxfx8-8-16-16-24-24-32-32-40-40-48-48-56-56-64-64-72-72-80-80
22、-88-88-96-96-104-104-112-112-121220202828363644445252606068687676848492921001001081081161164 46 69 9101013131717262635352828212116168 84 43 348481201202522523603605725728848841560156023802380212821281764176414721472800800432432348348总合总合20020013120131202.5.1 2.5.1 算术平均数算术平均数322.5.1 2.5.1 算术平均数算术平均数x
23、 xi i=组中值组中值f fi i=组中值出现的频数组中值出现的频数例例2.3:表:表22和表和表2533三、性质三、性质(一)离均差之和为零:(一)离均差之和为零:一个样本观察值与平均数之差简称离一个样本观察值与平均数之差简称离均差。均差。(xi-)=(x1-)+(x2-)+(xn-)=x1+x2+xn+n=xi-nxi/n=02.5.1 2.5.1 算术平均数算术平均数34例例2.22.2:5头猪的体重分别为头猪的体重分别为70、72、80、83、88kg,5头猪的算术平均数是头猪的算术平均数是78.6 kg。(70-78.670-78.6)+(72-78.672-78.6)+(80-7
24、8.680-78.6)+(83-78.683-78.6)+(88-78.688-78.6)=(-8.6-8.6)()(-6.6-6.6)+1.4+4.4+9.4+1.4+4.4+9.4=0=02.5.1 2.5.1 算术平均数算术平均数35(二)离均差平方和最小:(二)离均差平方和最小:一个样本的各个观察值一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。即:之差的平方和小。即:所以:平均数是与各个观察值最接近的数值。所以:平均数是与各个观察值最接近的数值。所以:平均数代表这个样本的集中趋势。所以:平均数代表这个样本的集
25、中趋势。2.5.1 2.5.1 算术平均数算术平均数36定义:定义:n n个非负数的乘积开个非负数的乘积开n n次方的根称为几何平均次方的根称为几何平均 数,用数,用 G G 表示。表示。为了计算方便,各变数先取对数,再相加除以为了计算方便,各变数先取对数,再相加除以n n,即,即为为logGlogG,再求其反对数,即为,再求其反对数,即为G G值。值。2.5.2 2.5.2 几何平均数几何平均数2.5.2 2.5.2 几何平均数几何平均数从公式可以知道:几何平均数就是首先将原数据转从公式可以知道:几何平均数就是首先将原数据转换为对数;然后求对数值的算数平均数;最后再取换为对数;然后求对数值的
26、算数平均数;最后再取反对数还原。反对数还原。几何平均数用于以百分率、比例表示的数据资料,几何平均数用于以百分率、比例表示的数据资料,如增长率、利率、药物效价、抗体滴度等。如增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。能够消弱数据中个别过分偏大值的影响。382.5.2 2.5.2 几何平均数几何平均数例例2.3:某奶牛场在某奶牛场在1995年有年有100头奶牛,已知在头奶牛,已知在1996,1997和和1998年的奶牛头数分别为前一年的年的奶牛头数分别为前一年的2,3和和4.5倍,求其年平均增加率。倍,求其年平均增加率。解:解:1998年的奶牛头数为:年的奶牛头数为:
27、100234.52700头头 或者或者100332700头头392.5.2 2.5.2 几何平均数几何平均数加权法:分类资料或计数和连续性资料加权法:分类资料或计数和连续性资料对数形式对数形式例例2.4P1540定义:各观察值倒数的平均数的倒数定义:各观察值倒数的平均数的倒数适用于极端右偏态,例适用于极端右偏态,例33页页2.5.3 2.5.3 调和平均数调和平均数简单调和简单调和平均数平均数加权调和加权调和平均数平均数41从公式可以知道:调和几何平均数就是首先将原数从公式可以知道:调和几何平均数就是首先将原数据转换为倒数;然后求倒数值的算数平均数;最后据转换为倒数;然后求倒数值的算数平均数;
28、最后再取倒数还原。再取倒数还原。调和平均数主要用于速度类资料,或者数据中有个调和平均数主要用于速度类资料,或者数据中有个别极端大的值的情况。别极端大的值的情况。2.5.3 2.5.3 调和平均数调和平均数422.5.3 2.5.3 调和平均数调和平均数例例2.42.4:用某药物救治:用某药物救治1212只中毒的小鼠,它们的存活只中毒的小鼠,它们的存活天数记录如下:天数记录如下:8 8,8 8,8 8,1010,1010,7 7,1313,1010,9 9,1414,另外有两只未死亡,求平均存活天数。,另外有两只未死亡,求平均存活天数。解:未死亡的存活天数记为解:未死亡的存活天数记为,为极端右偏
29、态,用,为极端右偏态,用算术平均数不合理。算术平均数不合理。43定义:将定义:将n n个观察值从小到大依次排队,位于中个观察值从小到大依次排队,位于中间的那个观察值称为中位数。间的那个观察值称为中位数。2.5.4 2.5.4 中位数(中位数(M Md d)44 适用于偏态分布的资料。适用于偏态分布的资料。例:例:2.5 现有一窝仔猪的出生重资料为:现有一窝仔猪的出生重资料为:1.4,1.0,1.3,1.2,1.6kg,试求其中位数。,试求其中位数。解:首先将数据资料排序:解:首先将数据资料排序:1.0,1.2,1.3,1.4,1.6;然后计算中位数:;然后计算中位数:(n+1)/2=(5+1)
30、/2=3;Md=X3=1.3 如果增加一头仔猪,出生重为如果增加一头仔猪,出生重为1.8kg,计算中位数:,计算中位数:n/2=6/2=3 (n/2)+1=3+1=4;Md=(X3+X4)/2=(1.3+1.4)/2=1.352.5.4 2.5.4 中位数(中位数(M Md d)452.5.4 2.5.4 中位数(中位数(M Md d)对于频数分布的资料,公式如下:对于频数分布的资料,公式如下:Lmd:中位数所在组的组下限;:中位数所在组的组下限;fm:中位数所在组的频数;:中位数所在组的频数;C:从第一组到:从第一组到 n:样本含量;:样本含量;i:组距;:组距;例:表例:表25462.5.
31、4 2.5.4 中位数(中位数(M Md d)47定义:在资料中某一个变数出现次数最多,就称定义:在资料中某一个变数出现次数最多,就称 之为众数。之为众数。1.1.离散性资料:出现频数最多的数。离散性资料:出现频数最多的数。2.2.连续性资料:频数分布表中,频数出现最多的连续性资料:频数分布表中,频数出现最多的 一组的组中值。一组的组中值。!有的资料可出现多个众数,即多个数具有有的资料可出现多个众数,即多个数具有相同的最高频数;相同的最高频数;有的资料没有众数,即所有数出有的资料没有众数,即所有数出现的频数都相同。现的频数都相同。2.5.5 2.5.5 众数(众数(mode,Mmode,M0
32、0)482.5.6 2.5.6 各个集中趋势度量指标之间的关系和评价各个集中趋势度量指标之间的关系和评价一、各个集中趋势度量指标之间的关系一、各个集中趋势度量指标之间的关系 1.1.在完全对称分布情况下,算数平均数、中位数在完全对称分布情况下,算数平均数、中位数 和众数三者相等。和众数三者相等。492.5.6 2.5.6 各个集中趋势度量指标之间的关系和评价各个集中趋势度量指标之间的关系和评价二、集中趋势指标的评价二、集中趋势指标的评价 应满足以下几个条件:应满足以下几个条件:1.1.必须有严格的定义及算法,避免有主观成分存必须有严格的定义及算法,避免有主观成分存在其间;在其间;2.2.计算过
33、程中应利用全部观察值;计算过程中应利用全部观察值;3.3.简单明了,容易领悟,容易计算;简单明了,容易领悟,容易计算;4.4.受抽样变动影响不大,即抽样误差小。受抽样变动影响不大,即抽样误差小。5.5.适用于代数方法处理。适用于代数方法处理。50(1 1)算术平均数)算术平均数 能够满足以上所有的条件,适用于正态分布资能够满足以上所有的条件,适用于正态分布资料。料。家畜的大多数数量性状都是正态分布,因此算家畜的大多数数量性状都是正态分布,因此算术平均数是最常用的,也是最重要的。术平均数是最常用的,也是最重要的。但是当分布不对称时,呈偏态时,用算术平均但是当分布不对称时,呈偏态时,用算术平均数则
34、难以表示资料的集中趋势。数则难以表示资料的集中趋势。2.5.6 2.5.6 各个集中趋势度量指标之间的关系和评价各个集中趋势度量指标之间的关系和评价512.5.6 2.5.6 各个集中趋势度量指标之间的关系和评价各个集中趋势度量指标之间的关系和评价(2 2)中位数)中位数 能够满足第能够满足第 2 2、3 3条,适用于非参数检验,如卡条,适用于非参数检验,如卡方检验。方检验。(3 3)几何平均数和调和平均数)几何平均数和调和平均数 能够满足第能够满足第 1 1、2 52 5条,适用于右偏态分布。条,适用于右偏态分布。52一、平均数的代表程度与样本的变异程度有关一、平均数的代表程度与样本的变异程
35、度有关 一个样本内有很多的变数,用平均数作为样本的一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异程度。代表,其代表程度决定于样本内各个变数的变异程度。1.1.如果各个变数相同或者变异程度比较小,则平如果各个变数相同或者变异程度比较小,则平 均均数能够代表整个样本。数能够代表整个样本。2.2.如果各个变数的变异程度比较大,则平均数的代如果各个变数的变异程度比较大,则平均数的代表性就小。表性就小。因此,单靠平均数不能全面、正确地了解样因此,单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度本。也不能了解平均数作为样本的变异程度 2.6 离散
36、趋势的度量离散趋势的度量53例,即使两个样本的平均数相同,但是样本内变数例,即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。的变异程度不一定相同。产仔数产仔数总和总和 平均数平均数品种品种甲甲8 8,4 4,1616,1212,2222,1717,6 6,1414,6 6,5 51101101111品种品种乙乙1414,8 8,1111,9 9,1111,1212,1010,1414,1313,8 811011011112.6 离散趋势的度量离散趋势的度量54从以上统计结果可知:从以上统计结果可知:1.1.甲乙两品种的平均产仔数相同,都是甲乙两品种的平均产仔数相同,都是1111头
37、,从平均数来头,从平均数来 看,两个品种没有差异。看,两个品种没有差异。2.2.进一步观察各个变数,两个样品的变异程度并不相同。进一步观察各个变数,两个样品的变异程度并不相同。甲:最小为甲:最小为4 4,最大为,最大为2222;乙:最小为;乙:最小为8 8,最大为,最大为1414 甲的变异程度大于乙甲的变异程度大于乙 甲的平均数的代表性小于乙的平均数甲的平均数的代表性小于乙的平均数 所以,应该测定其变异程度所以,应该测定其变异程度2.6 离散趋势的度量离散趋势的度量55第二章第二章 离散性的度量离散性的度量(二)全距(二)全距 定义:全部变数的最大值与最小值之差定义:全部变数的最大值与最小值之
38、差 R=Max(x)-Min(x)R=Max(x)-Min(x)全距可以反映变异程度的一部分,但是不能代表样本内各变全距可以反映变异程度的一部分,但是不能代表样本内各变数之间的变异程度。数之间的变异程度。目前,被广泛使用的是以标准差来度量变异程度目前,被广泛使用的是以标准差来度量变异程度56第二章第二章 离散性的度量离散性的度量二、标准差的定义二、标准差的定义 如果一个样本有如果一个样本有n个观察值个观察值x1,x2 xn,设其算术平均设其算术平均数为数为 ,则该样本的标准差为:,则该样本的标准差为:从公式可以看出,标准差考虑了每个从公式可以看出,标准差考虑了每个变数与平均数的离差。变数与平均
39、数的离差。每个变数与平均数与平均数相差愈小,每个变数与平均数与平均数相差愈小,样本变异程度愈小,反之,愈大。样本变异程度愈小,反之,愈大。因此,标准差是离散程度的度量因此,标准差是离散程度的度量57第二章第二章 离散性的度量离散性的度量三、标准差公式的来源三、标准差公式的来源1.离均差离均差=(x-)2.离均差之和离均差之和=(x-x-)=0=03.3.离均差平方和离均差平方和 SS=SS=(x-x-)2 2虽然离均差可以衡量变异程度,但是离均差之和为0,所以不是理想的指标为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(SS),但是由于不同样本的观察值个
40、数不同,所以离均差平方和也不是理想指标58第二章第二章 离散性的度量离散性的度量4.4.样本均方和样本标准差样本均方和样本标准差将离均差平方和求平均数,称为样本均方,目的是消除观察值个数的影响样本均方开方,目的是使变异还原,即标准差。5.5.总体均方和总体标准差总体均方和总体标准差总体是未知的,用样本标准差估计和推断总体标准差59第二章第二章 离散性的度量离散性的度量四、自由度:四、自由度:df df,n-1n-1:对于小样本,计算标准差的时候,样本含量为对于小样本,计算标准差的时候,样本含量为n,df=n-1,目的是纠正由于样本小而发生的取样误差影响。,目的是纠正由于样本小而发生的取样误差影
41、响。如果一个样本含有如果一个样本含有n个变数,从理论上讲,个变数,从理论上讲,n个变数都个变数都同样用以计算标准差,同样用以计算标准差,n个变数与平均数相减有个变数与平均数相减有n个离均个离均差。表面上虽有差。表面上虽有n个比较,但实质上仅有个比较,但实质上仅有n-1个可以自由个可以自由变动,最后一个离均差受到变动,最后一个离均差受到离均差之和离均差之和这个条件的限制,这个条件的限制,所以不能自由。所以不能自由。60第二章第二章 离散性的度量离散性的度量例如,例如,有有5个变数,其个变数,其4个离均差为个离均差为-2、-1、1、2,则,则第第5个离均差必等于个离均差必等于0,如,如4个离均差为
42、个离均差为-1、0、1、2时,则第时,则第5个离均差必等于个离均差必等于-2,这样才能使离均差的,这样才能使离均差的总和等于总和等于0。这。这5个离均差中,因受离均差之和等于个离均差中,因受离均差之和等于0的限制,所以只有的限制,所以只有4个能自由变动。这时的自由度就个能自由变动。这时的自由度就是是n-1。自由度等于样本变数的总个数减去计算过程。自由度等于样本变数的总个数减去计算过程中使用的条件数。中使用的条件数。61第二章第二章 离散性的度量离散性的度量在计算标准差时,条件就是一个,即在计算标准差时,条件就是一个,即所以,自由度为所以,自由度为1。如计算样本某一个统计数应用如计算样本某一个统计数应用2个条件,其自由度则为个条件,其自由度则为n-2,如果应用,如果应用k个条件,则自由度为个条件,则自由度为n-k。小样本常用自由度来计算标准差或其他统计数,因为小小样本常用自由度来计算标准差或其他统计数,因为小样本的全距较群体为小,若为大样本,当与群体较接近时,样本的全距较群体为小,若为大样本,当与群体较接近时,可以不用自由度,直接用可以不用自由度,直接用n即可。自由度的符号以即可。自由度的符号以“df”表表示。示。62第二章第二章 离散性的度量离散性的度量五、标准差的计算方法五、标准差的计算方法63