《第二章 数据资料的整理.ppt》由会员分享,可在线阅读,更多相关《第二章 数据资料的整理.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章 资料的整理资料的整理钟爱华第一节第一节 基本概念和术语基本概念和术语 1.变量与观测值变量与观测值变量(变量(variable):指某种特征,它的表现):指某种特征,它的表现在不同个体间或不同组间存在变异性。在不同个体间或不同组间存在变异性。(如体高、体重、性别等)(如体高、体重、性别等)观测值观测值(observation):指对变量的表现进指对变量的表现进行观察或测量所获得的数值,这些数值有行观察或测量所获得的数值,这些数值有时也称为变数。时也称为变数。2总体和样本总体和样本总体:研究对象的全体,具有共同性质的个总体:研究对象的全体,具有共同性质的个体所组成的集团。体所组成的
2、集团。样本:直接观察测量研究的对象。样本:直接观察测量研究的对象。总体和样本的基本组成单位都是个体,由有总体和样本的基本组成单位都是个体,由有限个个体组成的总体称为有限总体,反之为限个个体组成的总体称为有限总体,反之为无限总体。组成样本的个体少的样本称为小无限总体。组成样本的个体少的样本称为小样本,反之,为大样本。样本,反之,为大样本。在实际研究中还有一类在实际研究中还有一类假想总体假想总体。例如进。例如进行几种饲料的饲养试验,实际上并不存在用这行几种饲料的饲养试验,实际上并不存在用这几种饲料进行饲养的总体,只是假设有这样的几种饲料进行饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是
3、假想总体的总体存在,把所进行的试验看成是假想总体的一个样本;一个样本;样本中所包含的个体数目叫样本中所包含的个体数目叫样本容量样本容量或或大大小小(sample size),样本容量常记为样本容量常记为n。通常把通常把n30的样本叫的样本叫小样本小样本,n 30的样本叫的样本叫大样本大样本。研究的目的是要了解总体,然而能观测到研究的目的是要了解总体,然而能观测到的却是样本,的却是样本,通过样本来推断总体是统计分析通过样本来推断总体是统计分析的基本特点的基本特点。下一张下一张 主主 页页 退退 出出 上一张上一张 3参数与统计量参数与统计量参数:总体的特征量。(总体平均数、总体参数:总体的特征量
4、。(总体平均数、总体方差等)方差等)统计量:样本的特征量。(样本平均数、样统计量:样本的特征量。(样本平均数、样本方差等)本方差等)两者的关系:通过统计量估计推算参数。两者的关系:通过统计量估计推算参数。常用希腊字母表示参数,例如用常用希腊字母表示参数,例如用表示总表示总体平均数,用体平均数,用表示总体标准差;表示总体标准差;常用拉丁字母表示统计量,例如用常用拉丁字母表示统计量,例如用 表表 示样本平均数,用示样本平均数,用S表示样本标准差。表示样本标准差。4随机抽样和随机样本随机抽样和随机样本抽样:从总体中抽取一部分直接进行研究的抽样:从总体中抽取一部分直接进行研究的过程。过程。随机:所有的
5、对象(个体)都有相等的机会随机:所有的对象(个体)都有相等的机会被抽取。被抽取。随机抽样所得的样本称随机样本。随机抽样所得的样本称随机样本。5误差和错误误差和错误误差:测量值与真值之间的差异,不可避免。误差:测量值与真值之间的差异,不可避免。误差误差=测量值测量值真值真值错误:人为的差错,可避免。错误:人为的差错,可避免。6准确性和精确性准确性和精确性准确性是指测量值接近真值的程度。准确性是指测量值接近真值的程度。精确性:变异量重现性指标。同一对象重复精确性:变异量重现性指标。同一对象重复测量,一致性高,精确度高。测量,一致性高,精确度高。精确性是准确性的必要条件。精确性是准确性的必要条件。7
6、效应和互作效应和互作效应是指因素影响的结果,也称效果。效应效应是指因素影响的结果,也称效果。效应分为有效和无效两种,有效又可分正效和负分为有效和无效两种,有效又可分正效和负效两种。效两种。互作是指因素的协同效应,总效应不等于互作是指因素的协同效应,总效应不等于分效应之和即表明具有因素互作,总效如大分效应之和即表明具有因素互作,总效如大于分效应之和为具有正互作效应,总效如小于分效应之和为具有正互作效应,总效如小于分效应之和为具有负互作效应。于分效应之和为具有负互作效应。第二节第二节 资料的分类资料的分类数据的整理:就是把大量复杂的数据进行整数据的整理:就是把大量复杂的数据进行整理归类,使其系统化
7、,便于统计分析,从而理归类,使其系统化,便于统计分析,从而得出正确的科学结论。得出正确的科学结论。一资料的概念一资料的概念定义:资料是指研究对象的信息材料。定义:资料是指研究对象的信息材料。特点:特点:数字性:应以数字形式表示数字性:应以数字形式表示大量性:对大量相象或者同类相象观察所得的数大量性:对大量相象或者同类相象观察所得的数据资料据资料具体性:已经实现的事实具体性:已经实现的事实二资料的类型二资料的类型1 数量性状资料:简称数性资料,可分两类:数量性状资料:简称数性资料,可分两类:连续性变数(连续性变数(continuous variable)或计量资)或计量资料料可以用工具直接测量的
8、量,如身高、体重等。可以用工具直接测量的量,如身高、体重等。特征:连续性变量,不间断量。特征:连续性变量,不间断量。不连续性或间断性变数(不连续性或间断性变数(discontinuous or discrete variable)或计数资料)或计数资料计数得到的数性资料,一般都是自然数,如人数,计数得到的数性资料,一般都是自然数,如人数,天数,种子数。天数,种子数。特征:以整数计量,非连续性变量,间断性量。特征:以整数计量,非连续性变量,间断性量。2 质量性状资料:简称质性资料,指不能或不质量性状资料:简称质性资料,指不能或不易直接测量能观察的性状资料,如颜色、性易直接测量能观察的性状资料,如
9、颜色、性别、状态等描述性特征。常用两种方法数量别、状态等描述性特征。常用两种方法数量化:化:等级评定:等级评定:如人的健康状况分为优,如人的健康状况分为优,良,一般,差;生存状态分为生或死等。良,一般,差;生存状态分为生或死等。统计次数法或归类计数:于一定总样统计次数法或归类计数:于一定总样或样本内,统计其具有某个性状的个体数目或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次及具有不同性状的个体数目,按类别计其次数或相对次数。如黄花数或相对次数。如黄花64朵,白花朵,白花56朵。朵。第二节第二节 数据资料的整理数据资料的整理 一、次数分布表一、次数分布表间断性变数资
10、料的整理。连续性变量资料的整理步骤:步骤:(1)数据分组数据分组:(2)计算频率分布计算频率分布3、属性变数资料的整理、属性变数资料的整理也可可用类似次数分布的方法来整理。也可可用类似次数分布的方法来整理。把资料按各种质量性状进行分类把资料按各种质量性状进行分类分类数等于组数分类数等于组数归组:按个体在质量属性上的具体表现。归组:按个体在质量属性上的具体表现。二、次数分布图(统计图)二、次数分布图(统计图)1.方柱形图(histogram)(P书39-40)适用于表示连续性变数的次数分布 2.条形图(Bar Chart)适用于间断性变数和属性变数资料3.饼图(Pie Chart)饼图适用于间断
11、性变数和属性变数资料,主要表示变数中各种属性或各种间断性数据观察值总观察个数中的百分比。4.多边形(polygon)表示连续性变数资料的一种普通方法,且在同一图上可比较两组以上的资料 5.线形图(dynamic curve graph)表示数据的动态变化趋势。三、统计表三、统计表 目前常用的是三线表四、原始数据的检查与核对四、原始数据的检查与核对数据检查与核对,应注意以下三个方面数据检查与核对,应注意以下三个方面(一)数据本身差错(一)数据本身差错1.记录不全:丢失、损坏、遗漏记录不全:丢失、损坏、遗漏2.记载错误:笔误、虚构记载错误:笔误、虚构 3.测量工具不准:测量技术不熟练等原因所造成测
12、量工具不准:测量技术不熟练等原因所造成的错误的错误所以对于特数值(如极大或极小的),应反复核所以对于特数值(如极大或极小的),应反复核实。实。(二)取样差错(二)取样差错取样不全或过少或非随即取样取样不全或过少或非随即取样(三)数据不合理的合并(三)数据不合理的合并对于不合理的合并一定要纠正对于不合理的合并一定要纠正 第三章第三章 平均数、变异数平均数、变异数 第一节第一节 集中特征量集中特征量一一 集中的含义集中的含义 一组变数的集中趋势,即变数分布的中心位一组变数的集中趋势,即变数分布的中心位置。置。类型:平均数(类型:平均数(arithmetic mean)、中位数)、中位数(media
13、n)、众数()、众数(mode)等。)等。下一张下一张 主主 页页 退退 出出 上一张上一张 二、平均数(二、平均数(average):1.定义:是数据的代表值,表示资料中观察值的中定义:是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相心位置,并且可作为资料的代表而与另一组资料相比较。平均数在统计数中主要有算术平均数、中数、比较。平均数在统计数中主要有算术平均数、中数、众数、几何平均数。简称均值。众数、几何平均数。简称均值。2.类型类型:算术平均数(算术平均数(arithmetic mean)、几何平)、几何平均数(均数(geometric mean)、调和平均
14、数)、调和平均数(harmonic mean)、加权平均数等。算术平均)、加权平均数等。算术平均数最重要,一般不指明的都是数最重要,一般不指明的都是算术平均数算术平均数。3 算术平均数算术平均数 (1)总体)总体 (2)样本样本 (3)算术平均数的性质)算术平均数的性质当然,算术平均数只是一个代表性集中量,它不能当然,算术平均数只是一个代表性集中量,它不能反应原始数据的全部特征。反应原始数据的全部特征。例如:例如:1,5,9 4,5,6 5,5,5三组样本算术平均数都是三组样本算术平均数都是5,但它们的离散程度不同。,但它们的离散程度不同。另外,算术平均数也不一定正好是中心位置的另外,算术平均
15、数也不一定正好是中心位置的一个数,在分布偏态情况下,高于平均数的有可能一个数,在分布偏态情况下,高于平均数的有可能是倒数第二名,低于平均数的有可能是正数第二名。是倒数第二名,低于平均数的有可能是正数第二名。4几何平均数几何平均数 5调和平均数 6 加权平均数 三、中位数(三、中位数(Md)(1)概念:观察值排序后,居中位置的数概念:观察值排序后,居中位置的数值。值。(2)说明:说明:a如观察数为偶数,取居中两个数如观察数为偶数,取居中两个数的算术平均数为中位数。的算术平均数为中位数。b如以百分位表示,中位数即为。如以百分位表示,中位数即为。c.数据资料呈偏态分布时,多用中位数,此数据资料呈偏态
16、分布时,多用中位数,此时,中位数对数据集中性的度量比算术平均时,中位数对数据集中性的度量比算术平均数为优。数为优。四、众数(四、众数(Mo)(1)概念:同一资料中,观察值出现概念:同一资料中,观察值出现频次最多的数值。频次最多的数值。(2)说明:众数可能不止一个,也此说明:众数可能不止一个,也此时常定义最小众数或最大众数。或者也可能时常定义最小众数或最大众数。或者也可能没有众数。没有众数。五、各个集中特征量之间的关系1.完全对称分布的情况下,算术平均数、中位数及众数相等2 调和平均数 几何平均数 算术平均数3 常用的集中特征量为算术平均数,在非参数检验中也用中位数。1.数据排序(sort):升
17、序(小 大)、降序(大 小)2.求极差(range)或全距:所有数据中的最大值和最小观察值的差数称极差。3.确定组数和组距(class interval)组距:根据极差分为若干组,每组的距离相等,称为组距。组距小则组数多组数和组距相互决定:组距大则组数小 组距=极差组距4.定组限(class limit)和组中点值(组值,class value)组值最好为整数或于观察值的位数相同,便于计算,组限要明确,最好比原始资料的数字多一位小数,这样归组时不致含糊不清。选每一组的中点值非常重要,这一点选定后,则该组组限确定,其余各组的中点和组限有可确定。每一组的中点值以接近最小观察值为好。组中值=5.归组
18、:把原始资料的各个观察值按分组数列的各组组限归组。频率=各组的次数/总次数二二 变异特征量(离散特征量)变异特征量(离散特征量)由上述例子可知,平均数相同,原始数据的离散程度可能不同,故必须引入离散特征量,或称变异特征量。常用样本的变异程度指标有:极差、方差、标准差和变异系数。1.类型 极差(全距)标准差 方差 标准误 平均差 变异系数等常用样本的变异程度指标有:极差、方差、标准差和变异系数 2 极差:又称全距(r)资料中最大观察值与最小观察值的差数。用极差来代表整个样本的变异度很明显有缺陷。3 方差:为了正确反映资料的变异度,用全部的观察值来度量资料变异数。离均差平方和:离均差平方后加起来,
19、即离均差平方和 样本SS=总体SS=均方或方差:离均差平方和除以观察值数目。样本均方是总体方差的无偏估计值,习惯上称样本为均方,总体为方差。样本方差样本方差S2=总体方差总体方差样本方差样本方差S2=总体方差总体方差自由度(DF)统计意义是指样本内独立而能自由变动的离均差个数。一般地:样本自由度等于观察值的个数(n)减去约束条件的个数,即V=n-k 4 标准差(1)涵义:衡量原始数据绝对变异程度的数学指标,表示一个样本的变异度。(2)数学描述 a公式 样本标准样本标准 差差总体标准差总体标准差样本标准差用n-1作分母是自由度的问题 例:1,5,9 =4 4,5,6 =1 5,5,5 =0 可见
20、,标准差大,变异大;标准差最小为0,表示无变异。b标准差性质 (1)描述数据绝对变异程度的量,标准差大,变异大;标准差小,变异小。(2)标准差的单位与平均数相同。(3)原始数据常数,所得的新标准差与原始标准差相等。(4)原始数据扩大或缩小不等于零的k倍,所得的新标准差是原标准差的k倍。(5)标准差是方差的算术平方根。3.5 变异系数(CV)(1)涵义:衡量原始数据相对变异程度的数学指标。(2)数学描述 公式:CV(3)性质 a受标准差、平均数两者的制约。b是一个相对比值,无单位。c可以进行不同类型、性质和大小的样本之间的比较。d变异系数最小时为0,最大可超过100%。三计算器使用三计算器使用例
21、:使用计算器计算样本4,5,7的平均数,标准差和变异系数。(1)开机:按on(注:关机 按off)(2)进入统计功能:按不同型号计算器的说明书进行,屏幕显示STAT或 SD即表示成功。(3)清除内存残数:按不同型号计算器的说明书进行,(有的较简单的没有存贮功能的计算器,如SHARP 506型不需此步骤)。如CASIO fx-82型,需依次按下:shift、AC、判断方法:观察n是否等于0,如显示n=0表示成功。(4)输入:如计算4、5、7 键入 4,M+;5,M+;7,M+(5)输出:求n=?依次按 Shift,n,显示 n3求=?依次按 Shift,显示=5.333333333求s=?依次按 Shift,显示1.527525232再手工计算变异系数CV:(一般计算器上都没有CV的直接按键)CV=5.333333333/1.527525232*100%=3.491486222%