《4第五章 描述性统计分析.ppt》由会员分享,可在线阅读,更多相关《4第五章 描述性统计分析.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章第五章 描述性统计分析描述性统计分析5.1 统计常用的名词术语统计常用的名词术语5.2 描述性统计分析描述性统计分析练习练习5.1常用的名词术语常用的名词术语总体:总体:根据研究目的而确定的、符合指定条件的全体观根据研究目的而确定的、符合指定条件的全体观察对象所构成的集合称为总体。察对象所构成的集合称为总体。1.总体与样本总体与样本样样本:本:在抽在抽样调查样调查中中观观察的所有个体的集合称察的所有个体的集合称为样为样本。本。样样本容量本容量:样样本中的个体数称本中的个体数称为样为样本容量,本容量,记为记为n。连续型随机变量连续型随机变量在定义域范围内可以取任意实数在定义域范围内可以取任
2、意实数值的变量是连续型随机变量值的变量是连续型随机变量 离散型随机变量离散型随机变量在定义域范围内只可以取一些不连在定义域范围内只可以取一些不连续实数值的变量是离散型随机变量。续实数值的变量是离散型随机变量。2.变量变量反映总体某一性状的数量标法叫变量。反映总体某一性状的数量标法叫变量。其测定数值叫观察值。其测定数值叫观察值。变量分两类型:变量分两类型:数值型数值型变量:用数值进行记录变量:用数值进行记录字符型字符型变量变量:用字符进行记录用字符进行记录数值型变量又分:数值型变量又分:3.3.参数与统计量参数与统计量参数:指由总体的全部观察值而算得的总体特征数。参数:指由总体的全部观察值而算得
3、的总体特征数。统计量:指由样本的全部观察值而算得的样本特征数。统计量:指由样本的全部观察值而算得的样本特征数。统计统计分析的核心分析的核心在于由在于由样样本的情况推断集本的情况推断集团团的信息,的信息,保保证证一定精确度、可靠度。一定精确度、可靠度。计算统计量描 述抽样推断总 体样 本统计量 4.常用的统计量常用的统计量(1).(1).表表现现数据的集中数据的集中趋势趋势-平均数平均数(2).(2).反映反映资资料料变变异度(离散特性)的异度(离散特性)的统计统计量量 -极差、方差、极差、方差、标标准差、准差、变变异系数等异系数等(3).(3).描述分布形状的量描述分布形状的量-峰度系数和偏度
4、系数峰度系数和偏度系数几何平均数(几何平均数(G):是个数值乘积的次方根。):是个数值乘积的次方根。对计算平均增长率具有独特的应用价值。对计算平均增长率具有独特的应用价值。中位数(中位数(Md):如果一组数据按大小顺序排列,):如果一组数据按大小顺序排列,中间位置的数值即为中位数。中间位置的数值即为中位数。众数(众数(Mo):是样本里具有次数最多的那个数值。):是样本里具有次数最多的那个数值。算算术术平均数平均数:(1).(1).表现数据的集中趋势表现数据的集中趋势的量的量-平均数平均数应应用最普遍的是算用最普遍的是算术术平均数。平均数。(复习)复习)(2 2)反映资料变异度(离散特性)的统计
5、量反映资料变异度(离散特性)的统计量 -极差、方差、极差、方差、标标准差、准差、变变异系数异系数复习:复习:1.1.标标准差准差:S:刻画平均到每一独立数据的变异度,估计试验误差。:刻画平均到每一独立数据的变异度,估计试验误差。CV:CV:比比较较两个两个样样本的本的变变异度(由于异度(由于单单位不同或均数不同)位不同或均数不同)2.2.变变异系数异系数:3.标准误标准误:反映同一个集反映同一个集团团内抽内抽样样所得的所得的样样本平均数本平均数间间的差异。的差异。实例实例(3 3)描述分布形状的量描述分布形状的量2.2.峰度系数(峰度系数(KurtosisKurtosis)分布在均分布在均值值
6、两两侧侧极端数据有多少的度量。极端数据有多少的度量。峰度峰度0 0 两侧极端数据较多,两侧极端数据较多,呈偏平式分布呈偏平式分布.峰度峰度0 分布分布对对称称右偏分布的偏度为正数;左偏分布的偏度为负数。右偏分布的偏度为正数;左偏分布的偏度为负数。(复习)复习)1.1.偏度系数(偏度系数(SkewnessSkewness)是以正态分布为标准来描述样本数据对称性的统计量。是以正态分布为标准来描述样本数据对称性的统计量。一、常用一、常用SAS过程过程1 1、MEANS MEANS 过过程程 格式:格式:proc means proc means 选项选项;varvar 分析分析变变量表;量表;by
7、by 分分组变组变量;量;class class 分分类变类变量表;量表;freq freq 频频数数变变量;量;output out=output out=数据集数据集 ;例例:proc means mean std maxdec=2;var x1;2 2、UNIVARIATEUNIVARIATE过过程程 格式:格式:proc proc univariateunivariate 选项选项;varvar 分析分析变变量表;量表;3、两过程比较:、两过程比较:UNIVARIATE过程除可计算基本统计量外,重点过程除可计算基本统计量外,重点在于在于描述变量的分布描述变量的分布。其中选项:其中选项:
8、freq产生频数和累积频数分布表。产生频数和累积频数分布表。normal 进行正态性检验进行正态性检验 plot 生成统计图生成统计图4 4、MEANS过程所计算的统计量(关键词)及其含义:过程所计算的统计量(关键词)及其含义:关关键词键词统计统计量量关关键词键词统计统计量量MinMinMaxMaxRangeRangeSum Sum MeanMeanVarVarStdStdStderrStderrCssCssussuss最小最小值值最大最大值值极差极差和和均均值值方差方差标标准差准差标标准准误误平方和平方和平方总和平方总和N NNmissNmissCVCVKurtosisKurtosisske
9、wnessskewnesst tPrtPrtClmClmUclmUclmLclmLclm样样本容量本容量缺缺值值个数个数变变异系数异系数峰度系数峰度系数偏度系数偏度系数在在H0:=0H0:=0时时的的t t 值值t t值值概率概率的的95%置信区间置信区间单侧单侧可信区可信区间间上限上限 单侧单侧可信区可信区间间下限下限1、DATA(SAS 数据集):指出数据集):指出SAS 数据集的名称,数据集的名称,若省略,则使用最近产生的数据集。若省略,则使用最近产生的数据集。2、MAXDEC(数字):指出所输出的结果中,小数(数字):指出所输出的结果中,小数部分的最大位数(部分的最大位数(08),缺省
10、时为),缺省时为8 位。位。3、FW(域宽):指出打印的结果中每个统计量的域(域宽):指出打印的结果中每个统计量的域宽,缺省时为宽,缺省时为12。在在PROC MEANS语句中几个主要选项如下:语句中几个主要选项如下:二、应用举例二、应用举例例例5.3:某单位对:某单位对100名健康的女大学生测定了血清总名健康的女大学生测定了血清总蛋白含量(蛋白含量(g/L),试做单变量描述性统计分析。试做单变量描述性统计分析。p52data aa;input x;cards;74.3 78.8 70.4;proc means;proc means n min max mean std stderr cv m
11、axdec=2;proc univariate freq normal;proc chart;/*制作次数分布表、图制作次数分布表、图*/hbar x;run;SAS程序程序例例5.3MEANS 过程过程分析变量:分析变量:x N均值均值标准偏差标准偏差最小值最小值最大值最大值10073.66000003.940081564.300000084.3000000proc means;默认的默认的5个统计量个统计量其其SAS输出结果与说明输出结果与说明proc means n min max mean std stderr cv maxdec=2;输出结果:输出结果:MEANS 过程分析变量:分析
12、变量:x N最小值最小值 最大值最大值均值均值标准偏差标准偏差 标准误差标准误差 偏差系数偏差系数10064.3084.3073.663.940.395.35过程过程3输出输出:UNIVARIATE 过程变量:x矩矩N100 权权重重总总和和100均均值值73.66 观测总观测总和和7366标标准偏差准偏差3.94008153 方差方差15.5242424偏度偏度0.06007521 峰度峰度0.03386864未校平方和未校平方和544116.46 校正平方和校正平方和1536.9变变异系数异系数5.34901103 标标准准误误差均差均值值0.39400815基本基本统计测统计测度度位置位
13、置变变异性异性均均值值73.66000标标准准偏偏差差3.94008中中位位数数73.50000方差方差15.52424众众数数73.50000极差极差20.00000四分四分位位极极差差4.60000位置位置检验检验:Mu0=0检检验验-统统计计量量-P值值-学学生生tt 186.9504Pr|t|=|M|=|S|.0001正正态态性性检验检验检验检验-统计统计量量-P值值-Shapiro-WilkW0.990367 PrD0.1500Cramer-vonMisesW-Sq0.061361 PrW-Sq0.2500Anderson-DarlingA-Sq0.362469 PrA-Sq0.25
14、00W=0.990367,P=Pr(0.05,接受,接受H0,说说明该资料服从正态分布。明该资料服从正态分布。分位数(定义分位数(定义5)分位数分位数估计估计值值100%最最大值大值84.3099%82.9595%80.5090%79.1575%Q375.8050%中位中位数数73.5025%Q171.2010%68.405%67.301%64.650%最小最小值值64.30频数统计频数统计值值计数计数百分比百分比单元格单元格累积累积64.311.01.065.022.03.067.211.04.067.344.08.068.022.010.068.833.013.069.733.016.08
15、4.311.0100.0例例 测得某地测得某地3岁儿童岁儿童10人的体重与体表面积的数据如下表人的体重与体表面积的数据如下表 将数据资料建成一个将数据资料建成一个Excel电子表格文件,然后导入成电子表格文件,然后导入成SAS数据文件。数据文件。体重体重(x)11.011.812.012.313.1体表面积体表面积(y)5.283 5.2995.358 5.2925.602体重体重(x)13.714.414.915.216.0体表面积体表面积(y)6.014 5.8306.102 6.0756.411导入导入 外部数据(略,自学)外部数据(略,自学)实例理解反映资料变异度的统计量实例理解反映资
16、料变异度的统计量组别组别年龄年龄平均平均甲组甲组24252625乙组乙组1492525单位:岁单位:岁标准差标准差124葡萄品种果穗上有许多性状,其平均数、标准差及葡萄品种果穗上有许多性状,其平均数、标准差及单位各不相同,单位各不相同,判断以下性状变异大小判断以下性状变异大小。性状性状平均数平均数标标准差准差一穗上小穗数一穗上小穗数一穗上果粒数一穗上果粒数一穗果粒重一穗果粒重1818小穗小穗4242粒粒6.8g6.8g2 2穗穗8 8粒粒2.0g2.0g变异系数变异系数11.119.029.4分析结果:分析结果:以全穗重的变异最大,其次是果粒重,再则为果粒数。以全穗重的变异最大,其次是果粒重,再则为果粒数。