《统计分析与Spss应用第五章(描述性统计分析).ppt》由会员分享,可在线阅读,更多相关《统计分析与Spss应用第五章(描述性统计分析).ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 描述性统计分析描述性统计只对统计数据的结构和总体情况进行描述,并不能深入了解统计数据的内部规律。Spss的许多模块都可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在descriptive statistics菜单中,他们就是计算各种统计量或绘制统计图来实现描述功能。descriptive statistics菜单主要内容(1)频数分布表分析(Frequencies):其特色就是产生频数表,对分类数据和定量资料都适用。(2)统计描述分析(Descriptive)进行一般性描述,适用于服从正态分布的定量资料。(3)Explore 过程:用于对数据分布状况不清楚时的探索性分析,它
2、会杂七杂八给出一大堆可能用到的统计指标和统计图,让研究者参考。(4)Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X2 检验也在其中完成(5)Ratio过程;用于对两个连续性变量计算相对比指标,它可以计算出一系列非常专业的相对比描述指标。常用的描述统计量集中趋势指标(central tendency):均数(means)众数(mode),中位数(median),总和 (sum),离散趋势指标:标准差(standard deviation),方差等,最大值、最小值等。其中标准差方差只适用正态分布。百分位数指标(percentile):包括四分位数,各个百分位
3、数等,适用于任何分布类型资料。分布指标(distribution):偏度系数(Skewness)和峰度系数(Kurtosis),反映了数据偏离正态分布的程度其它:M统计量(M-estimators)、极端值(outlier)等,主要用于对存在异常值的数据进行描述;标准误(S.E.mean),标准误则反映了样本均数的波动程度。描述集中趋势的统计量(1)均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。适用于定距数据。特点:利用了全部数据,易受极端值的影响。(2)众数(mode)(在frequency菜单中计算)一组数据中出现频数最多的变量值。(例:服装尺码)适用于各类数据,主要用
4、于定类数据。特点:众数可能不唯一,不受极端值的影响。计算描述统计量描述离散程度的统计量(1)标准差(standard deviation-Std Dev)(2)方差(variance)(3)极差(range):最大值(minimum)-最小值(minimum)极差很小表明所有数据几乎集中在一起应用于相同样本容量的两组数据离散程度比较计算描述统计量描述对称程度的统计量偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量.偏度为0表示对称;大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;小于0表示负偏差大(左偏)。=niiSDxx133/)(1-n1Ske
5、wness计算描述统计量 描述陡峭程度的统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与正态分布峭度相同。大于0表示比正态分布陡,尖峰。小于0表示比正态分布缓;平峰。其他:标准误差(S.E.mean)5.1 frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies 过程就是专门为产生频数表而设计的,它不仅可以产生单变量详细的频数表,显示文件中指定变量特定值发生的频数,还可以获得某些描述统计量或按要求给出某百分位点的数值以及常用的条图、圆图等统计图。5.1.1对话框界面及对话框界面及各部分选项说明各部分选项说明【Dis
6、play frequency tables复选框复选框】确定是确定是否在结果中输出频数否在结果中输出频数表。表。【Statistics钮钮】单击单击后弹出后弹出Statistics对话对话框,用于定义需要计框,用于定义需要计算的其他描述统计量。算的其他描述统计量。分布指标百分位数指标集中趋势指标离散趋势指标计算百分数时选此项图形参数选择对话框图形参数选择对话框 返回【Charts钮】弹出Charts对话框,用于设定所做的统计图。Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是
7、否加上正态曲线(With normal curve)。Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。5.1.2 分析实例一分析实例一例6.1 某地101例健康男子血清总胆固醇值测定结果存在文件danguchun.sav中,请绘制频数表、直方图,计算均数、标准差、中位数M、p2.5和p97.5。操作过程如下:1.Analyze=Descriptive Statistics=Frequencies 2.Variables框:选入X 3.单击Statistics钮:4.
8、选中Mean、Std.deviation、Median复选框 5.单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:6.单击Continue钮 7.单击Charts钮:8.选中Bar charts 9.单击Continue钮 10.单击OK结果解释最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准STD=0.8616,P2.5=3.04,P97.5=6.45。系统对变量x作频数分布表(此处只列出了开头部分)Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例
9、数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。5.2 Descriptives5.2 Descriptives过程过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。确定是否将原始数据的标准正态变换结果存为新变量。选入需要描述的变量,可选入多个变量列表顺序字母顺序均数升序 均数降序。一个典型的Desc
10、riptives 过程结果统计表最上方为表格名称,左下方为分析变量名,可见样本量N为101例;均数:Mean=4.6995,最大值:Maximum=7.22,标准差:STD=0.8616,最小值:Minimum=2.70。5.3 Explore5.3 Explore过程过程主要用于对资料数据的性质、分布状况等完全不清楚时的进行分析,故称探索性分析。在常用的描述性统计指标的基础上,它又增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱式图等,显得更加详细全面。还可以为以方差齐性为目的的变量变换提供线索,有助于用户制定继续分析的方案。选入需要分析的变量 选入分组变量 选择一个变量,他的取值将
11、作为每条记录的标签 选择所需要的描述统计量 选择所需要的统计图 选缺失值的处理方式 Statistics对话框 Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然确定,该统计量是用哪个迭代法计算出来的,输出四个(Huber,Andrew,Hampel,Tukey)不同权重的最大似然确定数。其中huber法适用于数据接近正态分布的情况,另三种适合数据中有许多异常值时。Outliers复选框:
12、输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。血清总胆固醇 Stem-and-Leaf Plot Frequency Stem&Leaf 1.00 2.7 8.00 3.00123334 9.00 3.556689999 24.00 4.000001111222333333344444 25.00 4.5555556666677777777788899 17.00 5.01111111222333334 9.00 5.556778889 6.00 6.112333 1.00 6.5 1.00 Extremes (=7.
13、2)Stem width:1.00 Each leaf:1 case(s)茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态 5.4 交叉表分析过程crosstabs 返回 交叉表分析主对话框交叉表分析主对话框 返回选择统计量对话框选择统计量对话框 返回精确检验对话框精确检验对话框 返回显示单元格值对话框显示单元格值对话框 返回格式对话框格式对话框 返回卡方检验卡方检验 返回观测量统计处理摘要观测量统计处理摘要 返回交叉表交叉表 及卡方检验结果卡方检验结果 返回分析实例1、分析不同性别的受访者的工资水平与订阅报纸的比例之间是否存在差异。使用的数据文件为data05-05
14、,“inccat”变量为工资分类情况、“News”变量为报纸订阅情况,“gender”变量为性别。返回操作步骤操作步骤(1)读取数据文件data05-08,按AnalyzeDescriptive StatisticsCrosstabs的顺序打开Crosstabs主对话框。(2)将变量“inccat”选入Row(s)框中,将变量“news”选入Column(s)框中,设置行列变量。将变量“gender”选入Layer of框中,作为控制变量。(3)单击Statistics按钮,展开Statistics对话框,选中Chi-square复选项。(4)单击Cells按钮,展开Cell Display对
15、话框,在Counts栏中选中Observed复选项。(5)在主对话框中,单击OK按钮,提交系统执行。返回结果结果此表说明合法观测量此表说明合法观测量6400个,没有缺失值个,没有缺失值 返回结果分析结果分析1.男女订阅报纸的比例分别为43.8、42.7。2.被调查的男、女性工资水平高的,订阅报纸的比率也高。被调查者工资水平与订阅报纸的比率是否真有关系,见检验的结果。返回结果分析结果分析 卡方检验表(其零假设为行列变量相互独立),由于男女各项卡方检验表(其零假设为行列变量相互独立),由于男女各项测试指标的显著水平值均小于测试指标的显著水平值均小于0.01,由此可以判明,工资水平与订,由此可以判明,工资水平与订阅报纸的比例有着明显的联系。阅报纸的比例有着明显的联系。返回