《SPSS统计分析数据特征的描述统计分析课件.ppt》由会员分享,可在线阅读,更多相关《SPSS统计分析数据特征的描述统计分析课件.ppt(141页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章 数据特征的描述统计分析5/26/2023 1SPSS的主要分析工具Analyze菜单 报告Reports 描述性统计分析Descriptive Statistics菜单 表格Tables 均数间的比较Compare Means菜单 一般线性模型General Linear Model菜单 相关分析Correlate菜单 多元线性回归与曲线拟合 Regression菜单 对数线性模型Loglinear菜单 聚类分析与判别分析Classify菜单 因子分析与对应分析Data Reduction菜单 信度分析与多维尺度分析Scale菜单 非参数检验Nonparametric Tests菜单
2、时间序列分析Time series 5/26/2023 2 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析 Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析5/26
3、/2023 3第一节 报告分析(Report)第二节 描述性统计分析第三节 比率分析第四节 Means过程第五节 多选项分析主要内容5/26/2023 4按AnalyzeReportsOLAP Cubes顺序单击打开如下对话框:摘要变量框:进入此框变量为数值型变量分层变量框:进入此框变量为数值型或字符型变量1、OLAP(在线分析处理过程)5/26/2023 6可选择的统计量:Sum 总和Number of Cases 观测量数目Mean 均值 Standard Deviation 标准差Percent of Total Sum 占总和的百分比Percent of Total N 占观察量总数的
4、百分比Median 中位数Grouping Median 分组中位数Std.Error of Mean 均值标准误Minimum 最小值Maximum 最大值Range 范围First 首值Last 尾值Variance 方差 Skewness 偏度Std.Error of Skewness 偏度的标准误Kurtosis 峰度Std.Error of Kurtosis 峰度的标准误Harmonic Mean 调和均数Geometric Mean 几何均数5/26/2023 7标题对话框输入统计量的标题 输入注解,这些注解将显示在统计量输出栏的下面04-1 下面举例说明5/26/2023 8(1
5、)操作步骤:1)按AnalyzeReportsOLAP Cubes顺序单击打开OLAP Cubes对话框2)打开数据文件“少儿身高.sav”,将height变量选入Summary Variable框中,将sex变量作为分组变量选入Grouping Variable 框中;3)单击Statistics按钮,在 Statistics框中选择Sum、Mean、Median项作为要输出的统计量;4)单击Title按钮,在Title框中输入“少儿身高分层报告”,单击Continue返回;单击OK5/26/2023 105/26/2023 112、观测值摘要分析过程、主要功能 计算指定变量的分组统计量,分
6、组变量可能是一个,也可以有多个。如是多个,则将所有水平进行交叉分组。每个组中,变量值可以显示或不显示。、观察值摘要分析 按AnalyzeReportsCase Summaries顺序单击打开Case Summaries 对话框。5/26/2023 13输入脚注在输出结果中显示各分组统计量的标题在分析过程中剔除带有缺失值的观测量键入一个字符以便在输出结果中标记缺失值输入标题、例题分析:对表4-1资料(数据文件为“04-1少儿身高.sav”)进行观测值摘要分析。Options 对话框5/26/2023 15 1)打开数据文件“少儿身高.sav”2)打开Case Summaries对话框,将heig
7、ht选入 Variables框中,作为摘要分析的变量,将sex和grade选入Grouping Variables框中作为分组变量。3)清除Display cases复选框。4)单击Statistics按钮,在 Statistics框中选择Number of cases、Mean、Median项作为要输出的统计量;单击Continue返回。5)单击OK(1)操作步骤5/26/2023 16表4-4 观测量处理摘要 表4-4说明观测量的总个数、有效值个数和缺省值个数以及各占的百分比。(2)输出结果及分析5/26/2023 18分组统计量 表4-5分三部分,1、男生的基本统计量,2、女生的基本统计
8、量,3、男女生的基本统计量。每部分包括分年级进行的统计和总的统计,这就是交叉分组。表4-55/26/2023 19、主要功能 把观测量的统计结果用一种简单扼要的表格输出,有助于更好地把握数据特征。、行形式摘要报告按AnalyzeReportsReport Summaries in Rows顺序,打开 Summaries in Rows 对话框。3、摘要报告分析过程5/26/2023 205/26/2023 21输入变量的列标题,不输入则将输出变量的标签或名称选择列标题对齐的方式选择变量值所处的位置以缩进的形式输出,可输入缩进数值;变量值位于列中央键入列宽数值,如不设列宽,则:如输出数值标签,则
9、列宽为数值标签中的最长者;如输出变量值,则列宽为变量所定义的宽度;如设置了列标题,则列宽为标题的最长者;如未设置列标题,则列宽为输出的变量标签的最长者;选择输出的内容:将输出变量值将输出变量标签Format 对话框5/26/2023 22Report栏的Option 对话框进行缺失值和输出页码的设置:剔除带有缺失值的观测量输入一个代表系统的和用户的缺失值字符设置报告的起始页码可进行页面设置:可输入分组变量间的间距行数(不超过20)每个分组变量都在新的一页输出在新的一页输出下一个分组变量,并接着上一页的页码输出下一页的页码输入设置分组标题和报告内容之间的间距,最多可插入20行空白Break Co
10、lumn 中的Options对话框5/26/2023 24所输数值表示报告的每一页输出从第几行开始所输数值表示报告的每一页输出在第几行结束规定每一页输出的左边间距规定每一页输出的右边间距选择报告输出内容的对齐方式设置页面的标题、脚注和页面的距离:设置标题与报告的距离设置注脚与报告的距离决定分组变量显示的位置:所有的分组变量值均位于第一列,激活Indent an each break参数框在此框中设置分类变量值缩进的位置。默认为2空格设置列标题的输出格式:在标题下添加下划线设置列标题下的空白行(默认为2)选择列标题的对齐方式设置分组变量的显示位置:显示在统计量的上一行显示于统计量的同一行,并覆盖
11、统计量标题设置分组变量与统计量之间的空白行数Report栏的Layout对话框5/26/2023 25按Next进入下一行的设置,按 Previous返回上一行对齐方式选择特殊变量的值作为标题与注脚在此对话框可规定标题与注脚的输出内容和格式,最多可设置10行Report栏的Titles 对话框5/26/2023 26 Summaries in Columns对话框 将要分析的变量选入此框,每选一个变量进入框内,则需单击Format按钮,打开Format(见下图)对话框,设置该变量输入格式。5/26/2023 281、Data Columns栏 1)Summary 对话框与行形式基本同,不同是只
12、能选择一个统计量 2)Format 对话框与行形式同 3)Insert Total按钮按Summary按钮,出现Summary对话框Insert Total按钮的Summary 对话框选择要计算和的变量将其移入右边变量框,至少挑选2个变量。在Summaries in Columns 对话框中单击Insert Total按钮,新增Total变量5/26/2023 293、Preview复选框:只输出报告的第一页,便于用户预览4、Report栏 Options如下图 Layout对话框与“行形式”同 Titles对话框与“行形式”同 Options对话框在每一页的底部显示该列的总和,在Label框
13、中键入标签剔除带有缺失值的观测量输入一个代表系统和用户的缺失值的字符设置报告的起始页5/26/2023 31将表4-1资料(数据文件“04-1少儿身高.sav”)进行分析:先做行形式报告输出,再做列形式报告输出。(1)单个分组变量的行形式报告按AnalyzeReportsReport Summaries in Rows顺序,打开Summaries in Rows 对话框。挑height变量进入Data框,grade变量进入Break框。单击Break Columns栏的 Summary按钮,打开 Summary Lines for grade对话框,选中Mean of Values、Numbe
14、r of Cases复选框,再按Continue返回 Summaries in Rows对话框。选中Display cases复选框。单击Titles 按钮,打开Titles对话框,在标题栏的Center 框中输入标题“少儿身高分组统计”,再按返回。单击“OK”完成,输出结果见表46。、例题分析5/26/2023 325/26/2023 33观测量分组报告 少儿身高分组统计 年级 身高-四年级 121.40 134.10 135.80 135.50 133.40 140.30 120.90 141.40Mean 132.85N 8五年级 131.50 132.60 140.40 137.40
15、128.20 129.00 129.30 132.70 130.10 139.70 133.00 124.00 138.80 138.60MEAN 133.24N 14六年级 129.20 136.00 132.20 140.90 136.70 137.50 125.40 137.50Mean 134.42N 8列出了按年级分组后的观测量表 表4-65/26/2023 34打开Summaries in Rows 对话框,挑height变量进入Data框,sex、grade变量进入Break框。选中Break 栏中的sex变量,单击 Summary按钮,打开 Summary Lines for
16、sex 对话框,选中Mean of Values、Number of Cases、Minimum Value和 Maximum Value 复选框,再按Continue返回。选中Break 栏中的grade 变量,单击 Summary按钮,选中Mean of Values、Number of Cases复选框,再按Continue返回。单击“OK”完成,输出结果见表4-7。(2)两个分组变量的行形式报告5/26/2023 355/26/2023 36 少儿身高分组统计性别 年级 身高-男 四年级 Mean 131.70 N 4 五年级 Mean 132.63 N 7 六年级 Mean 134.
17、57 N 4Mean 132.90Minimum 121.40Maximum 140.90N 15女 四年级 Mean 134.00 N 4 五年级 Mean 133.84 N 7 六年级 Mean 134.27 N 4Mean 134.00Minimum 129.90 Maximum 141.40N 15Grand Total Std.Dev 5.70Kurtosis-.29Skewness-.63表分为3部分:1.男生统计量表:各年级的均值和个数,全体男生的均值、个数、最大值和最小值;2.女生统计量表:各年级的均值和个数,全体女生的均值、个数、最大值和最小值;3.全体的统计量:标准差、偏度
18、和峰度。两个分组变量的行形式报告 表4-75/26/2023 37(3)两个分组变量的列形式报告打开Summaries in Columns 对话框,挑height变量进入Data框;单击Report 栏中的Options对话框,选中Display grand total复选框,再按Continue返回;单击 Summary按钮,选中Mean of Values,再按Continue返回。先后挑选sex、grade变量进入Break框。单击Titles 按钮,打开Titles对话框,在标题栏的Center 框中输入标题“少儿身高分组统计”,再按Continue返回。单击“OK”完成,输出结果见
19、表48。5/26/2023 385/26/2023 39 少儿身高分组统计 身高性别 年级 Mean_ _ _男 4 133.4 5 131.3 6 134.6女 5 134.0Grand Total 133.5表分为3部分:1.男生的均值表,按各年级算出均值;2.女生的均值表,按各年级算出均值;3.全体的均值。两个分组变量的列形式报告 表4-85/26/2023 40第二节 描述性统计分析(Descriptive Statistics)1、Frequencies 频数分析表 2、Descriptive 描述性统计分析过程 3、Explore 探索分析过程 4、Crosstabs 列联表分析过
20、程5/26/2023 411、频数分析表、主要功能 可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。、频数分析 按AnalyzeDescriptive StatisticFrequencies顺序,打开Frequencies对话框。5/26/2023 42选择一个或多个变量右移入Variable(s)框。按Statistics按钮,打开Statistics对话框显示频数分布表按Chart按钮,打开Chart 对话框按Format按钮,打开Format 对话框 Frequences主对话框5/26/2023 43 输出百分位数:输出四分位数,显示25%
21、、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。输入值后:按Add:输入值后按此键,可反复操作键入多个百分位数;按Remove:删除已键入的数值 按Change:重新输入新数离散趋势栏 分布形状栏在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据集中趋势栏输出统计量对话框5/26/2023 44Chart 对话框不输出任何图形,为默认 输出条形图,各条高度代表变量各分类的频数输出圆图,圆图中各块的数值表示各分类变量的频数输出直方图,此图仅适用于区间型数值变量
22、。选择此项后,还可选择With normal curve,画出的直方图带有正态曲线只有选择了条形图和圆图项才有效,决定纵轴表示的统计量纵轴表示频数纵轴表示百分比5/26/2023 45Format 对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列5/26/2023 46表49 100名大学生血清蛋白含量(%)、例题分析04-2对某高校100名大学生血清蛋白含量(g%)做频数分析,数据如表49 5/26/2023 47(1
23、)具体步骤打开数据文件“大学生血清.sav”,按AnalyzeDescriptive StatisticFrequencies 顺序,打开Frequencies对话框。挑xdh变量进入Variable(s)框,选中Display frequency tables复选框,要求输出频数分布表。单击Statistics按钮,选择要输出的统计量。单击Chart 按钮,选择Histogram项,输出直方图,并选择With normal curve复选框,输出正态曲线。单击Format 按钮,选Ascending项。单击“OK”完成。5/26/2023 48血清蛋白含量的直方图 血清蛋白含量的统计表(2)
24、输出结果及分析5/26/2023 49血清蛋白含量的频数分布表5/26/2023 50、主要功能调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和标准误差等,并可将原始数据转换成Z分数。、描述统计量分析按Analyze/Descriptive Statistics/Descriptives顺序单击,打开 Descriptives主对话框。如图在左边框中选一个或多个变量移入如选中此框,将对Variables框中选择的变量进行标准化,产生相应的Z分数,并作为新变量保存到数据窗口,其变量名在原变量名前加z。Descriptives 对话框 2、描述性统计分析过程5/26/2023 51Op
25、tions 对话框 基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布、例题分析 04-3已知20个初生婴儿的体重数据如下表,对其进行描述统计分析。5/26/2023 522770 2915 2795 2995 2860 2970 3087 3126 3125 46542272 3503 4218 3418 3921 2669 3707 2310 2573 388120个初生婴儿的体重(g)(1)操作步骤:打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选
26、定变量t进入Variable(s)栏中。选中Save standardized values as variables 复选框,要求计算变量的z值,并保存结果到当前数据集中。单击Options 按钮,选中Mean、Std.Deviation、Minimum、Maximum、Variance 项。(2)输出结果及分析5/26/2023 53婴儿体重的描述统计量这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示:保存了z 分数的数据集5/26/2023 54、主要功能 调用此过程可检查数据是否有错误、考察样本分布特征及对样本分布规律作初步考察。剔除奇异值和错误数据。探索分析过程将
27、提供在分组和不分组的情况下常用的统计量与图形。、探索分析 按Analyze-Descriptive Statistics-Explore 顺序单击,打开 Explore 主对话框,如下图:3、探索分析过程5/26/2023 55选择一个或多个变量进入Dependent框作为因变量,单击OK可获得因变量的一系列基本统计量和图形。此作为分组变量,可以是字符变量,对因变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。可同时输出基本统计量和图形只输出基本统计量只输出图形Exp
28、lore 主对话框5/26/2023 56输出基本统计量 均值的置信区间,可键入199%的任意值,根据该值算出置信区间的上下限。给出中心趋势的最大似然比的稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。输出最大和最小的5个数,且在输出窗口中加以标明。输出5%、10%、25%、50%、75%、90%和95%的百分位数。Statistics对话框5/26/2023 57只有指定分组变量才有效,可输出分布水平图,同时输出回归直线斜率以及对方差的Levenes检验不输出分布水平图对每组数据产生一个中位数与四分位数范围的自然对数散点图,同时在满足每组数据
29、方差相等的条件下对数据进行幂变换的估计。根据在Power参数框中指定的变换对原始数据进行变换。不对数据进行转换 Explore 栏中Plots对话框在此对话框中可选择要输出的统计图形及其参数。Boxplots栏只有在主对话框中指定了一个以上变量时,才有效。在该栏选择箱线图的输出方式:每一个因变量生成一个箱线图所有因变量生成一个箱线图不显示任何箱线图生成茎叶图(默认)生成直方图输出正态概率和离散正态概率图,同时输出K-S统计量中的Lilliefors显著水平检验,如果观测数不超过20,将用W-S统计量代替K-S。5/26/2023 58确定缺失值的处置:因变量或分组变量中带有缺失值的观测量都将在
30、分析过程中被剔除。在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组,输出频数时将标出缺失组。Explore 栏中Options对话框、例:04-4下表为30名10岁少儿的身高(cm)数据,对其进行探索分析编号 身高 编号 身高 编号 身高男 女 男 女 男 女1 131.5 132.7 6 135.5 137.5 11 132.2 124.02 137.4 133.0 7 121.4 141.4 12 129.0 140.33 128.2 139.7 8 129.2 138.8 13 132.6 130.14 136.0 125.4 9 135.4
31、120.9 14 140.9 133.45 140.4 138.6 10 135.8 137.5 15 129.3 136.75/26/2023 59(1)操作步骤打开数据文件“Explore分析.sav”,打开 Explore主对话框,选变量height进入Dependent List栏中,选sex变量进入Factor List栏中;在Display栏中选择 Both项;打开Statistics对话框,选中Descriptives、M-estimation、Outliers复选项,单击Continue返回;打开Plots对话框,选择Boxplots栏中的Factor levels toget
32、her项,选择Descriptives栏内的 Stem-and-leaf复选项,选择Spread vs level with levene Test栏中的 Power estimation项,单击 Continue 返回。单击OK。(2)输出结果及分析 5/26/2023 60观测量摘要表M估计量表表4-13表4-145/26/2023 61少儿身高的分组描述统计量表4-155/26/2023 62少儿身高的极端值方差一致性检验表4-16表4-175/26/2023 63HIGHT Stem-and-Leaf Plot forSEX=1 Frequency Stem&Leaf 1.00 12.
33、1 4.00 12.8999 3.00 13.122 5.00 13.55567 2.00 14.00 Stem width:10.00 Each leaf:1 case(s)少儿身高的茎叶图 少儿身高的箱线图5/26/2023 64 结果分析表4-13摘要性地说明了数据的基本情况,包括总数、有效值数目和缺失值数。表4-14是按性别分组后的统计量表,上半部分是男生,下半部分是女生的。表4-15下面的a、b、c、d分别表示四种加权常数,此表的结果是使用四种不同的方法计算出的M估计量的结果。表4-16显示分组后少儿身高的极端值分布,最大值和最小值各取5个。表4-17是方差的一致性检验,零假设是分组
34、后的方差为相等的。表中四行是依据不同的统计量得到的检验,分别是基于均值、基于中位数、基于中位数与调整后的自由度和基于调整后的均值。由于其P值均大于0.05,不能否定零假设,即可以认为男生和女生的身高的方差是无差异的。5/26/2023 65茎叶图从左到右分为三部分:频数、茎和叶、茎是整数部分,叶是小数部分,Stem width表示茎宽。每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值,实际数据中与该近似值靠近的值的个数即为频数表示的个数。箱线图各部分的含义:方箱是箱线图的主体,上下边为四分位数,中间粗线为中位数,变量的50%的观测值落在这一区域中。方箱上下两条纵向直线是触须线,触须线外
35、的两端线为本体的最大值和最小值。本体指除奇异值外的变量值。奇异值用“o”表出,本例中无奇异值。5/26/2023 66 4、列联表分析过程、主要功能 调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test),且有单双侧(One-Tail、Two-Tail)、对数似然比检验(Likelihood Ratio)以及
36、线性关系的Mantel-Haenszel 2检验。5/26/2023 674、列联表分析过程、列联表分析程序 按Analyze-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。如图5/26/2023 68该框中的变量作为分布表中的行(列)变量,必须是数值型或字符型分类变量。该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量,如要增加新的控制变量,按Next 键,要修改以前的变量按Previous 键显示每一组中各变量的分类条形图。只输出统计量,不输出多维列联表。Crosstabs 对话框5/26/2023 69行和列变量相
37、互独立的假设检验,有多种检验法。进行相关系数的检验,有两项结果显示:Pearson相关系数和 Spearman相关系数适用于定类变量的统计量:基于卡方检验基础上对相关性的检验用来描述相关性当用自变量预测因变量时,此系数反映这种预测降低错误的比率。显示不确定系数,表示用一个变量来预测其他变量时降低错误的比率适用于定序变量:Gamma系数反映两个有序变量间的对称相关性。是Gamma检验的非对称推广。对有序变量和秩变量相关性的非参数检验。与Kendalls tau-c相似适用于定序变量:用于检验相关性用于检验两个评估人对同一对象的评估是否具有一致系。检验某事件发生和某因子之间的关系进行两个相关的二值
38、变量的非参数检验进行一个二值因素变量和一个二值响应变量的独立性检验。Crosstabs的Statistics 对话框5/26/2023 70Crosstabs的Cell Display 对话框选择在列联表中输出的统计量,包括观测量数、百分比、残差输出观测量的实际数量如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比计算非标准化残差计算标准化残差计算调整后残差5/26/2023 71Table Format 对话框
39、决定各行的排列顺序:各行的排列按升序各行的排列按降序、例题 04-5为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:吸烟和慢性支气管炎调查表患慢性支气管炎 未患慢性支气管炎吸烟43 162不吸烟13 1215/26/2023 72输入数据:变量n为采得的数据;变量x为是否吸烟:1为吸烟,2为不吸烟;变量h为是否患病:1为患病,2为不患病。数据文件名为“Crosstab.sav”。在Data菜单中选Weight Cases项,打开Weight Cases对话框。Weight Cases by,再将变量n选入Frequence Variable 框,单击OK完成加权。按Analyze
40、-Descriptive Statistics-Crosstabs 顺序打开 Crosstabs 主对话框。将x 变量选入Row框作为行变量,将h变量选入Column 框作为列变量。打开Statistics对话框,选中 Chi-square Contingency coefficient和Phi and CramersV复选框,单击Continue返回。单击Cell按钮,打开Cell display对话框,选中observed和Expected 复选框,单击Continue返回;单击OK。(1)操作步骤5/26/2023 73统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。从列联表中可
41、看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。(2)输出结果及分析 输出结果如表:吸烟与患病统计摘要表5/26/2023 74吸烟与患病列联表卡方检验5/26/2023 75卡方检验表,从表中可看出,Chi-Square值为7.469,P值为0.0060.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验,其双侧检验P值为0.007。对称性检验表,通过度量对称性来得到有效的观测个数,本例为339。对称性检验表5/26/2023 76第三节 比率分析1
42、.比率分析的目的和主要指标 比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。例如根据04-6各地区保险业务保费收入的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。5/26/2023 77 通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:5/26/2023 78(1)加权比率均值(Weight
43、ed mean):两变量均值的比,属集中趋势描述指标。(2)AAD(Average Absolute Deviation)平均绝对离差:是对比率变量离散程度的描述,计算公式为:其中,是比率数,M是比率变量的中位数,N为样本数5/26/2023 79(3)COD(Coefficient of Dispersion)离散系数:也是对比率变量离散程度的描述,计算公式为:(4)PRD(Price-related Differential)相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。5/26/2023 80(5)COV变异系数:用于对比率变量离散程度的描述,分为基于均值的变异
44、系数(Mean centered COV)和中位数的变异系数(Median centered COV)。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:5/26/2023 812.比率分析的基本步骤(1)选择菜单AnalyzeDescriptive StatisticsRadio,出现窗口5/26/2023 82(2)将比率变量的分子选择到Numerator框中,将比率变量的分母选到Denominator框中。(3)如果做不同组间的比率比较,则将分组变量选择到Group Variable框中。(4)单击Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:至此,SP
45、SS将自动计算比率变量,并将相关指标输出到输出窗口中。5/26/2023 83第四节 Means过程一、Means过程 该过程实际上更倾向于对样本进行描述,可以对需要比较的各组数据计算描述指标,包括均值、标准差、总和、观测量数、方差等一系列单变量统计量。二、完全窗口分析 按AnalyzeCompare MeansMeans顺序,打开Means主对话框(如图4-1)。5/26/2023 84图41 Means主对话框该框的变量为因变量,即用于分析的变量。该框的变量为自变量,必须至少有一个变量单击此按钮,进入下一层,返回则按Previous按钮。见图425/26/2023 85Statistics
46、框:供选择的统计量Statistics for First Layer复选框:Anova table and eta:进行分组变量的单因素方差分析并计算eta 统计量。Test for linearity:产生因变量与第一层自变量的R和R2。图42 Options 对话框Cell Statistics框:选入的描述统计量,默认为均值、样本数、标准差。5/26/2023 86三、04-7例题分析 某医生测得如下血红蛋白值(g%),用Means过程对其做基本的描述性统计分析。表5-1血红蛋白值(g%)编号性别年龄血红蛋白值hb编号性别年龄血红蛋白值hb编号性别年龄血红蛋白值hb1 1 18 13.
47、66 15 1 16 10.88 29 1 16 7.882 1 18 10.57 16 1 18 9.65 30 1 18 12.353 1 16 12.56 17 2 16 8.36 31 1 16 13.654 2 17 9.87 18 1 18 11.66 32 2 16 9.875 2 17 8.99 19 2 18 8.54 33 2 18 10.096 2 17 11.35 20 2 17 7.78 34 2 18 12.557 1 17 14.56 21 2 16 11.36 35 1 18 16.048 1 16 12.40 22 1 16 12.78 36 1 18 13.
48、789 2 16 8.05 23 1 18 15.09 37 1 17 11.6710 1 18 14.03 24 2 18 8.67 38 1 17 10.9811 2 18 12.83 25 2 17 8.56 39 2 16 8.7812 1 16 15.50 26 2 18 12.56 40 1 16 11.3513 2 18 12.25 27 2 17 11.5614 2 17 10.06 28 1 16 14.67 5/26/2023 871、操作步骤 1)打开数据文件“血红蛋白.sav”。2)按顺序Analyze Compare Means Means打开主对话框(设置见图4-3
49、)。3)单击Option,打开Options对话框,选择统计量(设置见图4-5)。4)单击OK完成。5/26/2023 88选hb选sex按Next,进入layer 2of 2,选age图43 在主对话框选送变量图44 第二层变量框5/26/2023 89选择统计项目按此按钮复选此2项,对第一层次分组数据进行方差分析和线性检验图45 Options对话框5/26/2023 90表418 观测量摘要表 表418 是观测量摘要表,观测量总个数为40,其中有效值为40个、无效值0。2.结果及分析5/26/2023 91表419 分组描述统计量 表419 分三部分:第一、二部分先按性别分组,再按年龄分
50、组计算观测值合计、均数、标准差、方差和个数;第三部分只按年龄分组,最后一行为合计。5/26/2023 92表421 按年龄分组的描述统计量表420 按性别分组的描述性统计量 血红蛋白*性别 血红蛋白*年龄 表420、21是将sex和age一起放在layer 1of 1中,分别计算男、女(不作年龄分组)。年龄分三组(不作性别分组)的观测值合计、均数、标准差、方差和个数。5/26/2023 93表422 方差分析表 表422是方差分析表,共6列:第一列方差来源:组间的、组内的、总的方差;第二列为平方和;第三列为自由度;第四列为均方;第五列为F值;第六列为 F 统计量的P值,P值小于0.05,所以性