属性分类数据分析.ppt

上传人:wuy****n92 文档编号:88543372 上传时间:2023-04-27 格式:PPT 页数:46 大小:350.50KB
返回 下载 相关 举报
属性分类数据分析.ppt_第1页
第1页 / 共46页
属性分类数据分析.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《属性分类数据分析.ppt》由会员分享,可在线阅读,更多相关《属性分类数据分析.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第九章 属性(分类)数据分析n9.1 属性数据及其分析属性数据及其分析n9.2 SAS中的属性数据分析中的属性数据分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n9.1 9.1 属性数据及其分析属性数据及其分析n9.1.1 属性数据分析与列联表属性数据分析与列联表n9.1.2 属性变量关联性分析属性变量关联性分析n9.1.3 属性变量关联度计算属性变量关联度计算n9.1.4 有序变量关联性分析有序变量关联性分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与

2、统计应用教程9.1.1 属性数据分析与列联表属性数据分析与列联表1.1.属性变量与属性数据分析属性变量与属性数据分析 从从变变量量的的测测量量水水平平来来看看分分为为两两类类:连连续续变变量量和和属属性性(Categorical)变变 量量,属属 性性 变变 量量 又又 可可 分分 为为 有有 序序 的的(Ordinal)和无序的变量。和无序的变量。对属性数据进行分析,将达到以下几方面的目的:对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据产生汇总分类数据列联表;列联表;2)检验属性变量间的独立性检验属性变量间的独立性(无关联性无关联性);3)计算属性变量间的关联性统计量;计算

3、属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。对高维数据进行分层分析和建模。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.列联表列联表 列列联联表表(contingency table)是是由由两两个个以以上上的的属属性性变变量量进进行行交交叉叉分分类类的的频频数数分分布布表表。例例如如一一个个集集团团公公司司在在四四个个不不同同的的区区域域设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方法法,从从四四个个分分公公司司

4、共共抽抽取取420个个样样本本单单位位,了了解解职职工对此项改革的看法,调查结果如表工对此项改革的看法,调查结果如表9-1所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表9-1 关于改革方案的调查结果(单位:人)表表中中的的行行(row)是是态态度度变变量量,这这里里划划分分为为两两类类:赞赞成成改改革革方方案案或或反反对对改改革革方方案案;表表中中的的列列(column)是是单单位位变变量量,这这里里划划分分为为四四类类,即即四四个个分分公公司司。表表9-1所所示示的的列列联联表表称为称为2 4表。表。一分公司二分公司三分公司四分公司合计赞成该方

5、案68755779279反对该方案32453331141合计10012090110420STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 交叉表的基本形式如图交叉表的基本形式如图9-1所示。所示。这这是是一一张张具具有有r行行和和c列列的的一一般般列列联联表表,称称它它为为r c表表。其其中中,第第i行行第第j列列的的单单元元表表示示为为单单元元ij。交交叉叉表表常常给给出出在在所所有有行行变变量量和和列列变变量量的的组组合合中中的的观观测测个个数数。表表中中的的总总观观测测个个数数用用n表表示示,在在单单元元ij中中的的观观测测个个数数表表示示为为nij,称称

6、为为单元频数。单元频数。列行第1列第2列第c列行边缘频数第1行n11n12n1c第2行n21n22n2c第r行nr1nr2nrc列边缘频数STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.1.2 属性变量关联性分析属性变量关联性分析 对对于于不不同同的的属属性性变变量量,从从列列联联表表中中可可以以得得到到它它们们联联合合分分布布的的信信息息。但但有有时时还还想想知知道道形形成成列列联联表表的的行行和和列列变变量量间间是是否否有有某某种种关关联联性性,即即一一个个变变量量取取不不同同数数值值时时,另另一一个个变变量量的的分分布布是是否否有有显显著著的的不不同同

7、,这这就就是是属属性性变变量量关关联联性分析的内容。性分析的内容。属性变量关联性检验的假设为属性变量关联性检验的假设为H0:变量之间无关联性;:变量之间无关联性;H1:变量之间有关联性:变量之间有关联性 由由于于变变量量之之间间无无关关联联性性说说明明变变量量互互相相独独立立,所所以以原原假假设和备择假设可以写为:设和备择假设可以写为:H0:变量之间独立;:变量之间独立;H1:变量之间不独立:变量之间不独立STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.2 2检验检验 在在双双向向表表的的情情形形下下,如如果果行行变变量量与与列列变变量量无无关关联联性性

8、的的原原假假设设H0成成立立,则则列列联联表表中中各各行行的的相相对对分分布布应应近近似似相相等,即等,即 (j=1,2,c)或或 (j=1,2,c)其其中中mij称称为为列列联联表表中中单单元元ij在在无无关关联联性性假假设设下下的的期期望望频频数,而数,而nij是单元是单元ij的观测频数。的观测频数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程为为了了检检验验无无关关联联性性,将将观观测测的的单单元元频频数数与与无无关关联联的的原原假假设设为为真真时时单单元元的的期期望望频频数数进进行行比比较较。一一个个通通常常使使用用的的检检验是验是 2检验。检验。2

9、统计量为:统计量为:在在H0成成立立的的条条件件下下,当当观观测测数数据据较较大大时时,2统统计计量量的的分布近似服从自由度为分布近似服从自由度为(r-1)(c 1)的的 2分布。分布。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程由由于于 2分分布布是是一一种种连连续续性性分分布布,而而属属性性数数据据是是不不连连续续的的,故故上上式式只只是是一一个个近近似似计计算算公公式式。计计算算出出来来的的 2值值往往往往偏偏大大,相相应应的的p值值偏偏小小,从从而而人人为为地地增增加加了了犯犯第第一一类类错错误误的机会。为纠正这种偏性,可采用校正的机会。为纠正这种偏

10、性,可采用校正 2,用,用 C2表示。表示。注注:通通常常要要求求 2检检验验应应满满足足的的条条件件是是:n40且且所所有有单单元的期望频数均不小于元的期望频数均不小于5。2校正的条件:校正的条件:n40但有单元的期望频数小于但有单元的期望频数小于5。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.Fisher2.Fisher精确检验精确检验 Fisher精精确确检检验验建建立立在在概概率率论论中中超超几几何何分分布布的的基基础础上上,对于单元频数小的列联表来说,它是特别合适的。对于单元频数小的列联表来说,它是特别合适的。Fisher精精确确检检验验计计算

11、算在在H0成成立立的的条条件件下下,当当总总频频数数和和边缘频数固定时,各种可能的表的超几何概率边缘频数固定时,各种可能的表的超几何概率p之和之和 对对于于双双边边检检验验,A是是具具有有概概率率p小小于于或或等等于于观观测测表表概概率率的的表表的的集集合合;对对于于左左(右右)边边检检验验,A是是这这样样一一些些表表的的集集合合,其其中中每每个个表表的的单单元元ij中中频频数数小小于于(大大于于)或或等等于观测表中相应的频数。于观测表中相应的频数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.1.3 属性变量关联度计算属性变量关联度计算1.1.系数系数

12、系系数数是是描描述述2 2表表数数据据关关联联程程度度最最常常用用的的一一种种相相关关系数。其计算公式为:系数。其计算公式为:其中,其中,2即即 2统计量。统计量。|的的取取值值范范围围是是在在0 1之之间间,的的绝绝对对值值越越大大,说说明明行行变变量量与与列列变变量量的的关关联联程程度度越越高高。=0,表表示示变变量量之之间间相相互互独独立立;|=1,表表示示变变量量之之间间完完全全相相关关,此此时时列列联表某个方向对角线上的值全为联表某个方向对角线上的值全为0。当当列列联联表表r c中中的的行行数数r或或列列数数c大大于于2时时,系系数数将将随随着着r或或c变大而变大,且变大而变大,且无

13、上界。此时可用列联系数。无上界。此时可用列联系数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.列联系数列联系数 列列联联系系数数(Contingency coefficient)简简称称为为c系系数数,主要用于大于主要用于大于2 2表的情况。表的情况。c系数的计算公式为:系数的计算公式为:c系系数数的的取取值值范范围围:1 c A2且且B1B2,或或A1A2且且B1A2且且B1B2,或,或A1B2则称该对观测是不一致的。则称该对观测是不一致的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 用用P表表示示所所有有观观

14、测测对对中中一一致致对对的的个个数数,Q表表示示所所有有观观测对中不一致对的个数。测对中不一致对的个数。统计量统计量(Gamma)的定义为:的定义为:b统计量统计量(Kendal Tau-b)的定义为:的定义为:c统计量统计量(Kendal Tau-c)的定义为:的定义为:其中其中m=min(r,c)。这这三三个个统统计计量量的的取取值值均均在在-1.0到到1.0之之间间,值值接接近近于于1.0表表示示正正关关联联,接接近近于于-1.0表表示示负负关关联联,等等于于0表表示示没没有相关关系。有相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n9.2 S

15、AS9.2 SAS中的属性数据分析中的属性数据分析n9.2.1 2 2表的分析表的分析n9.2.2 r c表的分析表的分析n9.2.3 分层列联表分析分层列联表分析n9.2.4 有序变量的关联性分析有序变量的关联性分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.2.1 2 2表的分析表的分析【例例9-1】为为了了探探讨讨吸吸烟烟与与慢慢性性支支气气管管炎炎有有无无关关系系,调调查了查了339人,情况如下:人,情况如下:表9-2 吸烟与慢性支气管炎的关系调查表设设想想有有两两个个随随机机变变量量:x表表示示吸吸烟烟与与否否,y表表示示患患慢慢性性支支气气管

16、管炎炎与与否否。检检验验吸吸烟烟与与患患慢慢性性支支气气管管炎炎有有无无关关系系,即即检验检验x与与y是否相互独立。数据集是否相互独立。数据集mylib.zqgy如图:如图:原假设原假设H0:x与与y相互独立相互独立患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 表表9-2中中数数据据使使用用如如下下代代码码存存入入数数据据集集mylib.bron,形形式如图式如图9-2所示。所示。data mylib.bron;input x$y$numcell;label x=吸烟 y=慢性支气管炎;cards;

17、吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121;Run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.分析步骤分析步骤 1)在在“分分析析家家”中中,打打开开数数据据集集Mylib.bron;2)选择菜单:选择菜单:“Statistics”“Table Analysis”,打打开开“Table Analysis”对对话话框;框;3)选选中中变变量量smoke,单单击击“Row”按按钮钮,将将其其移移到到行行变变量量框框中中;选选中中变变量量bron,单单击击按按钮钮“Column”,将将其其移移到到列列变变量量框框中中;

18、选选中中变变量量numcell,单单击击按按钮钮“Cell Counts”,将其移到单元格计数框中,如图所示;,将其移到单元格计数框中,如图所示;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)为为了了使使用用 2统统计计量量检检验验变变量量的的关关联联性性,单单击击“Statistics”按按 钮钮,打打 开开“Table Analysis:Statistics”对对话话框框,选选中中“Statistics”栏栏下下的的“Chi-square Statistics”复选框,如图复选框,如图9-4所示。所示。图9-4 “Table Analysis:Sta

19、tistics”对话框 单击单击“OK”按钮,返回。按钮,返回。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为为了了在在列列联联表表中中显显示示各各种种频频数数、百百分分数数,单单击击“Tables(列列联联表表)”按按钮钮,打打开开“Table Analysis:Tables”对对话话框框。选选中中“Frequencies(频频数数)”栏栏下下的的“Expected(期期望望)”复复选选框框,取取消消“Percentages(百分数)(百分数)”栏下的复选框,如图栏下的复选框,如图9-5所示。所示。图9-5 “Table Analysis:Table

20、s”对话框 两次单击两次单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 列列联联表表中中列列出出了了表表格格单单元元的的观观测测频频数数(上上一一行行)和和在在原原假假设设下下的的期期望望频频数数(下下一一行行),可可以以看看出出,吸吸烟烟人人中中患患病病的的观观测测频频数数比比期期望望频频数数大大(图图9-6所所示示),说说明明吸吸烟与患病又一定关系。烟与患病又一定关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 进进一一步步检检验验的的结结果果

21、只只要要看看后后面面(图图9-7)统统计计量量部部分分的的Chi Square一一行行,其其值值为为7.4688,p值值为为0.0063,所所以以应应拒拒绝绝原原假假设设,作作出出结结论论:吸吸烟烟与与患患慢慢性性支支气气管管炎炎是是有有关关联联的的。当当然然,这这个个关关联联度度不不是是很很大大,三三个个关关联联度度系系数数均在均在0.15左右。左右。对对于于两两行行两两列列的的表表格格FREQ过过程程自自动动给给出出Fisher精精确确检检验的结果,其双侧检验验的结果,其双侧检验p值为值为0.0069,应拒绝原假设。,应拒绝原假设。STATSTATSTATSTATSASSAS软件与统计应用

22、教程软件与统计应用教程9.2.2 r c表的分析表的分析【例例9-2】一一种种原原料料来来自自三三个个不不同同的的地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500件件进进行行检检验验,结结果果如如表表9-3所所示示。要要求求检检验验各各个个地地区区和和原原料料质质量之间是否存在依赖关系。量之间是否存在依赖关系。表9-3 原料抽样的结果一级二级二级甲地区526424乙地区605952丙地区506574STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程设设表表9-3数数据据已已经经存存放放在在数数据据集集m

23、ylib.yldj中中,如如图图9-9所所示。示。图9-9 数据集mylib.yldj 检检验验的的原原假假设设为为H0:地地区区和和原原料料等等级级之之间间是是独独立立的的(不存在依赖关系不存在依赖关系)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.分析步骤分析步骤 1)在在“分析家分析家”中,打开数据集中,打开数据集Mylib.yldj;2)选选择择菜菜单单“Statistics”“Table Analysis”,打打开开“Table Analysis”对话框;对话框;3)选选中中变变量量x,单单击击“Row”按按钮钮,将将其其移移到到行行变变量

24、量框框中中;选选中中变变量量y,单单击击按按钮钮“Column”,将将其其移移到到列列变变量量框框中中;选选中中变变量量numcell,单单击击按按钮钮“Cell Counts”,将其移到单元格计数框中,如图所示;,将其移到单元格计数框中,如图所示;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)为为了了使使用用 2统统计计量量检检验验变变量量的的关关联联性性,单单击击“Statistics”按按 钮钮,打打 开开“Table Analysis:Statistics”对对话话框框,选选中中“Statistics”栏栏下下的的“Chi-square Stat

25、istics”复复选选框框;考考虑虑对对列列联联表表作作Fisher精精确确检检验验,选选中中“Exact test”栏栏下下的的“Exact test for(r x c)table”复选框,如图所示。复选框,如图所示。图9-11 “Table Analysis:Tables”对话框 单击单击“OK”按钮,返回。按钮,返回。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为为了了在在列列联联表表中中显显示示各各种种频频数数、百百分分数数,单单击击“Tables(列列联联表表)”按按钮钮,打打开开“Table Analysis:Tables”对对话话框框。

26、选选中中“Frequencies(频频数数)”栏栏下下的的“Expected(期期望望)”复复选选框框,取取消消“Percentages(百分数)(百分数)”栏下的复选框,如图栏下的复选框,如图9-11所示。所示。两次单击两次单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 列列联联表表(图图9-12)中中列列出出了了表表格格单单元元的的观观测测频频数数(上上一行)和在原假设下的期望频数(下一行)。一行)和在原假设下的期望频数(下一行)。STATSTATSTATSTATSASSAS软件与

27、统计应用教程软件与统计应用教程 进进一一步步检检验验的的结结果果要要看看(图图左左)统统计计量量部部分分的的Chi Square一一行行,其其值值为为19.8225,p值值为为0.0005,所所以以应应拒拒绝绝原原假假设设,作作出出结结论论:地地区区与与原原料料等等级级是是有有关关联联的的。这这里的关联度系数取值分别是里的关联度系数取值分别是0.1991、0.1953、0.1408。图图右右给给出出Fisher精精确确检检验验结结果果,其其双双侧侧检检验验p值值远远小小于于0.05,也应拒绝原假设。,也应拒绝原假设。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教

28、程9.2.3 分层列联表分析分层列联表分析【例例9-3】对对294人人进进行行性性别别(sex)、饮饮酒酒(drink)与与抑抑郁郁症症(cases)关关系系的的调调查查,结结果果见见表表9-4。要要求求检检验验三者之间是否存在关联性。三者之间是否存在关联性。表9-4 性别、饮酒与抑郁症关系的调查 设设表表9-4的的数数据据已已经经存存放放在在数数据据集集mylib.cesd中中,形形式式如图如图9-15所示。所示。饮酒不饮性别正常患病正常患病男878142女10633377STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.分析步骤分析步骤 1)在在“分分

29、析析家家”中中,打打开开数数据据集集Mylib.cesd;2)选选 择择 菜菜 单单“Statistics”“Table Analysis”,打打 开开“Table Analysis”对对话话框;框;3)选选中中变变量量sex,单单击击“Row”按按钮钮,将将其其移移到到行行变变量量框框中中;选选中中变变量量cases,单单击击按按钮钮“Column”,将将其其移移到到列列变变量量框框中中;选选中中变变量量drink,单单击击按按钮钮“Strata”,将将其其移移到到分分层层变变量量框框中中;选选中中变变量量numcell,单单击击按按钮钮“Cell Counts”,将其移到单元格计数框中,如

30、图所示;,将其移到单元格计数框中,如图所示;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)单单击击“Select Tab(选选择择表表)”按按钮钮,打打开开“Table Analysis:Select Tab”对对话话框框。在在“Select tables(选选择择列列联联表表或或分分层层表表)”选选项项区区域域中中选选择择“SEX*CASES,DRINK*SEX*CASES”两项,如图两项,如图9-17所示。所示。单击单击“OK”按钮返回。按钮返回。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)单单击击“Stat

31、istics”按按钮钮,打打开开“Table Analysis:Statistics”对对 话话 框框,选选 中中“Statistics”栏栏 下下 的的“Chi-square Statistics”复复选选框框,如如图图左左所所示示。单单击击“OK”按钮返回。按钮返回。6)单单击击“Tables”按按钮钮,打打开开“Table Analysis:Tables”对对 话话 框框。选选 中中“Frequencies”栏栏 下下 的的“Expected”复复选选框框,取取消消“Percentages”栏栏下下的的复复选框,如图选框,如图9-19所示。所示。STATSTATSTATSTATSASSA

32、S软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 结结果果分分为为三三个个部部分分:不不论论饮饮酒酒与与否否、只只考考虑虑饮饮酒酒者者、只考虑不饮酒者。只考虑不饮酒者。1)不论饮酒与否:不论饮酒与否:列列联联表表(图图9-20左左)列列出出了了表表格格单单元元的的观观测测频频数数(上上一一行行)和和在在原原假假设设下下的的期期望望频频数数(下下一一行行)。可可以以看看出出女女性性患患抑抑郁郁症症的的频频数数大大于于期期望望频频数数,因因此此有有可可能能女女性性比比男性更易患抑郁症。男性更易患抑郁症。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程

33、进进一一步步检检验验的的结结果果要要看看 2检检验验与与Fisher精精确确检检验验结结果果。由由图图看看出出 2统统计计量量的的值值为为8.0815,p值值为为0.0045;Fisher精精确确检检验验的的双双侧侧检检验验p值值为为0.040,所所以以应应拒拒绝绝原原假假设设,作作出出结结论论:男男女女性性别别与与患患抑抑郁郁症症与与否否是是有有关关联联的的。但但是是,对对于于2 2表表来来说说,这这里里的的系系数数为为-0.1658,说说明明性性别别与与患抑郁症的关联度不是很大。患抑郁症的关联度不是很大。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2)

34、只只考考虑虑不不饮饮酒酒者者(Controlling for DRINK=不不饮饮):从从列列联联表表(图图左左)和和检检验验统统计计量量(图图右右)可可以以看看出出虽虽然然女女性性患患抑抑郁郁症症的的频频数数略略大大于于期期望望频频数数,但但 2统统计计量量的的值值为为0.1070,p值值为为0.7436;Fisher精精确确检检验验的的双双侧侧检检验验p值值为为1.0000,所所以以无无法法拒拒绝绝原原假假设设,即即对对于于不不饮饮酒酒者者来说,患抑郁症与性别因素无关联。来说,患抑郁症与性别因素无关联。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)只

35、考虑饮酒者只考虑饮酒者(Controlling for DRINK=饮酒饮酒):从从列列联联表表(图图左左)和和检检验验统统计计量量(图图右右)可可以以看看出出女女性性患患抑抑郁郁症症的的频频数数大大于于期期望望频频数数,因因此此有有可可能能女女性性比比男男性更易患抑郁症。性更易患抑郁症。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程进进一一步步检检验验的的结结果果图图9-22右右看看出出 2统统计计量量的的值值为为9.1649,p值值为为0.0025;Fisher精精确确检检验验的的双双侧侧检检验验p值值为为0.0027,所所以以应应拒拒绝绝原原假假设设,作

36、作出出结结论论:对对于于饮饮酒酒者者来来说说,男男女女性性别别与与患患抑抑郁郁症症与与否否是是有有关关联联的的,女女性性饮饮酒酒者者更容易患抑郁症。更容易患抑郁症。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.2.4 有序变量的关联性分析有序变量的关联性分析【例例9-4】研研究究奶奶牛牛种种群群大大小小与与其其患患某某种种细细菌菌性性疾疾病病的的关关系系。牛牛的的患患病病程程度度(disease)分分为为没没有有(0)、低低(1)、高高(2),牛牛群群大大小小(herdsize)分分为为小小(1)、中中(2)、大大(3)。根根据据患患病病程程度度和和牛牛群

37、群大大小小记记录录的的九九个个类类中中动动物物的的头头数数见见表。表。表9-5 奶牛疾病与牛群大小的数据设设表表9-5的的数数据据已已经经存存放放在在数数据据集集mylib.cows中中,形形式式如如图图9-23所示。所示。没有(0)低(1)高(2)小959中18419大1188136STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.分析步骤分析步骤 1)在在“分分析析家家”中中,打打开开数数据据集集Mylib.cows;2)选选 择择 菜菜 单单“Statistics”“Table Analysis”,打打 开开“Table Analysis”对对话话框

38、;框;3)选选中中变变量量herdsize,单单击击“Row”按按钮钮,将将其其移移到到行行变变量量框框中中;选选中中变变量量disease,单单击击按按钮钮“Column”,将将其其移移到到列列变变量量框框中中;选选中中变变量量numcell,单单击击按按钮钮“Cell Counts”,将其移到单元格计数框中,如图所示;,将其移到单元格计数框中,如图所示;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)单单 击击“Statistics(统统 计计 量量)”按按 钮钮,打打 开开“Table Analysis:Statistics”对对 话话 框框,选选

39、中中“Statistics”栏栏 下下 的的“Chi-square Statistics”与与“Measures of association”复选框,如图复选框,如图9-25所示。所示。单击单击“OK”按钮返回。按钮返回。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)单单击击“Tables(列列联联表表)”按按钮钮,打打开开“Table Analysis:Tables”对对话话框框。选选中中“Frequencies(频频数数)”栏栏 下下 的的“Expected(期期 望望)”复复 选选 框框,取取 消消“Percentages(百百分分数数)”栏栏下

40、下的的复复选选框框,如如图图9-26所示。所示。两次单击两次单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 列列联联表表(图图)列列出出了了表表格格单单元元的的观观测测频频数数(上上一一行行)和和在在原原假假设设下下的的期期望望频频数数(下下一一行行)。从从列列联联表表中中实实际际频频数数与与期期望望频频数数的的对对比比可可以以看看出出,小小的的种种群群患患病病比比期期望望频频数数轻轻,大大的的种种群群患患病病比比期期望望频频数数重重,即即患患病病程程度度与与种种群群大大小小有有正的关联。正的关联。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2统统计计量量的的值值为为67.0411,p值值为为0.0001,所所以以应应拒拒绝绝原原假假设设,作作出出结结论论:患患病病程程度度与与种种群群大大小小是是有有关关联联的的。而而且且,这这里里的的c系系数数达达0.4280,说说明明患患病病程程度度与与种种群群大大小的关联度是相当大的。小的关联度是相当大的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁