高维列联表精选文档.ppt

上传人:石*** 文档编号:52097767 上传时间:2022-10-21 格式:PPT 页数:38 大小:2.48MB
返回 下载 相关 举报
高维列联表精选文档.ppt_第1页
第1页 / 共38页
高维列联表精选文档.ppt_第2页
第2页 / 共38页
点击查看更多>>
资源描述

《高维列联表精选文档.ppt》由会员分享,可在线阅读,更多相关《高维列联表精选文档.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、高维列联表本讲稿第一页,共三十八页高维列联表的数据结构三维rct列联表的数据结构:假设n个个体按照三个属性分类,其中属性A有r类,属性B有c类,属性C有t类;n个个体中属于Ai、Bj、Ck类的有nijk个,联合概率为pijk本讲稿第二页,共三十八页高维列联表的结构【例】为了解不同年龄的男性,吸烟与呼吸系统疾病之间的关系,调查数据见下表:上表为三维222列联表。其中,“年龄”为层属性,“呼吸情况”为行属性,“吸烟情况”为列属性。在每一层,都是一个二维列联表。本讲稿第三页,共三十八页高维列联表的压缩通过把不同年龄的数据合并,可以将三维列联表压缩成二维列联表。也可以合并“呼吸情况”的数据,得到“年龄

2、与吸烟情况”的二维表;或合并“吸烟情况”的数据,得到“年龄与呼吸情况”的二维表。本讲稿第四页,共三十八页高维列联表的压缩一般地,列联表压缩后的数据结构为:经过合并压缩后得到的二维表,称为边缘表。边缘表实际上是“忽略”某个属性后得到的列联表。B1Bc合计A1Ar合计本讲稿第五页,共三十八页高维列联表的分层与压缩相反,可以把三维表中的每一层的二维表分离出来加以研究,这时称为部分表。上述三维222列联表,可以通过按年龄分层,分离出两张二维列联表,即两个部分表。部分表中的关联性称为条件关联性,即某个属性给定(被控制)时,另外两个属性之间的关系。部分表的条件关联性可能和边缘表中的关联性有较大差异,甚至是

3、自相矛盾(辛普森悖论)。正是边缘表与部分表分析的条件发生变化,所以把压缩与分层结合起来分析是完全必要的。本讲稿第六页,共三十八页部分表与边缘表从分层后的两张二维表(部分表)中,根据各自的卡方值可以看出,在年龄40的部分表中,吸烟情况与呼吸情况是相互独立的;而在另一个部分表即年龄4059的二维表中,二者则是相关联的(或不独立)。从按年龄合并、压缩后的二维表(边缘表)来看,吸烟情况与呼吸情况之间是相关联的。可见,部分表与边缘表关联性不一致,有时甚至会明显矛盾,完全相反。本讲稿第七页,共三十八页部分表与边缘表从四格表可知,优势比可以用来度量属性之间的关联性;根据部分表计算的优势比,称为条件优势比;根

4、据边缘表计算的优势比,称为边缘优势比;与前面所述的部分表与边缘表的关系相一致,条件优势比与边缘优势比是不同的,有时二者会给出完全相反的结论;当部分表中两个属性变量条件独立时,所有的条件优势比都等于1;但根据边缘表计算的边缘优势比可能并不等于1,即条件独立不代表边缘独立。本讲稿第八页,共三十八页高维列联表的分层分层与压缩相类似地,都可以按照不同的属性压缩或者分层。一般地,按属性A分层,可以分成r个二维ct列联表;按属性B分层,可以得到c个二维rt列联表;按属性C分层,可以得到t个二维rc列联表.压缩与分层都是针对高维列联表的分析方法,是从不同角度和途径对不同属性之间的关系进行分析的需要。基于辛普

5、森悖论的存在,压缩与分层经常结合起来使用。本讲稿第九页,共三十八页高维列联表的条件独立性检验对于三维列联表,按照某一属性进行分层研究,实际上就是要进行条件独立性检验。如:考虑C给定后A与B条件独立问题的检验。第k个二维rc列联表的检验统计量应为:为此,可以把t个统计量的和作为条件独立性检验的检验统计量,其自由度为t(r-1)(c-1)。本讲稿第十页,共三十八页高维列联表的条件独立性检验另外还有两个条件独立性检验的问题,即A给定B与C条件独立和B给定A与C条件独立。这三种条件独立性检验见下表:原假设期望频数检验统计量自由度C给定A、B独立A给定B、C独立B给定A、C独立本讲稿第十一页,共三十八页

6、条件独立性检验举例【例5.2】某研究生院某年有1659名男生和1413名女生申请报考,其中有733名男生和428名女生被录取。录取结果见表5.12:经检验,该表的G2=63.18,p值1为正相合,1为负相合,=1为相互独立。在三维列联表中,可以用i表示A给定为Ai后B和C的条件相合性的程度。那么,各层四格表相合程度是否相同的检验问题,原假设和备择假设应为:检验统计量为:本讲稿第二十七页,共三十八页相合程度的检验当卡方值较大时,认为各层的相合程度不相同;而当卡方值较小时,认为各层的相合度相同。这一检验方法称为Breslow-Day2检验.【例5.5】计算例5.3中A给定后B和C条件相合程度。经计

7、算,故认为各层B和C条件正相合的程度没有显著区别。把各层相合程度相同称为齐性,或齐次关联性;齐性具有对称性。在控制任意的第三变量的情况下,剩余两个变量的条件优势比都相同,或称这两个变量对第三个变量没有交互作用。本讲稿第二十八页,共三十八页有偏比较在对高维列联表的压缩和分层分析时,通常会出现合并的边缘表与分层的部分表会得出不同的结论,甚至出现辛普森悖论。这就要分析偏差产生的原因。对于抽样调查数据,抽样方法的缺陷通常会产生偏差;如例5.6的调查数据分析时,可以通过调查方法设计完善,使调查的男性、女性以及年轻、年老的人数差不多,从而避免混杂因素起作用,避免有偏比较。对于实验数据,实验设计方法上的缺陷

8、也会导致偏差。如例5.7在新药疗效实验方案设计中,必须保证双盲且随机分组,使处理组和对照组中男、女病人数差不多,使“性别”不起作用,避免有偏比较。本讲稿第二十九页,共三十八页有偏比较对于观察数据,有偏比较在所难免。解决办法是找出混杂因素,按混杂因素进行分层分析,控制混杂因素的影响,以避免有偏比较。如例5.8文化程度与死亡率分析中,“年龄”是混杂因素,通过按“年龄”分层,避免了有偏比较。本讲稿第三十页,共三十八页高维列联表的独立性独立性的定义可以使用概率方式,也可以采用期望频数来定义。三维列联表独立性的定义与二维列联表类似。在三维列联表中,令mijk为期望频数,若存在i,j,k使任意格(ijk)

9、都有:则称A、B、C相互独立。其中mijk的估计为:本讲稿第三十一页,共三十八页高维列联表的独立性若存在i,jk使任意格都有:则称A和(B,C)相互独立。其中mijk的估计为:与A和(B,C)相互独立的情况类似,可以得到B和(A,C)以及C 和(A,B)相互独立的期望频数的定义。若存在ij,ik使任意格都有:则称A给定后B和C条件独立。其中mijk的估计为:本讲稿第三十二页,共三十八页高维列联表的独立性与给定A后B和C条件独立类似,可以得到给定B后A和C条件独立、给定C后A和B条件独立的期望频数定义。根据三维列联表独立性的三种情况下不同的期望频数的估计,可以构造出似然比检验统计量:本讲稿第三十

10、三页,共三十八页高维列联表的相关性在三维列联表中,前面所有的独立性问题讨论完后,可以进一步分析三个变量之间的相关关系。相关关系有两种情况:一种是饱和模型,表示为(ABC),即期望频数不能分解,三个属性之间不仅两两存在交互作用,而且三个之间也有交互作用;其期望频数的估计就是实际频数nijk。另一种是齐次关联模型,表示为(AB,AC,BC),即期望频数可分解,两两之间存在交互作用,但三个之间没有交互作用;其期望频数的估计需要使用迭代算法。对相关关系的分析,还可以通过对数线性模型和统计软件进行分析。本讲稿第三十四页,共三十八页高维列联表的相关性对期望频数的迭代估计类似于二维不完备列联表中的迭代算法。

11、对仅有两两交互作用模型检验的原假设应为:采用的似然比检验统计量与独立性检验的统计量完全相同;当检验统计量的卡方值较小时,不拒绝原假设;当卡方值较大时,拒绝原假设。本讲稿第三十五页,共三十八页高维列联表的优比期望频数除用来描述列联表的独立性、相关性外,还可以描述优势比。优比不仅可以用于四格表,还可推广到一般的二维列联表。可以取二维表的两行两列来构造一个四格表计算优比,二维表有若干个优比。三维列联表可以按某一属性分层后形成若干二维列联表再进行优比分析。本讲稿第三十六页,共三十八页高维列联表的优比对于属性A,B,C相互独立时,不论按哪个属性分层,各层二维表的优比总等于1;对于A与(B,C)相互独立时

12、,按属性A分层后第i层二维ct列联表的优比与i无关,故各层B与C的相合程度相同;无论按B,或C分层,这些二维列联表上的优比总等于1;对于A给定后B和C条件独立时,按A分层的二维列联表上的优比总等于1;且按B分层各层A与C相合程度相同,按C分层各层A与B相合程度相同。对于齐次关联模型,各层二维列联表的优比都与在第几层没有关系。本讲稿第三十七页,共三十八页不完备高维列联表对不完备列联表独立性的定义与完备列联表的情形类似,不同的仅仅是定义在非空格上;以上独立性之间的关系也与完备列联表类似;除独立性外,不完备列联表还有拟相关问题,也与完备列联表类似;与独立性、相关性有关的检验统计量与完备列联表相类似,不同的是自由度,有的需要相应减去空格数m,有的要具体问题具体分析。本讲稿第三十八页,共三十八页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁