《8.3.1分类变量与列联表 课件(共16张PPT).pptx》由会员分享,可在线阅读,更多相关《8.3.1分类变量与列联表 课件(共16张PPT).pptx(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、8.3 列联表与独立性检验列联表与独立性检验 前面两节所讨论的变量前面两节所讨论的变量,如人的身高、树的胸径、树如人的身高、树的胸径、树的高度、短跑的高度、短跑100m世界纪录和创纪录的时间等世界纪录和创纪录的时间等,都是数值都是数值变量变量,数值变量的取值为实数数值变量的取值为实数.其大小和运算都有实际含义其大小和运算都有实际含义.在现实生活中在现实生活中,人们经常需要回答人们经常需要回答一定范围内的两种一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题现象或性质之间是否存在关联性或相互影响的问题.例如例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同
2、班级学生用不同班级学生用于体育锻炼的时间是否有差别于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的吸烟是否会增加患肺癌的风险风险,等等等等,本节将要学习的独立性检验方法为我们提供了本节将要学习的独立性检验方法为我们提供了解决这类问题的方案解决这类问题的方案.在讨论上述问题时在讨论上述问题时,为了表述方便为了表述方便,我们经常会使用我们经常会使用一一种特殊的随机变量种特殊的随机变量,以区别不同的现象或性质以区别不同的现象或性质,这类随机变这类随机变量称为量称为分类变量分类变量.分类变量的取值可以用实数表示分类变量的取值可以用实数表示,例如例如,学生所在的班学生所在的班级可以用级可以用1,2,3
3、等表示等表示,男性、女性可以用男性、女性可以用1,0表示表示,等等等等.在很多时候在很多时候,这些数值只作为编号使用这些数值只作为编号使用,并没有通常的大小并没有通常的大小和运算意义和运算意义,本节我们主要讨论取值于本节我们主要讨论取值于0,1的分类变量的的分类变量的关联性问题关联性问题.8.3.1 分类变量与列联表分类变量与列联表 如何利用统计数据判断一对分类变量之间是否具有关如何利用统计数据判断一对分类变量之间是否具有关联性呢联性呢?对于这样的统计问题对于这样的统计问题,有时可以利用普查数据有时可以利用普查数据,通通过比较相关的比率给出问题的准确回答过比较相关的比率给出问题的准确回答,但在
4、大多数情况但在大多数情况下下,需要借助概率的观点和方法需要借助概率的观点和方法,我们先看下面的具体问题我们先看下面的具体问题.问题问题 为了有针对性地提高学生体育锻炼的积极性为了有针对性地提高学生体育锻炼的积极性,某某中学需要了解中学需要了解性别因素是否对本校学生体育锻炼的经常性性别因素是否对本校学生体育锻炼的经常性有影响有影响,为此对学生是否经常锻炼的情况进行了普查为此对学生是否经常锻炼的情况进行了普查,全校全校学生的普查数据如下学生的普查数据如下:523名女生中有名女生中有 331 名经常锻炼名经常锻炼;601名男生中有名男生中有 473 名经常锻炼名经常锻炼.你能利用这些数据你能利用这些
5、数据,说明该校说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗女生和男生在体育锻炼的经常性方面是否存在差异吗?问题问题 普查数据如下普查数据如下:523名女生中有名女生中有 331 名经常锻炼名经常锻炼;601名男生中有名男生中有 473 名经常锻炼名经常锻炼.该校女生和男生在体育锻该校女生和男生在体育锻炼的经常性方面是否存在差异吗炼的经常性方面是否存在差异吗?这是一个简单的统计问题这是一个简单的统计问题,最直接的解答方法是最直接的解答方法是,比较比较经常锻炼的学生在女生和男生中的比率经常锻炼的学生在女生和男生中的比率,为了方便为了方便,我们设我们设 那么那么,只要求出只要求出f0和和f
6、1的值的值,通过比较这两个值的大小通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异就可以知道女生和男生在锻炼的经常性方面是否有差异,由由所给的数据所给的数据,经计算得到经计算得到 上面的问题还可以通过建立一个古典概型上面的问题还可以通过建立一个古典概型,使用条件概使用条件概率的语言,给出另外一种解答方法率的语言,给出另外一种解答方法.用用表示该校全体学生构成的集合表示该校全体学生构成的集合,这是我们所关心的这是我们所关心的对象的总体对象的总体.考虑以考虑以为样本空间的古典概型为样本空间的古典概型,并定义一对并定义一对分类变量分类变量X和和Y如下如下:对于对于中的每一名学
7、生中的每一名学生,分别令分别令 我们希望通过比较条件概率我们希望通过比较条件概率P(Y=1|X=0)和和P(Y=1|X=1)回答上面的问题回答上面的问题.我们希望通过比较条件概率我们希望通过比较条件概率P(Y=1|X=0)和和P(Y=1|X=1)回答上面的问题回答上面的问题.按照条件概率的直观解释按照条件概率的直观解释,如果从该校女如果从该校女生和男生中各随机选取一名学生生和男生中各随机选取一名学生,那么该女生属于经常锻炼那么该女生属于经常锻炼群体的概率是群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概而该男生属于经常锻炼群体的概率是率是P(Y=1|X=1).因此,因此,“性别对
8、体育锻炼的经常性有影响性别对体育锻炼的经常性有影响”可以描述为可以描述为“性别对体育锻炼的经常性没有影响性别对体育锻炼的经常性没有影响”可以描述为可以描述为P(Y=1|X=0)=P(Y=1|X=1);P(Y=1|X=0)P(Y=1|X=1).为了清楚起见为了清楚起见,我们用表格整理数据我们用表格整理数据性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生女生(X=0)192331523男生男生(X=1)128473601合计合计3208041124 我们用我们用X=0,Y=1表示事件表示事件X=0和和Y=1的积事件的积事件,用用X=1,Y=1表示事件表示事件X=1和和Y=1的积
9、事件的积事件,根据古典概型根据古典概型和条件概率的计算公式和条件概率的计算公式,我们有我们有 由由P(Y=1|X=1)P(Y=1|X=0)可以作出判断可以作出判断,在该校的学在该校的学生中生中,性别对体育锻炼的经常性有影响性别对体育锻炼的经常性有影响,即该校的女生和男即该校的女生和男生在体育锻炼的经常性方面存在差异生在体育锻炼的经常性方面存在差异,且男生更经常锻炼且男生更经常锻炼.在实践中在实践中,由于保存原始数据的成本较高由于保存原始数据的成本较高,人们经常按人们经常按研究问题的需要研究问题的需要,将数据分类统计将数据分类统计,并做成表格加以保存并做成表格加以保存,我我们将上表这种形式的数据
10、统计表称为们将上表这种形式的数据统计表称为22列联表列联表.22列联表给出了列联表给出了成对分类变量数据的交叉分类频数成对分类变量数据的交叉分类频数.以上表为例以上表为例,它包含了它包含了X和和Y的如下信息的如下信息:最后一行的前两个最后一行的前两个数分别是事件数分别是事件Y=0和和Y=1中样本点的个数中样本点的个数;最后一列的最后一列的前两个数分别是事件前两个数分别是事件 X=0和和 X=1中样本点的个数中样本点的个数;中间中间的四个格中的数是表格的核心部分的四个格中的数是表格的核心部分,给出了事件给出了事件X=x,Y=y(x,y=0,1)中样本点的个数中样本点的个数;右下角格中的数是样本空
11、右下角格中的数是样本空间中样本点的总数间中样本点的总数.在上面问题的两种解答中,使用了学校全部学生的在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率比率和条件概率.然而,对于大多数实际问题,我们无然而,对于大多数实际问题,我们无法获得所关心的法获得所关心的全部对象的数据,全部对象的数据,因此无法准确计算出因此无法准确计算出有关的比率或条件概率有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路我们提供了一
12、个解决问题的思路.比较简单的做法是利比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件用随机抽样获得一定数量的样本数据,再利用随机事件发生的发生的频率稳定于概率频率稳定于概率的原理对问题答案作出推断的原理对问题答案作出推断.例例1 为比较甲、乙两所学校学生的数学水平为比较甲、乙两所学校学生的数学水平,采用简单采用简单随机抽样的方法抽取随机抽样的方法抽取88名学生名学生.通过测验得到了如下数据通过测验得到了如下数据:甲校甲校43名学生中有名学生中有10名数学成绩优秀;乙校名数学成绩优秀;乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间
13、是试分析两校学生中数学成绩优秀率之间是否存在差异否存在差异.解:解:用用表示两所学校的全体学生构成的集合表示两所学校的全体学生构成的集合.考虑以考虑以为样本空间的古典概型为样本空间的古典概型.对于对于中每一名学生,定义分类中每一名学生,定义分类变量变量X和和Y如下:如下:我们将所给数据整理成下表我们将所给数据整理成下表(单位:人单位:人).我们将所给数据整理成下表我们将所给数据整理成下表(单位:人单位:人).学校学校数学成绩数学成绩合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙校乙校(X=1)38745合计合计711788 上表是关于分类变量上表是关于分类变量
14、X和和Y的抽样数据的的抽样数据的22列联表列联表:最最后一行后一行的前两个数分别是事件的前两个数分别是事件Y=0和和Y=1 的频数的频数;最后最后一列一列的前两个数分别是事件的前两个数分别是事件X=0和和X=1的频数的频数;中间的中间的四个格四个格中的数是事件中的数是事件X=x,Y=y(x,y=0,1)的频数的频数;右下角格右下角格中的数是样本的容量中的数是样本的容量.甲校学生中数学成绩不优秀和数学成绩优秀的频率分甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为 我们可以用等高堆积条形图直
15、观地展示上述计算结果我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示如下图所示.左边左边的蓝色和红色条的高度的蓝色和红色条的高度分别是分别是甲校学生中数学成绩不优甲校学生中数学成绩不优秀和数学成绩优秀的频率秀和数学成绩优秀的频率;右边右边的蓝色和红色条的高度分别是的蓝色和红色条的高度分别是乙乙校学生中数学成绩不优秀和数学校学生中数学成绩不优秀和数学成绩优秀的频率成绩优秀的频率.通过比较发现,两个学校学生抽样数据中数学成绩优通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理
16、,我们可以推断依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高成绩优秀率比乙校学生的高.思考思考?你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的
17、?这一结论是否有可能是错误的?事事实实上上,“两两校校学学生生的的数数学学成成绩绩优优秀秀率率存存在在差差异异”这这个个结结论论是是根根据据两两个个频频率率间间存存在在差差异异推推断断出出来来的的.有有可可能能出出现现这这种种情情况况:在在随随机机抽抽取取的的这这个个样样本本中中,两两个个频频率率间间确确实实存存在在差差异异,但但两两校校学学生生的的数数学学成成绩绩优优秀秀率率实实际际上上是是没没有有差差别别的的.这这就就是是说说,样样本本的的随随机机性性导导致致了了两两个个频频率率间间出出现现较较大大差差异异.在在这这种种情情况况下下,我我们们推推断断的的结结论论就就是是错错误误的的.后后面面我们将讨论犯这种错误的概率大小问题我们将讨论犯这种错误的概率大小问题.