《【数学】列联表和独立性检验课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《【数学】列联表和独立性检验课件-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册.pptx(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、8.38.3列联表与独立性检验列联表与独立性检验8.3.18.3.1分类变量与列联表分类变量与列联表8.3.28.3.2独立性检验独立性检验复习导入 在现实生活中,人们经常需要回答在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在一定范围内的两种现象或性质之间是否存在关联性或相互影响关联性或相互影响的问题的问题.例如,例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同班不同班级学生用于体育锻炼的时间是否有差别级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险吸烟是否会增加患肺癌的风险,等等等等.本本节将要学习的独立性检验方法为我们提供
2、了解决这类问题的方案节将要学习的独立性检验方法为我们提供了解决这类问题的方案.新知探索 如何利如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比问题,有时可以利用普查数据,通过比较相关的比率率给出问题的准确回答,但在大给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题我们先看下面的具体问题.新知探索问题问题:为了有针对性为了有针对性地地提高学生体育锻炼的积极性提高学生体育锻炼的积极性,某中学需要了解性
3、别因素是否某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下全校学生的普查数据如下:523523名女生中有名女生中有331331名经常锻炼名经常锻炼;601601名男生中有名男生中有473473名经名经常锻炼常锻炼.你能利用这些数据你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?差异吗?新知探索新知探索在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,在实践中,由于
4、保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成将数据分类统计,并做成2222列联表列联表加以保存加以保存.问题背景:问题背景:全校学生的普查数据如下:523523名女生中有名女生中有331331名经常锻炼名经常锻炼;601601名男生中有名男生中有473473名经常锻炼名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生女生(X=0)331523男生男生(X=1)473601合计合计22列联表1921281124320804列联表给出了成对分类变量数据的交叉分类频数列
5、联表给出了成对分类变量数据的交叉分类频数.性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性性别对体育锻炼的经常性无无影响:影响:频率稳定于概率频率稳定于概率新知探索新知探索 在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比够完全确定解答问题所需的比率率和条件概率和条件概率.然而,对于大多数实际问题,我们无法然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比获得所关心的全部对象的数据,因此无法准确计算出有关的比率
6、率或条件概率或条件概率.在这种在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定定于于概率的原理对问题答案做出推断概率的原理对问题答案做出推断.对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样获得一定数量的获得一定数量的样本样本数据,再利用随机事件发生的数
7、据,再利用随机事件发生的频率稳定于概率频率稳定于概率的原理的原理作出推断作出推断.例例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测试得到了如下数据:甲校甲校43名学生中有名学生中有10名数学成绩优秀;乙校名数学成绩优秀;乙校45名学名学生中有生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.性别性别锻炼锻炼合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙乙校校(X=1)38745合计合计711788甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,
8、可推断P(Y=1|X=0)P(Y=1|X=1).故可认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.等高堆积条形图XY合计合计Y=0Y=1X=0aba+bX=1cdc+d合计合计a+cb+da+b+c+d(样本容量样本容量n)若不相等,则推断两个分类变量有关联或存在明显差异.若相等,则推断两个分类变量无关联或没有明显差异.概念形成1 1、2222列联表列联表例析例析练习练习1.假设有两个分类变量假设有两个分类变量X与与Y,它们的可能取值分别为,它们的可能取值分别为0,1和和0,1,其其22列联表为:列联表为:XY合计合计Y=0Y=1X=0101828X=1m26m
9、+26合计合计10+m44m+54则当则当m取取()时,时,X与与Y的关系最弱的关系最弱.A8B9C14D19X与与Y的关系几乎无关联的关系几乎无关联C练习例析例析新知探索 我们可以用我们可以用等高堆积条形图等高堆积条形图直观地展示上述计算结果,如图所示直观地展示上述计算结果,如图所示.在上图中,在上图中,左边的蓝色和红色条的高度分别是甲校左边的蓝色和红色条的高度分别是甲校学生中数学成绩学生中数学成绩不不优秀和数学成绩优秀的频率优秀和数学成绩优秀的频率;右边的右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率和数学成绩优秀
10、的频率.新知探索等高条形图展示可列联表数据的频率特征,依据频率稳定与概率的原理,我们可以推断结果和表格相比,等高条形图更能直观地反映出两个分类变量间是否相互影响.比较同色的条形图高度差,若高度差明显,则判断两个分类变量有关系或存在明显差异.两个分类变量两个分类变量x,y之间之间关系最强关系最强的是的是()吸烟与患肺病有关联D2 2、等高条形图、等高条形图 例例2 2 为为考考察察甲甲、乙乙两两种种药药物物预预防防某某疾疾病病的的效效果果,进进行行动动物物实实验验,分分别别得得到到如如下下等等高高堆堆积积条条形形图图.根根据据图图中中信信息息,在下列各项中在下列各项中,说法最佳的一项是说法最佳的
11、一项是()A.A.药物乙的预防效果优于药物甲的预防效果药物乙的预防效果优于药物甲的预防效果B.B.药物甲的预防效果优于药物乙的预防效果药物甲的预防效果优于药物乙的预防效果C.C.药物甲、乙对该疾病均有显著的预防效果药物甲、乙对该疾病均有显著的预防效果D.D.药物甲、乙对该疾病均没有预防效果药物甲、乙对该疾病均没有预防效果例析新知探索思考思考2 2:你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误这一结论是否有可能是错误的?的?甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0
12、)P(Y=1|X=1).即甲校学生的数学成绩优秀率比乙校学生的高,故可认为两校学生的数学成绩优秀率存在差异.“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根这个结论是根据据两个频率间存在差异两个频率间存在差异推断出来的推断出来的.但有可能但有可能在随机抽在随机抽取的样本中,取的样本中,两个频率两个频率间确实存在差异,但两校学生的间确实存在差异,但两校学生的数学成绩数学成绩优秀率优秀率实际上是没有差别的实际上是没有差别的.导致推断放错误的原因:导致推断放错误的原因:样本容量较小,导致频率与概率的误差较大;样本容量较小,导致频率与概率的误差较大;样本具有随机性,因而
13、频率有随机性,频率和概样本具有随机性,因而频率有随机性,频率和概率之间存在误差;率之间存在误差;思考思考3 3:有多大的把握有多大的把握推断推断“学校与优秀率有关学校与优秀率有关”?这个推断?这个推断犯错误的可能性多大?犯错误的可能性多大?在这种情况下,我们推断出的结论就是错误的在这种情况下,我们推断出的结论就是错误的.接下来我们将讨论犯这种错误的概率的大小问题接下来我们将讨论犯这种错误的概率的大小问题.新知探索新知探索新知探索新知探索新知探索新知探索新知探索新知探索新知探索新知探索(1)认清分类变量,提出零假设H0:X和Y独立,即与无关联(无差异);(2)列表:列出22列联表.(3)求值:由
14、表中数据计算2的值.(4)推断:将2值与临界值x比较,根据小概率值的独立性检验规则,得出结论若2x,则推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;若2x,则我们没有充分证据推断H0不成立,可认为X和Y独立.P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828利用利用2的取值的取值推断推断分类变量分类变量X 和和Y 是否独立是否独立的方法称为的方法称为2独立性检验独立性检验3 3 3 3、(卡方卡方卡方卡方)独立性检验的步骤独立性检验的步骤独立性检验的步骤独立性检验的步骤新知探索作用:由2x是否发生推断分类变量X和Y是否独
15、立.独立性检验中常用的小概率值和相应的临界值P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828利用利用2的取值的取值推断推断分类变量分类变量X 和和Y 是否独立是否独立的方法称为的方法称为2独立性检验独立性检验如:若如:若假设假设H0成立成立,对于,对于小概率值小概率值=0.05的的2独立性检验独立性检验规则如下:规则如下:(1)当当23.841=x0.05时,时,P(23.841)=0.05,可,可推断推断H0不成立不成立,即即认为认为X和和Y不独立不独立,该推断,该推断犯错误的概率不超过犯错误的概率不超过0.05;(2)当当23.8
16、41=x0.05时,我们时,我们没有充分证据推断没有充分证据推断H0不成立不成立,可,可认为认为X和和Y独立独立.例析例例3.根据以下列联表的数据,试分析两校学生中数学成绩优秀率之间是否存在差异.性别性别锻炼锻炼合计合计不优秀不优秀(Y=0)优秀优秀(Y=1)甲校甲校(X=0)331043乙乙校校(X=1)38745合计合计711788P(2x)=0.10.050.010.0050.001x2.7063.8416.6357.87910.828提出原提出原(零零)假设假设计算计算2找临界值比较找临界值比较下结论下结论没有考虑由样本随机性可能导致的错误没有考虑由样本随机性可能导致的错误,所以这个推
17、断依据不太充分所以这个推断依据不太充分独立性检验更理性、更全面,理论依据更充分例析例例4.儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.8
18、28变式变式儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.05的独立性检验,分析甲、乙两种疗法的效果是否有差异.疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136P(2x)=0.10.050.010.0050.001x2.706 3.8416.635 7.879 10.828例析练习例析新知探索新知探索思考思考4 4:独立性检验的思想类似于我们常用的
19、反证法,你能指出二者之间的相同和独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?不同之处吗?例析 例例5 5 某大学生社团组织社会调查活动某大学生社团组织社会调查活动,随机调查了某市区某个路口随机调查了某市区某个路口100100个工作日中每天的天气情况和当天早高峰个工作日中每天的天气情况和当天早高峰(7(7点至点至9 9点点)时段经过该时段经过该路口的机动车车次路口的机动车车次,整理数据得到下表整理数据得到下表:天气天气机动车车次机动车车次0,800)0,800)800,1 600)800,1 600)1 600,2 400)1 600,2 400)晴天晴天1010
20、52521313阴天阴天2 29 98 8雨天雨天0 02 24 4(1)(1)分别估计该市一天的天气为晴天和雨天的概率分别估计该市一天的天气为晴天和雨天的概率;例析(2)(2)若晴天记为若晴天记为“天气好天气好”,阴天或雨天记为阴天或雨天记为“天气不好天气不好”,且若当天早高峰时段经过且若当天早高峰时段经过该路口的机动车车次小于该路口的机动车车次小于1 600,1 600,则视为交通顺畅则视为交通顺畅,否则视为交通拥堵否则视为交通拥堵.根据所给数据根据所给数据,完成下面的完成下面的2222列联表列联表,根据小概率值根据小概率值=0.005=0.005的独立性检验的独立性检验,可否认为两种交通
21、路况可否认为两种交通路况和和“天气情况天气情况”有关有关?天气天气交通交通合计合计顺畅顺畅拥堵拥堵好好不好不好合计合计例析根据小概率值根据小概率值=0.005=0.005的独立性检验的独立性检验,推断推断H H0 0不成立不成立,可认为两种交通路况和可认为两种交通路况和“天天气情况气情况”有关有关,此推断犯错误的概率不超过此推断犯错误的概率不超过0.005.0.005.例析应用独立性检验解决实际问题的步骤应用独立性检验解决实际问题的步骤(1 1)提提 出出 零零 假假 设设H H0 0:X X与与 Y Y 相相 互互 独独 立立,并并 给给 出出 在在 问问 题题 中中 的的解释解释.(2)(
22、2)根据抽样数据整理出根据抽样数据整理出2222列联表列联表,计算计算2 2的值的值,并与临界值并与临界值x x比较比较.(3)(3)根据检验规则得出推断结论根据检验规则得出推断结论:当当2 2x x时时,推断推断H H0 0不成立不成立,即认为即认为X X和和Y Y不独立不独立,该推断犯错误的概率不超过该推断犯错误的概率不超过.当当2 2xx时时,没有充分证据推断没有充分证据推断H H0 0不成立不成立,可以认为可以认为X X和和Y Y独立独立.(4)(4)在在X X与与Y Y不独立的情况下不独立的情况下,根据需要根据需要,通过比较相应的频率通过比较相应的频率,分析分析X X和和Y Y间的影
23、响规律间的影响规律.练习变变.某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班某校为了探索一种新的教学模式,进行了一项课题实验,乙班为实验班,甲班为对比班,甲、乙两班均有为对比班,甲、乙两班均有5050人,一年后对两班进行测试,成绩分别如表人,一年后对两班进行测试,成绩分别如表1 1和表和表2 2所所示示(总分:总分:150150分分):成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数42015101表表1 1成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数11123132表表2 2练习表表
24、1 1表表2 2成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数42015101成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数11123132练习(2)(2)根据所给数据可估计在这次测试中,甲班的平均分是根据所给数据可估计在这次测试中,甲班的平均分是101.8101.8,请你估计乙班的平,请你估计乙班的平均分,并计算两班平均分相差几分;均分,并计算两班平均分相差几分;成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数42015101表表1 1成绩成绩80,90)90,100)100,110)110,120)120,130)频数频数11123132表表2 2练习班级班级成绩成绩合计合计合计合计2438课堂小结课堂小结