《【高中数学】分类变量与列联表课件 高二下学期数学人教A版(2019)选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《【高中数学】分类变量与列联表课件 高二下学期数学人教A版(2019)选择性必修第三册.pptx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、8.3.1分类变量与列联表分类变量与列联表吸烟的危害吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国固定每年5月31日为全球戒烟日 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.吸烟是否会增加患肺癌的风险?例如例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同班级学生不同班级学生用于体育锻炼的时间是否有差别用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险吸烟是否会增加患肺癌的风险,等等等等,本节将要学习的独立性检验方法为我们提供了解决这类问题本节将要学习
2、的独立性检验方法为我们提供了解决这类问题的方案的方案.在讨论上述问题时在讨论上述问题时,为了表述方便为了表述方便,我们经常会使用我们经常会使用一种特殊的随机变量一种特殊的随机变量,以区别不同的现象或性质以区别不同的现象或性质,这类随这类随机变量称为机变量称为分类变量分类变量.变量数值变量分类变量例:人的身高;100米短跑所用时间;产品月销量数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;由一个变量的变化去推测另一个变量的变化例:班级;性别;是否经常锻炼;是否每年体检分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和
3、运算意义例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示本节我们主要研究只含有两个结果的变量X,Y,两个变量分别取值0,1 。在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这种形式的数据统计表称为22列联表表格直观呈现了成对分类变量数据的交叉分类频数。(如:是否吸烟,是否信仰宗教,性别等.)问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名
4、经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?方法1由频率估计概率1 0结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。问题解决问题解决性别在体育锻炼的经常性方面是否存在差异呢?方法2借助条件概率性别锻炼总计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601总计3208041124(=1|=1)(=1|=0)结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。性别 在体育锻炼的经常性方面 是否存在差异呢?方法3借助等高堆积条形图性别锻炼总计不经常(Y=0)经常(Y=1)女生
5、(X=0)192331523男生(X=1)128473601总计3208041124女生男生0%10%20%30%40%50%60%70%80%90%100%经常不经常性别 在体育锻炼的经常性方面 是否存在差异呢?自主学习:结合课本自主学习:结合课本P126-127P126-127例例1 1 理解等高堆积条形图理解等高堆积条形图讨论此图有何特点?讨论此图有何特点?分类变量X和Y的抽样数据的22列联表:以上表为例以上表为例,22列联列联包含了包含了X和和Y的如下信息的如下信息:最后一行的前两个数分最后一行的前两个数分别是事件别是事件Y=0和和Y=1中样本点的个数中样本点的个数;最后一列的前两个数
6、分别是事件最后一列的前两个数分别是事件 X=0和和 X=1中样本点的个数中样本点的个数;中间的四个格中的数是表格的核心部分中间的四个格中的数是表格的核心部分,给给出了事件出了事件X=x,Y=y(x,y=0,1)中样本点的个数中样本点的个数;右下角格中的数是样本空间右下角格中的数是样本空间中样本点的总数中样本点的总数.例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间
7、的古典概型.对于中每一名学生,定义分类变量X和Y如下:合计乙校(X=1)甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的
8、频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.反思2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大
9、.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.后面我们将讨论犯这种错误的概率大小问题.练习:(多选)下图是调查某地区男女中学生喜欢理科的等高堆积条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为40%假设在本小节问题中,只是随机抽取了44 名学生,按照性别和体育锻炼情况整理为如下的列联表(单位:人)(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因.性性别锻炼合合计不经常经常女生51520男
10、生61824合计113344 因为“性别因素影响学生锻炼经常性”这个结论是根据两个频率间存在差异推断出来的.在随机抽取的这个样本中,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.后面,我们将讨论犯这种错误的概率大小问题.学习“独立性检验”.当堂总结当堂总结22列联表 给出了两个分类变量数据的交叉分类频数 判断两个分类变量之间是否具有关联性的三种方法图形分析法频率分析法条件概率法这样得出的结论是否会出现错误呢?是由什么引起的?吸烟的危害吸烟
11、已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题为此,联合国固定每年5月31日为全球戒烟日 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.吸烟是否会增加患肺癌的风险?例如例如,就读不同学校是否对学生的成绩有影响就读不同学校是否对学生的成绩有影响,不同班级学生不同班级学生用于体育锻炼的时间是否有差别用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险吸烟是否会增加患肺癌的风险,等等等等,本节将要学习的独立性检验方法为我们提供了解决这类问题本节将要学习的独立性检验方法为我们提供了解决这类问题的方案的方案.在
12、讨论上述问题时在讨论上述问题时,为了表述方便为了表述方便,我们经常会使用我们经常会使用一种特殊的随机变量一种特殊的随机变量,以区别不同的现象或性质以区别不同的现象或性质,这类随这类随机变量称为机变量称为分类变量分类变量.变量数值变量分类变量例:人的身高;100米短跑所用时间;产品月销量数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;由一个变量的变化去推测另一个变量的变化例:班级;性别;是否经常锻炼;是否每年体检分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义例如,学生所在的班级可以用1,2,3等表示,男性
13、、女性可以用1,0表示本节我们主要研究只含有两个结果的变量X,Y,两个变量分别取值0,1 。在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这种形式的数据统计表称为22列联表表格直观呈现了成对分类变量数据的交叉分类频数。(如:是否吸烟,是否信仰宗教,性别等.)问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼
14、的经常性方面是否存在差异吗?方法1由频率估计概率1 0结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。问题解决问题解决性别在体育锻炼的经常性方面是否存在差异呢?方法2借助条件概率性别锻炼总计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601总计3208041124(=1|=1)(=1|=0)结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。性别 在体育锻炼的经常性方面 是否存在差异呢?方法3借助等高堆积条形图性别锻炼总计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)1284736
15、01总计3208041124女生男生0%10%20%30%40%50%60%70%80%90%100%经常不经常性别 在体育锻炼的经常性方面 是否存在差异呢?自主学习:结合课本自主学习:结合课本P126-127P126-127例例1 1 理解等高堆积条形图理解等高堆积条形图讨论此图有何特点?讨论此图有何特点?分类变量X和Y的抽样数据的22列联表:以上表为例以上表为例,22列联列联包含了包含了X和和Y的如下信息的如下信息:最后一行的前两个数分最后一行的前两个数分别是事件别是事件Y=0和和Y=1中样本点的个数中样本点的个数;最后一列的前两个数分别是事件最后一列的前两个数分别是事件 X=0和和 X=
16、1中样本点的个数中样本点的个数;中间的四个格中的数是表格的核心部分中间的四个格中的数是表格的核心部分,给给出了事件出了事件X=x,Y=y(x,y=0,1)中样本点的个数中样本点的个数;右下角格中的数是样本空间右下角格中的数是样本空间中样本点的总数中样本点的总数.例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:合
17、计乙校(X=1)甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学
18、成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.反思2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出
19、现错误推断的概率有一定的控制或估算.后面我们将讨论犯这种错误的概率大小问题.练习:(多选)下图是调查某地区男女中学生喜欢理科的等高堆积条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为40%假设在本小节问题中,只是随机抽取了44 名学生,按照性别和体育锻炼情况整理为如下的列联表(单位:人)(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因.性性别锻炼合合计不经常经常女生51520男生61824合计113344 因为“性别因素影响学生锻炼经常性”这个结论是根据两个频率间存在差异推断出来的.在随机抽取的这个样本中,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.后面,我们将讨论犯这种错误的概率大小问题.学习“独立性检验”.当堂总结当堂总结22列联表 给出了两个分类变量数据的交叉分类频数 判断两个分类变量之间是否具有关联性的三种方法图形分析法频率分析法条件概率法这样得出的结论是否会出现错误呢?是由什么引起的?