《独立性检验的基本思想及其初步应用.ppt》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1.2 独立性检验的基本思想独立性检验的基本思想及其初步应用及其初步应用定量变量定量变量的取值一定是实数,它们的取值大小有特定的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义的含义,不同取值之间的运算也有特定的含义. .如身高、体重、考试成绩、温度等等如身高、体重、考试成绩、温度等等.变量变量定量变量定量变量分类变量分类变量例如身高、体重、考试成绩等,张明的身高是例如身高、体重、考试成绩等,张明的身高是180cm180cm,李立的身高是李立的身高是175cm175cm,说明张明比李立高,说明张明比李立高180-175=5180-175=5(cmcm). .两个定量
2、变量的相关关系分析:回归分析(画散点图、两个定量变量的相关关系分析:回归分析(画散点图、相关系数相关系数r、相关指数、相关指数R2、残差分析)、残差分析)对于性别变量,其取值为男和女两种,这种变量的不对于性别变量,其取值为男和女两种,这种变量的不同同“值值”表示个体所属的不同类别,像这样的变量称表示个体所属的不同类别,像这样的变量称为为分类变量分类变量. .在日常生活中,主要考虑在日常生活中,主要考虑分类变量之间是否有关系分类变量之间是否有关系:如是否吸烟、宗教信仰、是否患肺癌、国籍等等如是否吸烟、宗教信仰、是否患肺癌、国籍等等. .例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?
3、 性别是否对于喜欢数学课程有影响?等等性别是否对于喜欢数学课程有影响?等等. .分类变量也称为属性变量或定性变量,它们的取值一分类变量也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等取一级、二级、三级等等. .有时也可以把分类变量的不同取值用数字来表示,但有时也可以把分类变量的不同取值用数字来表示,但这时的数字除了分类以外没有其他的含义,这时的数字除了分类以外没有其他的含义,例如用例如用0 0表示
4、表示“男男”,1 1表示表示“女女”,性别变量就变成,性别变量就变成取值为取值为0 0和和1 1的随机变量,但是这些数字没有其他的含的随机变量,但是这些数字没有其他的含义义. .此时比较性别变量的两个不同值之间的大小没有意义,此时比较性别变量的两个不同值之间的大小没有意义,性别变量的均值和方差也没有意义性别变量的均值和方差也没有意义. .两个分类变量的相关关系的分析:两个分类变量的相关关系的分析:通过图形直观判断两个分类变量是否相关;通过图形直观判断两个分类变量是否相关;独独立性检验立性检验.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟209
5、92099494921482148总计总计98749874919199659965由列联表可以粗略估计出,在不吸烟者中,有由列联表可以粗略估计出,在不吸烟者中,有0.54%0.54%患患有肺癌;在吸烟者中,有有肺癌;在吸烟者中,有2.28%2.28%患有肺癌。因此,直观患有肺癌。因此,直观上可以得到结论:上可以得到结论:吸烟者和不吸烟者患肺癌的可能性吸烟者和不吸烟者患肺癌的可能性存在差异存在差异. .为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了地调查了9965人,得到如下结果(单位:人):人,得到如下结果(单位:人):吸烟与患肺癌吸烟与患
6、肺癌列联表列联表(列出两个分类变量的频数表):(列出两个分类变量的频数表):在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。肺癌的可能性大。0.54%0.54%2.28%2.28% 上面我们通过分析数据和图形,得到的直观印象是吸烟和上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?患肺癌有关,那么事实是否真的如此呢?这需要用统计观点这需要用统计观点来考察这个问题。来考察这个问题。
7、现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”,为此先假设为此先假设 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的列联表 用用A表示吸烟,表示吸烟,B表示患肺癌,则表示患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”等价等价于于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P(AB)=P(A)P(B).因
8、此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+dadbc即aa+ba+caa+ba+cnnnnnna+ba+bP(A),P(A),n na+ca+cP(B),P(B),n n.a aP(AB)P(AB)n n其中为样本容量,即n = a+b+c+dn = a+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分
9、别为事恰好分别为事件件A和和B发生的频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条件下应该有件下应该有(a+b+c+d)a(a+b)(a+c), 为了使不同样本容量的数据有统一的评判标准,基于上述分为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量22(),()()()()其中为样本容量。n adbcKab cdac bdnabcd(1) 若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K2应很小。应很小。根据表根据表3-7中的数据,利用公式(中的数
10、据,利用公式(1)计算得到)计算得到K2的观测值为:的观测值为:那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?242 209956.6327817 2148 9874 91k9965(7775 49)(2) 独立性检验独立性检验随机变量随机变量-卡方统计量卡方统计量22(),()()()()其中为样本容量。n adbcKab cdac bdnabcd 5、独立性检验独立性检验0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P
11、(K临界值表临界值表828.102K635. 62K706. 22K22.706K 0.1%0.1%把握认为把握认为A A与与B B无关无关1%1%把握认为把握认为A A与与B B无关无关99.9%99.9%把握认把握认A A与与B B有关有关99%99%把握认为把握认为A A与与B B有关有关90%90%把握认为把握认为A A与与B B有关有关10%10%把握认为把握认为A A与与B B无关无关没有充分的依据显示没有充分的依据显示A A与与B B有关,但也不能显示有关,但也不能显示A A与与B B无关无关在在H0成立的情况下,统计学家估算出如下的概率成立的情况下,统计学家估算出如下的概率 即
12、在即在H0成立的情况下,成立的情况下,K2的值大于的值大于6.635的概率非常小,近似的概率非常小,近似于于0.01。2(6.635)0.01.P K (2) 也就是说,在也就是说,在H0成立的情况下,对随机变量成立的情况下,对随机变量K2进行多次观进行多次观测,观测值超过测,观测值超过6.635的频率约为的频率约为0.01。思考 206.635?KH如果,就断定不成立,这种判断出错的可能性有多大答:判断出错的概率为0.01。2009965 7775 49 42 2099566327817 2148 9874 91().kHH 现现在在观观测测值值太太大大了了,在在成成立立的的情情况况下下能能
13、够够出出现现这这样样的的观观测测值值的的概概率率不不超超过过0 0. .0 01 1,因因此此我我们们有有9 99 9% %的的把把握握认认为为不不成成立立,即即有有9 99 9% %的的把把握握认认为为“吸吸烟烟与与患患肺肺癌癌有有关关系系”。判断判断 是否成立的规则是否成立的规则0H如果如果 ,就判断,就判断 不成立,即认为吸烟与不成立,即认为吸烟与患肺癌有关系;否则,就判断患肺癌有关系;否则,就判断 成立,即认为吸烟成立,即认为吸烟与患肺癌有关系。与患肺癌有关系。6.635k 0H0H独立性检验的定义独立性检验的定义 上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在
14、多大程度上可以认为可以认为“两个分类变量有关系两个分类变量有关系”的方法,称为两的方法,称为两个分类变量的个分类变量的独立性检验独立性检验。在该规则下,把结论在该规则下,把结论“ 成立成立”错判成错判成“ 不不成立成立”的概率不会差过的概率不会差过0H0H2(6.635)0.01,P K 即有即有99%的把握认为的把握认为 不成立。不成立。0H一般地,对于两个研究对象一般地,对于两个研究对象和和,有两类有两类取值,即类取值,即类A A和和B B(如吸烟与不吸烟);(如吸烟与不吸烟);也有两类也有两类取值,即类取值,即类1 1和和2 2(如患病与不患病)。于是得到(如患病与不患病)。于是得到列联
15、表所示的抽样数据:列联表所示的抽样数据:类类1 1类类2 2总计总计类类A Aa ab ba+ba+b类类B Bc cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d用用 统计量研究这类问题的方法称为统计量研究这类问题的方法称为独立性检验独立性检验。2K要推断要推断“和和有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假设H H0 0 :和和没有关系;没有关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2 2 2 2列联表与公式计算列联表与公式计算 的值;的值;2K 由于抽样的随机性,由样本得到的
16、推断由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用有可能正确,也有可能错误。利用 进进行独立性检验,可以对推断的正确性的概行独立性检验,可以对推断的正确性的概率作出估计,样本量率作出估计,样本量n n越大,估计越准确越大,估计越准确。2K1.2 独立性检验的基本思想独立性检验的基本思想及其初步应用及其初步应用(二二)n1分类变量和列联表n(1)分类变量n变量的不同“值”表示个体所属的 ,像这样的变量称为分类变量n(2)列联表n定义:列出的两个分类变量的称为列联表n22列联表n一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为22列联表)为下表.不同类
17、别不同类别频数表频数表x1,x2y1,y2n2.等高条形图n(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否,常用等高条形图展示列联表数据的y1y2总计x1ababx2cdcd总计acbdabcd互相影响互相影响频率特征频率特征n如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过a,否则就认为在不超过a的前提下不能推断“X与Y的关系”,或者在样本数据中支持结论“X与Y有关系”n4在独立性检测中,当K2 时,有95%的把握说事件A与B有关;当K2 时;有99%的把握说事件A与B有关;当K2 时,认为kk0犯错误的概率犯错误的概率没有发现足够证据没有发现足够证据3.8416.6
18、353.841事件事件A与与B是无关的是无关的n例1下面22列联表的K2的值为_.n答案1.780n2将将K2的数值与两个临界值的数值与两个临界值3.841与与6.635进行对比;进行对比;n做出统计推断:当根据具体的数据算出的做出统计推断:当根据具体的数据算出的K23.841时,有时,有95%的的把握说事件把握说事件A与与B有关;当有关;当K26.635时,有时,有99%的把握说事件的把握说事件A与与B有关;当有关;当K23.841时,认为事件时,认为事件A与与B是无关的是无关的n某防疫站对屠宰场及肉食零售点的猪肉检查沙门氏菌情况,结果如下表,试检验屠宰场与零售点猪肉带菌率有无差异.带菌头数
19、不带菌头数合计屠宰场83240零售点141832合计225072n分析分析这是一个这是一个22列联表,可以用列联表,可以用K2检验检验来检验屠宰场与零售点猪肉带菌率有无差异来检验屠宰场与零售点猪肉带菌率有无差异n例例2在调查的在调查的480名男人中有名男人中有38名患有色名患有色盲,盲,520名女人中有名女人中有6名患有色盲,通过图形名患有色盲,通过图形判断色盲与性别是否有关利用独立性检验判断色盲与性别是否有关利用独立性检验判断,是否能够以判断,是否能够以99.9%的把握认为的把握认为“色盲色盲与性别有关系与性别有关系”你所得到的结论在什么范你所得到的结论在什么范围内有效?围内有效?n解析解析
20、根据题目所给的数据作出如下的列根据题目所给的数据作出如下的列联表联表(单位:名单位:名):n例例3在调查的在调查的480名男人中有名男人中有38名患有色名患有色盲,盲,520名女人中有名女人中有6名患有色盲,通过图形名患有色盲,通过图形判断色盲与性别是否有关利用独立性检验判断色盲与性别是否有关利用独立性检验判断,是否能够以判断,是否能够以99.9%的把握认为的把握认为“色盲色盲与性别有关系与性别有关系”你所得到的结论在什么范你所得到的结论在什么范围内有效?围内有效?n解析解析根据题目所给的数据作出如下的列根据题目所给的数据作出如下的列联表联表(单位:名单位:名):n色盲与性别列联表n根据列联表
21、作出相应的二维条形图,如图所示色盲非色盲总计男38442480女6514520总计449561000n点评本题应首先作出调查数据的列联表,再根据列联表画出条形等高图,并进行分析,最后利用独立性检验作出判断n1利用图形来判断两个分类变量是否有关系,可以画出条形等高图,仅从图形上只可以粗略地判断两个分类变量是否有关系,可以结合所给的数值来进行比较作图应注意单位统一,图形准确,但它不能给我们两个分类变量有关或无关的精确的可信程度,若要作出精确的判断,可以作独立性检验的有关计算n2当需要利用公式计算当需要利用公式计算K2的观测值大小来对的观测值大小来对问题作出推断时,首先要牢记公式,再将经过问题作出推
22、断时,首先要牢记公式,再将经过准确运算后得到的结果与临界值进行比较,最准确运算后得到的结果与临界值进行比较,最后才能得出合乎情理的结论后才能得出合乎情理的结论n为了调查某生产线上质量监督员甲对产品质为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生量好坏有无影响,现统计数据如下:甲在生产现场时,产现场时,990件产品中有合格品件产品中有合格品982件,次件,次品品8件;甲不在生产现场时,件;甲不在生产现场时,510件产品中有件产品中有合格品合格品493件,次品件,次品17件试分别用列联表、件试分别用列联表、独立性检验的方法分析监督员甲对产品质量独立性检验的方法分析监督
23、员甲对产品质量好坏有无影响能否在犯错误的概率不超过好坏有无影响能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生的前提下,认为质量监督员甲是否在生产现场与产品质量有关?产现场与产品质量有关?n分析分析由题目可获取以下主要信息:由题目可获取以下主要信息:n甲在生产现场和不在生产现场时,产品中甲在生产现场和不在生产现场时,产品中的合格品和次品数量;的合格品和次品数量;n共调查统计了共调查统计了1500件产品件产品n解答本题的关键是准确把握数据作出解答本题的关键是准确把握数据作出22列列联表,然后具体分析联表,然后具体分析n解析(1)22列联表如下:列联表如下:n由列联表可得由列联
24、表可得|adbc|982174938|12750,相差较大,可在某种程度上认为,相差较大,可在某种程度上认为“质质量监督员甲是否在生产现场与产品质量有关量监督员甲是否在生产现场与产品质量有关系系”合格品数合格品数次品数次品数合计合计甲在生产现场甲在生产现场9828990甲不在生产现场甲不在生产现场49317510合计合计1475251500n例4有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表n班级与成绩列联表n试问能有多大把握认为“成绩与班级有关系”?优秀不优秀总计甲班103545乙班73845总计177390n辨析辨析由于对由于对22列联表中列联表中n11
25、,n12,n21,n22的位置不确定,在代入公式时代错了数值的位置不确定,在代入公式时代错了数值导致计算结果的错误导致计算结果的错误n一、选择题一、选择题n1可以粗略地判断两个分类变量是否有关系可以粗略地判断两个分类变量是否有关系的是的是()nA散点图散点图nB条形等高图条形等高图nC独立性检验的思想独立性检验的思想nD以上都不对以上都不对n 答案答案Bn解析解析用用条形等高图条形等高图可以粗略地判断两个分类变可以粗略地判断两个分类变量是否有关系,但无法精确给出结论的可靠程度量是否有关系,但无法精确给出结论的可靠程度n2下表是一个下表是一个22列联表:列联表:n则表中则表中a,b处的值分别为处
26、的值分别为()nA94,96B52,50nC52,54D54,52y1y2总计总计x1a2173x222527总计总计b46100n3对于分类变量对于分类变量X与与Y的随机变量的随机变量K2的观测的观测值值k,下列说法正确的是,下列说法正确的是()nAk越大,推断越大,推断“X与与Y有关系有关系”,犯错误的概率,犯错误的概率越大越大nBk越小,推断越小,推断“X与与Y有关系有关系”,犯错误的概率,犯错误的概率越大越大nCk越接近于越接近于0,推断,推断“X与与Y无关无关”,犯错误的概,犯错误的概率越大率越大nDk越大,推断越大,推断“X与与Y无关无关”,犯错误的概率越,犯错误的概率越小小n答案
27、答案Bn4利用独立性检验来考虑两个分类变量利用独立性检验来考虑两个分类变量X和和Y是否有关系时,通过查阅临界值表来确定是否有关系时,通过查阅临界值表来确定断言断言“X与与Y有关系有关系”的可信度,如果的可信度,如果k5.024,那么就推断,那么就推断“X和和Y有关系有关系”,这种,这种推断犯错误的概率不超过推断犯错误的概率不超过()nA0.25 B0.75nC0.025 D0.975n答案答案Cn解析解析通过查表确定临界值通过查表确定临界值k.当当kk05.024时,时,推断推断“X与与Y”有关系这种推断犯错误的概率不超过有关系这种推断犯错误的概率不超过0.025.n二、填空题二、填空题n5如
28、果如果K2的观测值的观测值k为为8.654,可推断,可推断“X与与Y有关有关”犯错误的概率不超过犯错误的概率不超过_n答案答案0.005n解析解析k8.6547.879,就推断,就推断“X与与Y有有关关”犯错误的概率不超过犯错误的概率不超过0.005.n6为了探究电离辐射的剂量与人体的受损程为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照度是否有关,用两种不同剂量的电离辐射照射小白鼠在照射后射小白鼠在照射后14天内的结果如下表所天内的结果如下表所示:示:n进行统计分析时的统计假设是进行统计分析时的统计假设是_n答案答案假设电离辐射的剂量与人体受损程度无关假设电离辐射的
29、剂量与人体受损程度无关死亡死亡存活存活合计合计第一种剂量第一种剂量141125第二种剂量第二种剂量61925合计合计203050n三、解答题三、解答题n7在在500个人身上试验某种血清预防感冒的个人身上试验某种血清预防感冒的作用,把一年中的记录与另外作用,把一年中的记录与另外500个未用血清个未用血清的人作比较,结果如下表所示的人作比较,结果如下表所示.n试画出列表的条形图,并通过图形判断这种试画出列表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立血清能否起到预防感冒的作用?并进行独立性检验性检验未感冒未感冒感冒感冒合计合计试验过试验过252248500未用过未用过2242
30、76500合计合计4765241000n解析如下图所示22()()()()()n adbcKab cd ac bd22110 (40 3020 20)7.860 50 60 50K8.8.(湖南)通过随机询问(湖南)通过随机询问110110名性别不同的大学生是否名性别不同的大学生是否爱好某项运动,得到如下的列联表:爱好某项运动,得到如下的列联表:男男女女总计总计爱好爱好404020206060不爱好不爱好202030305050总计总计60605050110110由由算得算得2()P Kkk附表:附表:0.0500.0100.0013.8416.63510.828参照附表,得到的正确结论是(参照附表,得到的正确结论是( )A在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动与性别有关爱好该项运动与性别有关”B在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动与性别无关爱好该项运动与性别无关”C有有99%以上的把握认为以上的把握认为“爱好该项运动与性别有关爱好该项运动与性别有关”D有有99%以上的把握认为以上的把握认为“爱好该项运动与性别无关爱好该项运动与性别无关” 答案:答案:C