《3.1性检验.ppt》由会员分享,可在线阅读,更多相关《3.1性检验.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一:分类变量的概念一:分类变量的概念:变变量量的的不不同同“值值”表表示示个个体体所所属属的的不不同同类类别别,像像这这样样的变量称为的变量称为分类变量分类变量.在日常生活中,我们常常关心两个在日常生活中,我们常常关心两个分类变量之间是否分类变量之间是否有关系有关系:在统计学中,在统计学中,独立性检验独立性检验就是检验两个分类变量是否就是检验两个分类变量是否有关系的一种统计方法。有关系的一种统计方法。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965与与表表格格
2、相相比比,等等高高条条形形图图能能更更直直观观地地反反映映出出相相关关数数据据的的总体状况总体状况.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了地调查了9965人,得到如下结果(单位:人):人,得到如下结果(单位:人):吸烟与患肺癌吸烟与患肺癌列联表列联表(列出两个分类变量的频数表):(列出两个分类变量的频数表):在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。
3、肺癌的可能性大。0.54%0.54%2.28%2.28%不吸烟不吸烟吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例等高条形图更清晰地表达了两种情况下患肺癌的比例.两个蓝色条的高分别表示两个蓝色条的高分别表示不吸烟和吸烟样本中不不吸烟和吸烟样本中不患肺癌的频率。患肺癌的频率。比较图中两个红色条的高可以发现,在吸烟样本中患肺癌的频比较图中两个红色条的高可以发现,在吸烟样本中患肺癌的频率要高一些。率要高一些。这种判断是否可靠呢?下面通过统计分析回答这一问题。现现在在想想要要知知道道能能够够以以多多大大的的把把握握认认为为“吸吸烟烟与与患患肺肺癌癌有关
4、有关”,为此先假设:,为此先假设:H H0 0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d把数字用字母代替,得到如下用字母表示的列联表:把数字用字母代替,得到如下用字母表示的列联表:不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d假设假设H H0 0:吸烟和患病吸烟和患病之间没有关系之间没有关系 用用A A表示不吸烟,
5、表示不吸烟,B B表示不患病表示不患病 设设n na ab bc cd d 即即H H0 0等价于等价于P(AB)P(AB)P(A)P(B)P(A)P(B)不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d假设假设H H0 0:吸烟和患病吸烟和患病之间没有关系之间没有关系 用用A A表示不吸烟,表示不吸烟,B B表示不患病表示不患病|ad-bc|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|ad-bc|越大,说明吸烟与患肺癌之间关
6、系越强越大,说明吸烟与患肺癌之间关系越强.为为了了使使不不同同样样本本容容量量的的数数据据有有统统一一的的评评判判标标准准,基基于于上上述分析,我们构造一个随机变量述分析,我们构造一个随机变量 若若H H0 0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K K2 2应很小应很小.由列联表中数据,利用公式(由列联表中数据,利用公式(1 1)计算得)计算得K K2 2的观测值为:的观测值为:(1 1)其中其中n=a+b+c+d为样本容量为样本容量.怎样判断怎样判断K K2 2的观测值的观测值k是大还是小呢?是大还是小呢?这仅需要确定一个正数这仅需要确定一个正数 ,当,当 时
7、就认为时就认为K K2 2的观测的观测值值 k大。此时相应于大。此时相应于 的判断规则为:的判断规则为:如果如果 ,就认为,就认为“两个分类变量之间有关系两个分类变量之间有关系”;否则就;否则就认为认为“两个分类变量之间没有关系两个分类变量之间没有关系”。-临界值临界值在在H0成立的情况下,统计学家估算出如下的概率:成立的情况下,统计学家估算出如下的概率:也也就就是是说说,在在H H0 0成成立立的的情情况况下下,对对随随机机变变量量K K2 2进进行行多多次次观观测测,观观测测值值超超过过6.6356.635的的频频率率约约为为0.010.01,是是一一个个小小概概率率事事件件.现现在在K
8、K2 2的的观观测测值值为为56.63256.632,远远远远大大于于6.6356.635,所所以以有有理理由由断断定定H H0 0不不成成立立,即即认认为为“吸吸烟烟与与患患肺肺癌癌有有关关系系”但这种判断会犯错误,犯错误的概率不会超过但这种判断会犯错误,犯错误的概率不会超过0.01,即,即我们有我们有99的把握认为的把握认为“吸烟与患肺癌有关系吸烟与患肺癌有关系”.利利用用随随机机变变量量K K2 2来来确确定定在在多多大大程程度度上上可可以以认认为为“两两个个分分类类变变量量有有关关系系”的的方方法法称称为为两两个个分分类类变变量量的的独独立立性性检验检验.独立性检验:独立性检验:P(K
9、 K2 2x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.455 0.708 1.323 2.0722.7063.8415.0246.6357.879 10.8280.1%0.1%把握认把握认为为A A与与B B无关无关1%1%把握认为把握认为A A与与B B无关无关99.9%99.9%把握认把握认为为A A与与B B有关有关99%99%把握认把握认为为A A与与B B有关有关90%90%把握认把握认为为A A与与B B有关有关10%10%把握认为把握认为A A与与B B无关无关例如例如临界值临界值在实际应用中,要在获取样本数据之前通过下表
10、在实际应用中,要在获取样本数据之前通过下表确定临界值:确定临界值:0.500.400.250.150.100.4550.7081.3232.0722.7060.050.0250.0100.0050.0013.8415.0246.6367.87910.828具体作法是:具体作法是:(1)根据实际问题需要的可信程度确定临界值根据实际问题需要的可信程度确定临界值 ;(2)利用公式利用公式(1),由观测数据计算得到随机变量由观测数据计算得到随机变量 的观测值的观测值 ;(3)如果如果 ,就以,就以 的把握认为的把握认为“X与与Y有关系有关系”;否则就说样本观测数据没有提供;否则就说样本观测数据没有提供
11、“X与与Y有关系有关系”的充分证据。的充分证据。例例1 在在某某医医院院,因因为为患患心心脏脏病病而而住住院院的的665名名男男性性病病人人中中,有有214人人秃秃顶顶;而而另另外外772名名不不是是因因为为患患心心脏脏病病而而住住院院的的男男性性病病人人中中有有175人人秃秃顶顶。能能否否在在犯犯错错误误的的概概率率不超过不超过0.01的前提下认为秃顶与患心脏病有关系?的前提下认为秃顶与患心脏病有关系?0.050.0250.010.0050.0013.8415.0246.6367.87910.828患心脏病患心脏病 不患心脏病不患心脏病总计总计秃顶秃顶214175389不秃顶不秃顶45159
12、71048总计总计6657721437解:根据题目所给数据得到如下列联表解:根据题目所给数据得到如下列联表1-13:解:根据题目所给数据得到如下列联表解:根据题目所给数据得到如下列联表1-13:患心脏病患心脏病 不患心脏病不患心脏病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437 根据联表根据联表1-13中的数据,得到中的数据,得到即有即有99%的把握认为的把握认为“秃顶患心脏病有关秃顶患心脏病有关”。因因此此,能能在在犯犯错错误误的的概概率率不不超超过过0.01的的前前提提下下认认为为秃秃顶与患心脏病有关。顶与患心脏病有关。独立性检验的基本思想(
13、类似独立性检验的基本思想(类似反证法反证法)(1)(1)假设结论不成立假设结论不成立,即即 “两个分类变量没有关系两个分类变量没有关系”.(2)(2)在此假设下我们所构造的随机变量在此假设下我们所构造的随机变量 K K2 2 应该很小应该很小,如果由如果由观测数据计算得到观测数据计算得到K K2 2的观测值的观测值k k很大很大,则在一定可信程度上则在一定可信程度上说明说明 不成立不成立.即在一定可信程度上认为即在一定可信程度上认为“两个分类变量有两个分类变量有关系关系”;如果;如果k k的值很小,则说明由样本观测数据没有发现反的值很小,则说明由样本观测数据没有发现反对对 的充分证据。的充分证
14、据。(3)(3)根据随机变量根据随机变量K K2 2的含义的含义,可以通过评价该假设不合理的程可以通过评价该假设不合理的程度度,由实际计算出的由实际计算出的,说明假设不合理的程度为说明假设不合理的程度为99%,99%,即即“两两个分类变量有关系个分类变量有关系”这一结论成立的可信度约为这一结论成立的可信度约为99%.99%.反证法原理与假设检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。例例2 为为考考察察高高中中生生的的性性别别与与是是否否喜喜欢欢数数学学课课程程之之间
15、间的的关关系系,在在某某城城市市的的某某校校高高中中生生中中随随机机抽抽取取300名学生,得到如下联表:名学生,得到如下联表:喜欢数学课喜欢数学课程程不喜欢数学不喜欢数学课程课程总计总计男男3785122女女35143178总计总计72228300由由表表中中数数据据计计算算K2的的观观测测值值k4.513。在在多多大大程程度度上上可可以以认认为为高高中中生生的的性性别别与与是是否否喜喜欢欢数学课程之间有关系?为什么?数学课程之间有关系?为什么?而而我我们们所所得得到到的的K2的的观观测测值值k4.513超超过过3.841,这这就就意意味味着着“性性别别与与是是否否喜喜欢欢数数学学课课程程之之
16、间间的的关关系系”这这一一结结论论错错误误的的可可能能性性约为0.05(或小于0.05),即有95%(或大于 95%)的把握认为“性别与是否喜欢数学课程之间有关系”。解解:在在假假设设“性性别别与与是是否否喜喜欢欢数数学学课课程程之之间间的关系的关系”的前提下的前提下K2应该很小,并且应该很小,并且 独立性检验第二步:第二步:H H0 0:吸烟吸烟和和患病患病之间没有关系之间没有关系 通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患病有关吸烟与患病有关结论的可靠结论的可靠程度如何?程度如何?患病患病不患病不患病总计总计吸烟吸烟a ab ba+ba+b不吸烟不吸烟c cd
17、 dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d第一步:列出第一步:列出2 22 2列联表列联表 用用K K2 2统计量研究这统计量研究这类问题的方法类问题的方法步骤步骤第三步:引入一个随机变量:第三步:引入一个随机变量:卡方统计量卡方统计量第四步:查对临界值表,作出判断。第四步:查对临界值表,作出判断。P(K K2 2x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828K210.8287.8796.6
18、355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.50(1 1)如果)如果k10.828k10.828,就有,就有99.9%99.9%的把握认为的把握认为“X X与与Y Y有关系有关系”;(2 2)如果)如果k7.879k7.879,就有,就有99.5%99.5%的把握认为的把握认为“X X与与Y Y有关系有关系”;(3 3)如果)如果k6.635k6.635,就有,就有99%99%的把握认为的把握认为“X X与与Y Y有关系有关系”;(4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%的把握认为的把握认为“X X与与Y Y有关系有关系”;(5 5)如果)如果k3.841k3.841,就有,就有95%95%的把握认为的把握认为“X X与与Y Y有关系有关系”;(6 6)如果)如果k2.706k2.706,就有,就有90%90%的把握认为的把握认为“X X与与Y Y有关系有关系”;临界值临界值方法方法总结总结:要推断“X与Y有关系”成立的可能性的方法:1、通过三维柱形图和二维条形图粗略判断两有关系个分类变量是否有关系,(1)ad-bc (2)a/a+bc/c+d 2、利用独立性检验精确判断两个分类变量是否(1)假设无关(2)求k值 (3)下结论