《应用统计学习.pptx》由会员分享,可在线阅读,更多相关《应用统计学习.pptx(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、12.假设检验的过程和思路假设检验的过程和思路 概率意义下的反证法类似于“无罪推定”总体假设总体的平均年龄是50岁拒绝样本均值是 20样本无效假设不可能!第1页/共73页2什么是假设?(hypothesis)对总体参数的具体数值所作的陈述总体参数包括总体均值、比例、方差等分析之前必需陈述我认为这种新药的疗效我认为这种新药的疗效比原有的药物更有效比原有的药物更有效!第2页/共73页3什么是假设检验?(hypothesis test)1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程2.有参数检验和非参数检验3.逻辑上运用反证法,统计上依据小概率原理第3页/共73
2、页4假设检验的基本思想.因此我们拒因此我们拒绝假设绝假设 =50=50.如果这是总如果这是总体的真实均值体的真实均值样本均值样本均值样本均值 =50=50抽样分布抽样分布抽样分布H H H0 00这个值不像我这个值不像我们应该得到的们应该得到的样本均值样本均值 .202020第4页/共73页5总体总体假设检验的过程抽取随机样本抽取随机样本均值均值 x x =20=20我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 提出假设提出假设 拒绝假设 别无选择!作出决策作出决策第5页/共73页6【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期对一台加工机床检查
3、,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和被择假设提出假设(例题分析)解解:研研究究者者想想收收集集证证据据予予以以证证明明的的假假设设应应该该是是“生生产产过过程程不不正正常常”。建立的原假设和备择假设为建立的原假设和备择假设为 H H0 0:10cm 10cm H H1 1:10cm10cm 第6页/共73页7【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检
4、验的原假设与备择假设提出假设(例题分析)解解:研研究究者者抽抽检检的的意意图图是是倾倾向向于于证证实实这这种种洗洗涤涤剂剂的的平平均均净净含含量量并并不不符符合合说说明明书书中中的的陈陈述述 。建建立立的的原原假假设设和备择假设为和备择假设为 H H0 0:500 500 H H1 1:500 500500g500g绿叶绿叶洗涤剂洗涤剂第7页/共73页8【例】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设提出假设(例题分析)解:解:研究者想收集证据予以支持的假研究者想收集证据予以支持的假设是
5、设是“该城市中家庭拥有汽车的比例该城市中家庭拥有汽车的比例超过超过30%30%”。建立的原假设和备择假设。建立的原假设和备择假设为为 H H0 0:30%30%H H1 1:30%30%第8页/共73页91.原假设和备择假设是一个完备事件组,而且相互对立在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立2.先确定备择假设,再确定原假设 3.等号“=”总是放在原假设上 4.因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)提出假设(结论与建议)第9页/共73页10双侧检验与单侧检验(假设的形式)假假设双双侧检验单侧检验单侧检验左左侧检验右右侧检验原假设原假设H0:
6、=0 0H0:0 0H0:0 0备择假设备择假设H1:0 0H1:0 0第10页/共73页11假设检验中的两类错误1.第类错误(弃真错误)原假设为真时拒绝原假设第类错误的概率记为被称为显著性水平2.第类错误(取伪错误)原假设为假时未拒绝原假设第类错误的概率记为(Beta)第11页/共73页12H H0 0:无罪无罪假设检验中的两类错误(决策结果)陪审团审判陪审团审判裁决裁决实际情况实际情况无罪无罪有罪有罪无罪无罪正确正确错误错误有罪有罪错误错误正确正确H0 检验检验决策决策实际情况实际情况H0为真为真H0为假为假未拒绝未拒绝H0正确决策正确决策(1 )第第类错类错误误(b b)拒绝拒绝H0第第
7、类错类错误误()正确决策正确决策(1-(1-b b)假设检验就好像一场审判过程假设检验就好像一场审判过程假设检验就好像一场审判过程统计检验过程统计检验过程统计检验过程第12页/共73页13和 bb 呈相反关系 降低一类错误的概率另一类错误的概率就会提高第13页/共73页14显著性水平 (significant level)1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为(alpha)常用的 值有0.01,0.05,0.104.由研究者事先确定第14页/共73页15 拒绝域和显著性水平拒绝域:原假设 H0 成立条件下,统计量落入的小概率区域。统计量真的落入拒绝域
8、你会拒绝原假设。显著性水平 :事先给定的形成拒绝域的小概率,通常 =0.01、0.05、0.10。建立拒绝域的根据是什么?根据抽样分布,统计量落入该区域的概率=。所谓检验就是选择一个拒绝域。第15页/共73页16假设检验中的小概率原理 什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定什么是小什么是小什么是小概率?概率?概率?第16页/共73页171.根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量2.对样本估计量的标准化结果原假设H0为真点估计量的抽样分布 检验统计量
9、(test statistic)3.3.标准化的检验统计量标准化的检验统计量 第17页/共73页18显著性水平和拒绝域(双侧检验)抽样分布抽样分布抽样分布0 0 0临界值临界值临界值临界值临界值临界值 /2/2 /2/2/2 样本统计量样本统计量样本统计量拒绝拒绝拒绝H HH000拒绝拒绝拒绝H HH0001-1-1-置信水平置信水平置信水平第18页/共73页19显著性水平和拒绝域(双侧检验)0 0临界值临界值临界值临界值/2/2/2/2 样本统计量样本统计量拒绝拒绝H H0 0拒绝拒绝H H0 0抽样分布抽样分布1-1-置信水平置信水平第19页/共73页20显著性水平和拒绝域(双侧检验)0
10、0临界值临界值临界值临界值/2/2/2/2 样本统计量样本统计量拒绝拒绝H H0 0拒绝拒绝H H0 0抽样分布抽样分布1-1-置信水平置信水平第20页/共73页21显著性水平和拒绝域(双侧检验)0 0临界值临界值临界值临界值/2/2/2/2 样本统计量样本统计量拒绝拒绝H H0 0拒绝拒绝H H0 0抽样分布抽样分布1-1-置信水平置信水平第21页/共73页22显著性水平和拒绝域(单侧检验)0 0临界值临界值 样本统计量样本统计量拒绝拒绝H H0 0抽样分布抽样分布1-1-置信水平置信水平第22页/共73页23显著性水平和拒绝域(左侧检验)0 0 0临界值临界值临界值 样本统计量样本统计量样
11、本统计量拒绝拒绝拒绝H HH0 00抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平观察到的样本统计量观察到的样本统计量观察到的样本统计量第23页/共73页24显著性水平和拒绝域(左侧检验)0 0 0临界值临界值临界值 样本统计量样本统计量样本统计量拒绝拒绝拒绝H HH0 00抽样分布抽样分布1-1-1-置信水平置信水平第24页/共73页25显著性水平和拒绝域(右侧检验)0 0 0临界值临界值临界值 样本统计量样本统计量样本统计量拒绝拒绝拒绝H HH0 00抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平观察到的样本统计量观察到的样本统计量观察到的样本统计量第25页/共
12、73页26显著性水平和拒绝域(右侧检验)0 0 0临界值临界值临界值 样本统计量样本统计量样本统计量抽样分布抽样分布1-1-1-置信水平置信水平拒绝拒绝拒绝H HH0 00第26页/共73页27决策规则1.给定显著性水平,查表得出相应的临界值z或z/2,t或t/22.将检验统计量的值与 水平的临界值进行比较3.作出决策双侧检验:|统计量|临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0第27页/共73页28什么是P 值?(P-value)1.在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率双侧检验为分布中两侧面积的总和2.反映实际观测到的数据与原假设H0之间不一致的程度3.被
13、称为观察到的(或实测的)显著性水平4.决策规则:若p值,拒绝 H0第28页/共73页29双侧检验的P 值 /2 2 /2 2 Z Z拒绝拒绝H H0 0拒绝拒绝H H0 00 0 0临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 P P 值值1/2 1/2 P P 值值第29页/共73页30左侧检验的P 值0 0 0临界值临界值临界值 样本统计量样本统计量样本统计量拒绝拒绝拒绝H HH0 00抽样分布抽样分布1-1-1-置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本
14、统计量P P 值值第30页/共73页31右侧检验的P 值0 0 0临界值临界值临界值 拒绝拒绝拒绝H HH0 00抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量P P 值值第31页/共73页32假设检验步骤的总结1.陈述原假设和备择假设2.从所研究的总体中抽出一个随机样本3.确定一个适当的检验统计量,并利用样本数据算出其具体数值4.确定一个适当的显著性水平,并计算出其临界值,指定拒绝域5.将统计量的值与临界值进行比较,作出决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策第32页/共73页33一个总体
15、参数的检验z 检验检验(单尾和双尾单尾和双尾)t 检验检验(单尾和双尾单尾和双尾)z 检验检验(单尾和双尾单尾和双尾)2 2 检验检验(单尾和双尾单尾和双尾)均值均值一个总体一个总体比例比例方差方差第33页/共73页34总体均值的检验(作出判断)是否已知小小小样本容量n大大大 是否已知否否否 t 检验检验否否否z 检验检验是是是z 检验检验 是是是z 检验检验第34页/共73页35总体均值的检验(2 已知)(例题分析)【例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为2
16、55.8ml。取显著性水平=0.05,检验该天生产的饮料容量是否符合标准要求?双侧检验双侧检验绿色绿色健康饮品健康饮品绿色绿色健康饮品健康饮品255255255255255255第35页/共73页36总体均值的检验(2 已知)(例题分析)H0:=255H1:255 =0.05n=40临界值(c):检验统计量检验统计量:z z0 01.961.96-1.96-1.960.0250.025拒绝拒绝 H H0 0拒绝拒绝 H H0 00.0250.025决策决策:结论结论:不拒绝不拒绝H H0 0样样本本提提供供的的证证据据还还不不足足以以推推翻翻“该该天天生生产产的的饮饮料料符符合合标标准准要要求
17、求”的看法的看法第36页/共73页37总体均值的检验(z检验)(P 值的计算与应用)第 1步:进 入 Excel表 格 界 面,直 接 点 击“f(x)”(粘贴函数)第2步:在函数分类中点击“统计”,并在函数名的菜单下选择“NORMSDIST”,然后确定第3步:将 z 的绝对值1.01录入,得到的函数值为0.843752345 P值=2(1-0.843752345)=0.312495 P值远远大于,故不拒绝H0第37页/共73页38总体均值的检验(2 未知)(例题分析)【例】一种机床加工的零件尺 寸 绝 对 平 均 误 差 为1.35mm。生产厂家现采用一种新的机床进行加工以期进一步降低误差。
18、为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低?(=0.01)左侧检验左侧检验50个零件尺寸的误差数据个零件尺寸的误差数据(mm)1.261.191.310.971.811.130.961.061.000.940.981.101.121.031.161.121.120.951.021.131.230.741.500.500.590.991.451.241.012.031.981.970.911.221.061.111.541.081.101.641.702.371
19、.381.601.261.171.121.230.820.86第38页/共73页39总体均值的检验(2 未知)(例题分析)H0:1.35H1:1.35 =0.01n=50临界值(c):检验统计量检验统计量:拒绝拒绝H H0 0新新机机床床加加工工的的零零件件尺尺寸寸的的平平均均误误差与旧机床相比有显著降低差与旧机床相比有显著降低决策决策:结论结论:-2.33-2.33z z0 0拒绝拒绝H H0 00.010.01第39页/共73页40总体均值的检验(z检验)(P 值的计算与应用)第1步:进入Excel表格界面,直接点击“f(x)”(粘贴 函数)第2步:在函数分类中点击“统计”,并在函数名的
20、菜单下选择“ZTEST”,然后确定第3步:在所出现的对话框Array框中,输入原始数据所在区 域;在X后输入参数的某一假定值(这里为1.35);在 Sigma后输入已知的总体标准差(若未总体标准差未 知则可忽略不填,系统将自动使用样本标准差代替)第4步:用1减去得到的函数值0.995421023 即为P值 P值=1-0.995421023=0.004579 P值 5200 =0.05n=36临界值(c):检验统计量检验统计量:拒绝拒绝H H0 0(P P=0.000088 0.000088 =0.05)=0.05)改良后的新品种产量有显著提高改良后的新品种产量有显著提高 决策决策:结论结论:z
21、 z0 0拒绝拒绝H H0 00.050.051.6451.645第43页/共73页44总体均值的检验(z检验)(P 值的图示)抽样分布抽样分布抽样分布P P P=0.000088 0.000088 0.000088 0 0 01.6451.6451.645 0.050.050.05拒绝拒绝拒绝H HH0 001-1-1-计算出的样本统计量计算出的样本统计量计算出的样本统计量=3.75=3.75=3.75P P P 值值值第44页/共73页452.2.总体均值的单边(单尾)检验 H H0 0:0 0 或 H H0 0:0 01)是否对Hilltop咖啡投诉?联邦贸易委员会(FTCFTC)意欲对
22、大瓶HilltopHilltop咖啡进行检查,以确定是否符合其标签上注明的“容量至少是3 3磅”的说法,并由此决定是否因为包装重量的不足而对其提出投诉。假设检验问题 H0:3 3 H1:3.3.给定显著水平=0.05=0.05,给出一个检验方法。请你说出该显著水平在这一问题中有什么实际意义?第45页/共73页46总体均值的检验(大样本检验方法的总结)假设假设双侧检验双侧检验左左侧检验右右侧检验假设形式假设形式H0:=0H1:0H0:0H1:0统计量统计量 已知:未知:拒绝域拒绝域P值决策值决策拒绝H0第46页/共73页47总体均值的检验(小样本)1.假定条件总体服从正态分布小样本(n 30)2
23、.检验统计量 2 已知:2 未知:第47页/共73页48总体均值的检验(小样本检验方法的总结)假设假设双侧检验双侧检验左左侧检验右右侧检验假设形式假设形式H0:=0H1:0H0:0H1:0统计量统计量 已知:未知:拒绝域拒绝域P值决策值决策拒绝H0注:注:已知的拒绝域同大样本已知的拒绝域同大样本第48页/共73页49总体均值的检验(例题分析)【例】一种汽车配件的平均长度要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从
24、正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求?10个零件尺寸的长度个零件尺寸的长度(cm)12.210.812.011.811.912.411.312.212.012.3第49页/共73页50总体均值的检验(例题分析)H0:=12H1:12 =0.05df=10-1=9临界值(c):检验统计量检验统计量:不拒绝不拒绝H H0 0样样本本提提供供的的证证据据还还不不足足以以推推翻翻“该该供供货货商商提提供供的的零零件件符符合合要要求求”的看法的看法决策:决策:结论:结论:t t0 02.2622.262-2.262-2.2620.0250.025拒绝拒绝 H H0 0拒
25、绝拒绝 H H0 00.0250.025第50页/共73页51总体均值的检验(t 检验)(P 值的计算与应用)第1步:进入Excel表格界面,直接点击“f(x)”(粘贴 函数)第2步:在函数分类中点击“统计”,并在函数名的 菜单下选择“TDIST”,然后确定第3步:在出现对话框的X栏中输入计算出的t的绝对值 0.7035,在Deg-freedom(自由度)栏中输入 本例的自由度9,在Tails栏中输入2(表明是双 侧检验,如果是单测检验则在该栏输入1)第4步:P值=0.499537958 P值=0.05,故不拒绝H0 第51页/共73页52三、总体比率的检验三、总体比率的检验 1.总体比率单边
26、检验 H0:p p0 或 H0:p p0例:Pine Greek高尔夫球场的性别比率问题。400个运动者中100个女性,能否认为女性比率比过去的20%增加了?解 H0:p 0.20,H1:p0.20;拒绝域的形状:第52页/共73页53 当=0.05时,拒绝域为你的结论?你的结论?=0.250.2329 拒绝拒绝 H0利用大样本下样本比率的抽样分布得到拒绝域为:利用大样本下样本比率的抽样分布得到拒绝域为:第53页/共73页542.2.总体比率的双边检验 给定显著性水平,大样本情况下你能写出相应的拒绝域吗?第54页/共73页55总体比例的检验(检验方法的总结)假设假设双侧检验双侧检验左左侧检验右
27、右侧检验假设形式假设形式H0:=0H1:0H0:0H1:0统计量统计量拒绝域拒绝域P值决策值决策拒绝H0第55页/共73页56总体比例的检验(例题分析)【例】一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取 显 著 性 水 平 =0.05和=0.01,检验该杂志读者群中女性的比例是否为80%?它们的值各是多少?双侧检验双侧检验第56页/共73页57总体比例的检验(例题分析)H0:=80%H1:80%=0.05n=200临界值(c):检验统计量检验统计量:拒绝拒绝H H0 0
28、(P P=0.013328 0.013328 0.013328 =0.01)=0.01)样样本本提提供供的的证证据据还还不不足足以以推推翻翻“该该杂杂志志声声称称读读者者群群中中有有80%80%为为女女性性”的看法的看法 决策决策:结论结论:z z0 02.582.58-2.58-2.580.0250.025拒绝拒绝 H H0 0拒绝拒绝 H H0 00.0250.025第58页/共73页59总体方差的检验(2检验)1.检验一个总体的方差或标准差2.假设总体近似服从正态分布3.使用 2分布4.检验统计量样本方差样本方差假设的总体方差假设的总体方差第59页/共73页60总体方差的检验(检验方法的
29、总结)假设假设双侧检验双侧检验左左侧检验右右侧检验假设形式假设形式H0:2=02 H1:2 02H0:2 02 H1:2 02统计量统计量拒绝域拒绝域P值决策值决策 拒绝H0第60页/共73页61总体方差的检验(例题分析)【例】啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640ml,但由于受某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样很重要。如果方差很大,会出现装填量太多或太少的情况,这样要么生产企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验,得到的样本标准差
30、为s=3.8ml。试以0.10的显著性水平检验装填量的标准差是否符合要求?朝日朝日BEERBEERBEERBEER朝日朝日朝日BEERBEERBEERBEER朝日朝日BEERBEER朝日朝日第61页/共73页62总体方差的检验(例题分析)H0:2=42H1:2 42 =0.10df=10-1=9临界值(s):统计量统计量:不拒绝不拒绝H H0 0样样本本提提供供的的证证据据还还不不足足以以推推翻翻“装装填填量量的的标标准准差差否否符符合合要要求求”的的看法看法 2 2 20 0 016.919016.919016.91903.325113.325113.32511 /2=0.05/2=0.05
31、/2=0.05决策决策:结论结论:第62页/共73页63四、整理假设检验的思路四、整理假设检验的思路1.假设检验的过程1)确定适当的原假设和备择假设;2)选择检验统计量;3)指定显著水平,即“允许犯第一类错误的最大概率”;4)根据显著水平和统计量的抽样分布来确定统计量的临界值,从而确定拒绝域;5)根据样本计算统计量的值并与临界值比较看是否落入拒绝域;6)得出结论。第63页/共73页642.2.原假设H0和备择假设H1的选定 1)假设检验是概率意义下的反证法,根据N-P原则,否定H0(即肯定H1)把握更大,犯错误只是事先控制的小概率,所以把希望得到的结果做为备择假设.2)把可能被推翻的标准、宣示
32、、结论做为原假设,因此带“=”的标志(、=、)置于H0.3)把比较保守的论断置于H1。4)原假设和备择假设的地位不对等,内容不能互换:H0:H1:拒绝域:c0 H0:H1:拒绝域:c0 第64页/共73页65原假设H0和备择假设H1的选定(续)5)如果统计量值 ,不必检验 H0:,因为一定不在拒绝域;同理如果统计量值 ,不必检验 H0:。6)如果实际问题要求,不否定H0 就必须肯定H0:则只有增大 值,=0.10、甚至=0.25 都不能否定H0,才接受 H0.第65页/共73页663.显著水平 与拒绝域 H0:3 H1:3H0:3 H1:3 /2拒绝域 临界值第66页/共73页674.4.置信
33、区间和双边检验总体均值的95%置信区间是什么?它和双边检验的拒绝域有什么关系?启示-通过置信区间进行双边检验:找出的95%置信区间为 ()。做双边检验 H0:=0 时,如果0落入上述置信区间,则相当于没有落入显著性水平=0.05 的拒绝域,从而没有 充分的理由否定H0。相反,如果0落入上述置信区间之外,则相当于落入拒绝域,从而以显著性水平=0.05 否定H0。第67页/共73页685.单个总体检验小结假设检验的基本思路和概念均值的双边单边检验比率的双边单边检验双边检验和区间估计的关系第68页/共73页69更多的例子Ford Taurus 宣称在高速路上行驶的油耗为30英里/加仑。一个保护消费者利益的小组对汽车进行检验。从的50次高速路行驶组成的样本中,得到样本平均为29.5英里/加仑,样本标准差为1.8英里/加仑。取显著性水平0.01,得出你的结论。第69页/共73页70第70页/共73页711一个快餐店决定计划实施一次特殊供应,使顾客能购买到专门印有著名卡通人物的杯装饮料。如果有超过15%的消费者购买这种饮料,则认为可以推行这种特殊供应。在某些地方已经进行的初步试验表明,500名消费者有88名购买了这种杯装饮料。是否应推行这种特殊杯装饮料?当显著性水平为0.01时,得出你的建议。第71页/共73页72第72页/共73页73感谢您的观看!第73页/共73页