《《管理统计学》马庆国著-部分2参数假设检验.ppt》由会员分享,可在线阅读,更多相关《《管理统计学》马庆国著-部分2参数假设检验.ppt(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、什么是什么是“假设检验假设检验” 处理处理“可信度可信度”的基本概念的基本概念 判断样本统计量值与总体判断样本统计量值与总体(参数参数)假设值之间是否存在可假设值之间是否存在可以观察到的差值,以及这种差值在统计上是否明显以观察到的差值,以及这种差值在统计上是否明显. 可以观察到的差值可以观察到的差值 由于随机原因由于随机原因 存在实质性的差别存在实质性的差别 5.1 假设检验的概念假设检验的概念 假设检验可分为:参数假设检验和非参数假设检验。假设检验可分为:参数假设检验和非参数假设检验。1、参数假设检验:、参数假设检验: 已知总体分布,猜出总体的某个参数(假设已知总体分布,猜出总体的某个参数(
2、假设H0),用一组),用一组样本来检验这个假设是否正确(是接受还是拒绝样本来检验这个假设是否正确(是接受还是拒绝H0 )。)。2、非参数假设检验:、非参数假设检验: 猜出总体分布(假设猜出总体分布(假设H0),用一组样本来检验这个假设是),用一组样本来检验这个假设是否正确(是接受还是拒绝否正确(是接受还是拒绝H0 )。)。 在检验中,我们通常设法保证在检验中,我们通常设法保证“弃真弃真”(以真为假)的错(以真为假)的错误的概率误的概率 很小,也就是概率很小,也就是概率 P拒绝拒绝H0 | H0为真为真很小。这是很小。这是我们在假设检验时,分析问题的主线。我们在假设检验时,分析问题的主线。原假设
3、原假设 (H0) 对被研究的总体参数做试探性的假设对被研究的总体参数做试探性的假设 备择假设备择假设 (HA) 原假设原假设(H0)的对立面的对立面 H0 和和 HA 是两个对抗性陈述是两个对抗性陈述 - 被观察的样本数据只能支被观察的样本数据只能支持其中一个陈述持其中一个陈述 . 000 :. : AHvsH双尾双尾 000 :. : AHvsH左侧尾部左侧尾部 000 :. : AHvsH右侧尾部右侧尾部 一个电灯泡生产商想生产平均寿命为一个电灯泡生产商想生产平均寿命为1,000小时的灯泡,如小时的灯泡,如果灯泡寿命太短,他就会失去客户;如果灯泡寿命太长,生果灯泡寿命太短,他就会失去客户;
4、如果灯泡寿命太长,生产成本则会上升。为此,他从灯泡中抽取了一个样本来观察产成本则会上升。为此,他从灯泡中抽取了一个样本来观察其平均寿命是否可以达到其平均寿命是否可以达到1,000小时。请构造小时。请构造H0 和和 HA。 H0 : = 1,000HA : 1,000一名销售经理要求其销售人员将每天的交通费用控制在一名销售经理要求其销售人员将每天的交通费用控制在100元之内,为此,他从日常交通费用中抽取了一个样本来检查元之内,为此,他从日常交通费用中抽取了一个样本来检查是否将有关费用控制在规定的范围内。请构造原假设和备择是否将有关费用控制在规定的范围内。请构造原假设和备择假设。假设。 H0 :
5、100HA : 100 统计意义上的“对”与“不对”,就有可能犯错误。 当我们认为参数的某个假设 H0 正确时(接受假设H0时), 有可能假设 H0 本身是错误的,而我们把它当作正确的,称犯了第二类错误(“存伪”的错误),我们应当保证犯这种错误的概率很小,也就是概率=P接受接受H0 | H0为假为假很小。很小。反之,当我们拒绝假设H0 时,也可能犯“以真为假”的错误(“弃真”的错误),称为犯第一类错误。当然,我们也希望所犯的“以真为假”错误的概率很小,也就是 =P拒绝拒绝H0 | H0为真为真很小。很小。 实实际际情情况况 H0 为为真真 H0 为为假假 结结论论 接接受受 H0 第第 II
6、类类错错误误 拒拒绝绝 H0 第第 I 类类错错误误 =第第I类错误的概率类错误的概率 = Pr拒绝拒绝 H0 | H0 为真为真 显著水平显著水平 =第第II类错误的概率类错误的概率 = Pr接受接受 H0 | H0 为假为假 与与 之间的关系之间的关系 与与 之间具有反向关系之间具有反向关系 当进行假设检验时,必须预先确定当进行假设检验时,必须预先确定 与与 哪个更重要哪个更重要 为了防止错误拒绝为了防止错误拒绝 H0 尽量减少拒绝尽量减少拒绝H0 的机率的机率 降低降低 ,提高,提高 为了防止错误接受为了防止错误接受H0 尽量减少接受尽量减少接受H0 的机率的机率 提高提高 ,降低,降低
7、 测试一座桥梁是否可以安全地承受测试一座桥梁是否可以安全地承受至少至少50吨的运输量吨的运输量 a)你是想犯第你是想犯第I 类错误还是第类错误还是第II类错误?类错误? b)你是采用较低的显著水平还是较高的显著水平?你是采用较低的显著水平还是较高的显著水平? H0 : 50而而HA : 显著水平显著水平 ( )接受接受 H0p值值 100n = 36, = 3, 而且而且 = 101, 利用利用Z分布分布X5 . 0363 X 检验统计量检验统计量 25 . 01001010 XXZ 临界区域临界区域99 %的面积的面积 = 0.01CV = 2.325ZTS = 2.0右侧尾部检验右侧尾部检
8、验 , = 0.01临界值临界值 = 2.325325. 201. 0 ZZ 检验统计量落在临界区域之外检验统计量落在临界区域之外 接受接受 H0数据显示:当显著水平数据显示:当显著水平 = 0.01时,每包药品的剂量不大时,每包药品的剂量不大 例:已知生产线上生产出来的零件直径服从正态分布,已知方差为0.09(毫米2) , 现有假设 H0 : =10(毫米毫米). 这个假设可以是生产标准的要求. 现有一组样本观测值: 10.01, 10.02, 10.02, 9.99 (在实际问题样本容量大些更好). 请判断这批零件的平均直径 =10(毫米毫米)是否正确是否正确.解解: 首先设首先设: 原假
9、设原假设H0 : =10(毫米毫米) 备择假设备择假设H1 :10(毫米毫米) 其次其次: 构造一个构造一个统计量, 要满足: a. 其分布和参数已知; b . 在已知条件下, 能算出这个 统计量. 构造构造统计量为:)1 ,0( NnXZ设原假设H0成立, 如果原假设H0是正确的, 我们希望拒绝H0(犯错误)的概率很小, 也就是 P( |Z| k ) = 很小. 称为显著性水平./2/2-kk算得该 z =0.067, (取=0.05 )小于 k= z 0.025=1.96, 所以不应当拒绝假设H0 : =10(毫米毫米). 未知未知 大样本大样本 无论无论X服从什么分布,当样本容量服从什么
10、分布,当样本容量 n 30时,可以用样时,可以用样本标准差本标准差s来估计未知标准差来估计未知标准差 nssXX XX 近似服从以下参数的正态分布近似服从以下参数的正态分布)1 , 0( NsXZX 检验统计量检验统计量 一家大型电子商店的信贷经理说,该商店赊购帐户上的平均余额一家大型电子商店的信贷经理说,该商店赊购帐户上的平均余额为为575元。一名审计人员随机抽取了元。一名审计人员随机抽取了33名顾客作为一个样本,结果名顾客作为一个样本,结果发现赊购帐户上的平均余额为发现赊购帐户上的平均余额为518.5元、标准差为元、标准差为181元。如果信元。如果信贷经理的陈述得不到数据支持,审计人员将检
11、查所有的赊购帐户。贷经理的陈述得不到数据支持,审计人员将检查所有的赊购帐户。请问当请问当 = 0.05时,审计人员应当采取什么行动?时,审计人员应当采取什么行动? H0 : = $575 而而 HA : $575n = 33, = 518.5, s = 181, 而且而且 利用利用 Z分布分布X51.3133181 Xs /2 = 0.025Z95%的面积的面积 /2 = 0.025CV = 1.96CV = 1.96TS = 1.79检验统计量检验统计量 79. 15 .315755 .5180 XsXZ 双尾检验双尾检验 , = 0.05临界临界 值值= 1.9696. 1025. 02
12、ZZ 检验统计量落在临界区域之外检验统计量落在临界区域之外 接受接受 H0当当 = 0.05时,数据看来支持信贷经理的陈述时,数据看来支持信贷经理的陈述 审计人员无审计人员无需审查所有的赊购帐户需审查所有的赊购帐户 。未知未知 小样本小样本 X的分布是正态分布或接近正态分布的分布是正态分布或接近正态分布 当样本容量当样本容量 n 30时,可以用样本标准差时,可以用样本标准差s来估计未知标来估计未知标准差准差 nssXX XX 近似服从自由度为近似服从自由度为n 1的的t分布分布 1 nXtsXt 检验统计量检验统计量 而且而且当地一家体育馆新上任的经理被他的前任告知:会员资格的平均当地一家体育
13、馆新上任的经理被他的前任告知:会员资格的平均年限为年限为8.7年。为此,他随机抽取了年。为此,他随机抽取了15份会员文件,结果发现会员份会员文件,结果发现会员资格的平均年限为资格的平均年限为7.2年,标准差为年,标准差为2.5年。假设这家体育馆的会年。假设这家体育馆的会员资格年限近似服从正态分布。当显著水平员资格年限近似服从正态分布。当显著水平 = 0.05时,样本结时,样本结果是否表明这家体育馆的实际会员资格年限小于果是否表明这家体育馆的实际会员资格年限小于8.7年?年? H0 : 8.7 而而 HA : 8.7n = 15, = 7.2, s = 2.5, 而且而且 利用利用 t14分布分
14、布 X6455. 0155 . 2 Xs检验统计量检验统计量 左侧尾部左侧尾部检验检验 , = 0.05临界临界 值值= 1.761761. 105. 0 ,14, 1 ttn 检验统计量落在临界区域之内检验统计量落在临界区域之内 拒绝拒绝 H0数据显示:当显著水平数据显示:当显著水平 = 0.05时,这家体育馆会员资格的平时,这家体育馆会员资格的平均年限明显小于均年限明显小于8.7年年 32. 26455. 07 . 82 . 70 XsXt 95%的面积的面积 = 0.05CV = 1.761t14TS = 2.32CR例:已知生产线上生产出来的零件直径服从正态分布,现有假设 H0 : =
15、10(毫米毫米). 这个假设可以是生产标准的要求. 现有一组样本观测值: 10.01, 10.02, 10.02, 9.99 (在实际问题样本容量大些更好). 请判断假设H0 : =10(毫米毫米)是否正确是否正确.解解: 首先设首先设: 原假设原假设H0 : =10(毫米毫米) 备择假设备择假设H1 :10(毫米毫米) 其次其次: 构造一个构造一个统计量, 也要满足: a. 其分布和参数已知; b . 在已知条件下, 能算出这个 统计量. 构造构造统计量为: )1(ntnSXTt由 P( |T| t0.025 ) = , 取=0.05. 算得 |t | =1.414, t0.025 =3.1
16、82. 有|t | 0 (这是作为备择假(这是作为备择假设出现)设出现)例:已知生产线上生产出来的零件抗剪强度服从服从正态分布,以往的数据表明抗剪强度的均值 0 =10(毫米毫米). 现在改用一种新材料来生产该零件,得到一组零件的抗剪强度的样本观测值: 10.01, 10.02, 10.02, 9.99. 请问:改用新材料后,零件的平均抗剪强度是否提高?/2/2解解: 首先作原假设首先作原假设H0 : = 0 =10(毫米毫米) 备择假设备择假设H1 : 10(毫米毫米) 其次其次: 构造一个构造一个统计量, 也要满足: a. 其分布和参数已知; b . 在已知条件下, 能算出这个 统计量.
17、构造构造统计量为:)1(ntnSXT由 P( T t0.05 ) = , 取=0.05. 算得 t0.05 =2.3534由样本点算得 t =14.14. 有 t t0.025. 所以接受备择假设. 零件的抗剪强度得到提高了. 5、关于正态总体的关于正态总体的方差方差 2的检验的检验关于正态总体的假设检验,分为如下两种情况:关于正态总体的假设检验,分为如下两种情况: (1)未知均值)未知均值 ,假设,假设H0 : 2 = 02 ,通过样本观测值,通过样本观测值 x1,x2,xn , 检验检验H0 是否成立;是否成立; (2)未知均值未知均值 ,假设,假设H0 : 2 02 (反之亦然),通(反
18、之亦然),通过样本观测值过样本观测值 x1,x2,xn , 检验检验H0 是否成立。是否成立。 第一种情况:第一种情况: 未知均值未知均值 ,检验假设,检验假设H0 : 2 = 02 是否成立;是否成立; 例:已知生产线上生产出来的零件直径服从正态分布,长期以来直径的根方差 = 0.3, 现材质改进, 抽出20个样本, (这里只给出20个样本的方差s2 = 0.16).请判断该生产线的方差是否改变?解解: 首先作原假设首先作原假设H0 :总体方差:总体方差 2 = 02 =0.09 备择假设备择假设H1 :总体方差:总体方差 2 02 =0.09 其次其次: 构造一个构造一个统计量, 也要满足
19、: a. 其分布和参数已知; b . 在已知条件下, 能算出这个 统计量. 构造构造统计量为:)1()1(22022nSn在原假设下, 由 P( 2 2/2 ) = /2 或 P( 2 21-/2 ) = /2 取 = 0.05, 算得 20.025 (19) = 32.9, 20.975 (19) = 8.91, 2 =33.7778. 有 2 20.025 (19) = 32.9. 所以拒绝原假设, 接受备择假设.生产线的方差有改变. (犯错误的概率只有0.05)第二种情况:第二种情况: 未值均值未值均值 ,检验假设,检验假设 : 2 02 是否成立;是否成立; 例:已知生产线上生产出来的
20、零件直径服从正态分布,长期以来直径的根方差 = 0.3, 现材质改进, 抽出9个样本, (这里只给出20个样本的方差 s2 = 0.352).请判断该生产线的方差是否会小于0.09 ? 解解: 作原假设作原假设H0 :总体方差:总体方差 2 02 =0.09 备择假设备择假设H1 :总体方差:总体方差 2 02 =0.09 这是单尾检验问题这是单尾检验问题, (且是左侧单尾问题且是左侧单尾问题) 仍构造仍构造统计量为:)1()1(22022nSn取 = 0.05, 由 P( 2 21- ) = =0.05 , 算得 2 =10.8889, 查表得 20.95 (8) = 15.5, 有 2 =
21、10.8889 20.95 (8) = 15.5. 所以拒绝原假设, 接受备择假设. 总体方差 2 0.25 (回答者依据知识选择答案回答者依据知识选择答案, 聘用聘用) 这是单侧检验问题这是单侧检验问题, 任意一个应聘者回答任意一个应聘者回答10个问题个问题,相当相当于从总体于从总体 B(1, p) 分布中抽出分布中抽出10个样本个样本X1, X2,X10, 进而得进而得到均值函数到均值函数X. 但我们不知道统计量但我们不知道统计量X的分布形式的分布形式, 所以不所以不 能直接用能直接用 X 做统计检验做统计检验. 但知道统计量但知道统计量 Y= X1+X2+ X10的分布的分布, 即即 Y
22、服从服从 二项分布二项分布B (n, p), n=10, 并该统计量中含并该统计量中含有要检验的参数有要检验的参数 p, 因此因此, 我们可以用统计量我们可以用统计量 Y 来做参数的来做参数的检验问题检验问题. 这里这里, Y的含义就是的含义就是(某应聘者某应聘者)答对题目的个数答对题目的个数. 设设 r 是是Y的观测值的观测值. 当正确回答题目的个数当正确回答题目的个数 r 大于等于阀值大于等于阀值 k 时时, 就就拒绝原假设拒绝原假设H0 , 认为某应答者的正确比例大于认为某应答者的正确比例大于 0.25 的假设的假设(即不是随机猜出的即不是随机猜出的). 如果在某个如果在某个 r 大于等
23、于大于等于 k 时就拒绝时就拒绝H0 ,那么在回答正确的题目数为那么在回答正确的题目数为 r +1, r +2, ,时时, 也应当拒绝也应当拒绝H0.于是应有于是应有:rkkrP )(的所有大于等于答对的题目数式中式中, k是拒绝是拒绝H0的答对的最少题目数的答对的最少题目数. 取取 k = 6 时时, 由所有大于等于由所有大于等于k 的的 r 计算出的概率之和为计算出的概率之和为0.0197 = 0.05. 一个一个B(1, p)总体的小样本比例值总体的小样本比例值 p 的检验问题的检验问题 有关某类个体在总体中的比例问题,本质上是用B(1,p)分布的样本X1,X2,, Xn 来检验均值 p
24、 和先验值p0的关系问题。 统计量 X 的均值和方差是已值的,但是不知道X的分布形式,所以不能直接用均值函数做假设检验。 统计量 Y = X1+X2+ Xn的分布,是二项分布B(1,p),完全已知的,并且包含要检验的参数 p,所以可以用统计量 Y 来作为假设检验。所以, 拒绝H0 , 认为回答者不是猜的,是靠知识回答的,可以及格, 此时犯错误(本来是猜的,结果猜对了6道题以上)的概率最大只是5%的可能. 首先做零假设首先做零假设H0 :p=p0,备择假设备择假设H1 : p p0 设设k是拒绝是拒绝H0的阀值的阀值(Y k 就拒绝就拒绝H0), k的外侧概率为的外侧概率为 , 也就是也就是 P
25、(Y k) = ,用用Y的概率计算公式的概率计算公式 (二项分布的概率计算公式二项分布的概率计算公式), 把大于把大于等于等于 k 的的 Y 概率都加起来概率都加起来, 这个概率和应当小于等于这个概率和应当小于等于 . 其中其中:rnrrnppCkrYp)1 ()(所以, 从Y= r = n的概率开始, 加 Y = r = n-1的概率,直到其概率的和要超过为 为止为止, 此时的此时的 r-1 就是就是k(拒绝拒绝H0 的阀值的阀值). 2. 一个一个0-1总体的大样本比例值的参数检验总体的大样本比例值的参数检验例: 一个卖男士衬衣的邮购店, 从过去的经验中总结出有15%的购买者说衬衣的大小不
26、合身,要求退货. 现在这家邮购店改进了邮购定单的设计, 结果在接下来出售的500件衬衣中, 有60件要求退货. 问: 在 5% 的 水平上, 改进后的退货的比例 与原来的退货比例有无显著性差异?分析: 对每个购买者而言, 买来的衬衣只有两种可能的情况: 合身, 不合身. 按照过去经验, 不合身的概率为15%, 此时随机变量 X = 1; 合身的概率是 0.85, 此时 X = 0. 从总体角度看, 即总体服从0-1分布 B(1, p)中 p = 15%. 于是由500个随机样本X1, X2,X500 构成的统计量 Y = X1+X2+ X500 服从二项分布 B (500, p). 根据题目,
27、 可以模仿上题来解决. 但现在的样本观测值是x1,x2,xn ,n=500, 由于n 很大, 且np=500 0.15=7510, 已足够大, 故根据中心极限定理, 样本均值 X 服从正态分布: , x = p, 2x= p(1-p)/n. 从已知得到不合身的比例 (退货的比例) 为 x =60/500, 即 . 统计量 X 符合做假设检验条件(分布已知, 含参数), 于是设: 原假设原假设H0 :p = 0.15 备择假设备择假设H1 :P 0.15 取显著性水平取显著性水平 = 0.05 (是一个单侧检验问题是一个单侧检验问题).%12 p),(2XXNX875. 1016. 003. 0
28、 ,016. 0)1 (XXppznpp算得查表, z =1.645, 由由 z 22 未知两个总体的方差 12 , 22, 但知道 12 = 22, 检验假设H0 : 1= 2 (4) 未知两个总体的方差 12 , 22, 但知道 12 22, 检验假设H0 : 1= 2 于是, 检验的顺序是: 当 1, 2, 12 , 22均未知时, 先做 (1) ,即 检验 12 = 22成立否? 若证实 12 = 22, 再做(3), 检验假设H0 : 1 = 2成立否? 若不能证实 12 22, 再做(4), 检验假设H0 : 1 = 2成立否? 对第(1)与第(2)个问题而言, 显然应当用 F 统
29、计量来检验:22222121/SSF 服从 F (n-1, m-1)分布1. 对问题 (1): 未知两个总体的均值1, 2 , 检验假设H0 : 12 = 22 , H1 : 12 22 由于假设H0是总体方差 12 = 22 , 所以,F统计量可以简化为:F = S12/S22 服从 F(n-1,m-1)分布。备择假设H1为: 12 22,这是一个双尾检验。(注意:F分布是非对称的)所以,检验分析式为:222/12/fFPfFp根据观测值,计算出F的观测值 f 值,与查表值f/2与f1-/2比较,就行了。(注意:如果查表时查不到f1-/2 ,就应用f1-/2 =1/ f/2来计算。)2. 对
30、问题 (2): 未知两个总体的均值 1, 2 , 检验备择假设H1 :总体方差:总体方差 12 22 由于备择假设是由于备择假设是H1 : 12 22 , 所以这是一个单尾检验所以这是一个单尾检验问题问题. 此时此时, H0 仍设定为仍设定为 12 = 22 , 以便利用统计量以便利用统计量 :F = S12/S22 . 拒绝 H0 而接受 H1 的表达式为: PF f= 根据观测值,计算出 F的观测值 f 值,与查表值f比较,就行了。3. 对问题 (3): 未知两个总体方差方差 12 , 22, 但知道但知道 12 = 22,检验假设H0 :1= 2 由于已知由于已知 12 = 22 , 要
31、检验的零假设要检验的零假设H0是是 1= 2 (此时的此时的备择假设是备择假设是1 2 ), 为此为此 12 = 22条件下引入一个新的条件下引入一个新的 T 统计量统计量:mnmnSmSnYXT112) 1() 1()()(222121服从 t (m+n-2).式中, n 是总体X的样本数, m是总体Y的样本数.由于零假设是 1= 2 , 所以式中分子第二项为零, 于是根据样本值: x1, x2,xn 与y1,y2,ym . 可计算出 t 统计量值:mnmnsmsnyxt112)1()1()(2221然后比较 t 与 t0.025 (若取 = 0.05) . 若| t | t0.025 ,
32、则拒绝 H0 , 若| t | 0等等 )后, 就可以依据两组样本观测值做相应的假设检验了. 例. 有一个奶酪进口商是靠直接邮寄广告来销售产品的. 在开发圣诞节的广告小册中时, 进口商设计了两个根本不同的方案, 为了想知道方案 1 是否比方案 2 更好, 该进口商从它的客户名单中随机地抽取了样本进行实验, 结果如表:抽样结果定单数样本数样本比例方案 2方案 1 n1 =400 r1 =100 x = r1 / n1 =0.25 n2 = 200 r1 = 44y = r2 / n2 =0.22对于每个接到定单的消费者而言, 只有“买” 或 “不买 ” 两种可能的情况. 对于第一组样本而言, 购
33、买的客户的样本比例为 25%, 即 x = 25%. 对于第二组样本而言, 购买的客户的样本比例为 22%, 即 y = 22%. 按照上节分析, 此问题的解法是 H0 : p1 - p2 = 0 H1 : p1 p2 按照上节公式, 可以计算出:037.0)1()1(24.0212121nnnnrryx从而算出:81.0037.0022.025.0)()(21 yxppyxz在 =0.05 的水平上, z 1.645, 即 z (= 0.05) 接受接受 H0 一一 个个 样样 本本 的的 检检 验验-.103 14 .870 -.1267 -2.7691 2.515价 格t df Sig.
34、 均 值偏差 下限 上限 95% 置 信 水 平下的Confidence 偏差 e Test Value = 一一 个个 样样 本本 的的 统统 计计 量量15 29.8734.7711 1.231价 格N 均 值标准差均 值 的 标准差 n 检验统计量检验统计量 p值值 类型数据分析类型数据分析 目的:本讲结束后,学生们应能够: 将类型数据整理为列联表 解释卡方分布的性质 运用卡方分布进行同质性检验 运用卡方分布进行独立性检验 解释卡方检验的SPSS输出结果 列联表 交叉列联表所讲述的内容 总体之间的同质性 两个变量之间的独立性 将统计学运用于具体情形 SPSS发挥的作用 收集抽样单位特征或
35、特点方面的资料整理 数据以反映每种类型的计数情况 与“类型”有联系的观察值被称为类型数据 CF(商业广告片)在电视上播放之前,通常要经过检验和修改。一名软饮料生产商想在电视上播放一个新的商业广告片。他为这个广告制作了两个版本,即CF-A和CF-B。这名生产商想对广告片的两个版本进行初步的检验。为此,他将其中一个版本的广告片播放给一半观众看,另一个版本的广告片播放给另一半观众看,然后他对这些观众进行电话调查并将他们的反应分为以下几类: 不记得记得只记得广告内容 观看过的内容 广告中的要点 这两个不同版本的商业广告片是否在人们头脑中留下了同样的印象? 不记得 记得 只记得 广告内容 观看过的内容
36、广告中的要点 总计 CF-A 23.8% 30% 46.3% 100% CF-B 34.3% 40% 25.7% 100% 总计 28.7% 34.7% 36.7% 100% 例题 2 根据两种特征对一个样本进行分类 少于2年 2至4年 4年以上 总计 制造型 10 187 48 245 非制造型 13 107 35 155 总计 23 294 83 400 它由一系列分布组成,其具体形状取决于一个参数,即自由度 (df) 卡方分布是一种抽样分布 卡方分布倾向右侧随着自由度 (df)增大,卡方分布将接近正态分布 df = 1df = 6df = 10df = 40 2 4 6 8 12 14
37、16 比较观察频数和期望频数 如果观察频数接近期望频数,则可以作为接受原假设 (H0)的证据 检验同质性 检验拟合优度 检验独立性 检验总体方差是否相等 当把从两个样本中抽取的数据根据同一特征进行了分类并表示为列联表之后目的是检验不同总体的反应类型是否相同 为了回答这个问题,我们利用卡方检验来检验同质性 不记得 记得 只记得 广告内容 观看过的内容 广告中的要点 总计 CF-A 19 24 37 80 CF-B 24 28 18 70 总计 43 52 55 150 每种版本的商业广告片代表一个总体 每一种反应类型代表未知的总体比例 不记得 记得 只记得 广告内容 观看过的内容 广告中的要点
38、总计 CF-A pA1 pA2 pA3 1 CF-B PB1 pB2 PB3 1 H0 : pA1 = pB1, pA2 = pB2, pA3 = pB3 根据H0, pi可以被估计为 150431 p150522 p150553 p和期望频数 - 不记得 记得 只记得 广告内容 观看过的内容 广告中的要点 总计 CF-A 93.228015043 73.278015052 33.298015055 80 CF-B 07.207015043 27.247015052 67.257015055 70 总计 43 52 55 150 检验统计量 EEO22)( 不记得 记得 只记得 广告内容 观看
39、过的内容 广告中的要点 总计 CF-A 674. 093.22)93.2219(2 0.502 2.006 80 CF-B 770. 007.20)07.2024(2 0.573 2.292 70 总计 43 52 55 150 如果观察频数与期望频数相差很大,我们就认为原假设为假2 = 0.674 + 0.502 + 2.006 + 0.770 + 0.573 + 2.292 = 6.817 2值是否过大,使得我们不得不拒绝H0? 查表之前需要知道 1.自由度d.f. = (r1) (c1)2.右尾上面的面积 () 显著水平02, 22 ,05. 0 = 5.99临界值 6.817 5.99
40、数据显示:当显著水平 = 0.05时,检验统计量太大,因此我们应当拒绝H0观众在观看完两种不同版本的商业广告片之后,其反应类型会有明显的差异 进行卡方同质检验的步骤 1.构造假设 2.建立列联表并计算期望频数 3.计算检验统计量 4.计算自由度 并查找临界值 5.进行决策并得出结论 H0:各个总体的反应类型具有相同的概率 HA:与其他总体相比,有些总体的反应类型有不同的概率 检验统计量 EEO22)(自由度 = (r 1) (c 1)拒绝 H0 如果2 2 当按照两种特征对数据进行了归类并将其表示为双向列联表时 实质性问题是:这两种特征是否在总体中进行了独立分布?为了回答这个问题,我们需要利用
41、2 来进行独立性检验 思考一下,当显著水平 = 0.05时,劳工合同期限是否与行业类型有联系? 少于2年 2至4年 4年以上 总计 制造型 10 187 48 245 非制造型 13 107 35 155 总计 23 294 83 400 1.构造假设 H0:合同期限与行业类型相互独立 HA:合同期限与行业类型相互不独立 2.计算期望频数 如果原假设为真,则我们预计可以得到 P(期限 行业 ) = P(期限) P(行业)因此,可以根据下表计算期望频数 少于2年 2至4年 4年以上 总计 制造型 1 .1440023245 1 .180400294245 8 .5040083245 245 非制
42、造型 9 . 840023155 9 .113400294155 2 .3240083155 155 总计 23 294 83 400 3.检验统计量 EEO22)(= 4.157自由度 = (2 1) (3 1) = 24.临界值 22 ,05. 02,= 5.995. 4.157 5.99 (即检验统计量 2 (即 检验统计量 临界值 )定义数据 变量图 有三个变量有待定义 : 行业、期限、计数 名称 类型 宽度 小数 划分标准 行业 数值 3 0 1,制造型 2, 非制造型 期限 数值 3 0 1, 少于 2年; 2, 2 至 4年; 3, 4年以上 计数 数值 5 0 无 输入数据 数
43、据图 将3栏、6排数据按以下方式输入 行业 期限 计数 1 1 1 10 2 1 2 187 3 1 3 48 4 2 1 13 5 2 2 107 6 2 3 35 根据计数衡量各种情形( 数据 衡量情形) 进行分析 菜单条 1.在菜单条中单击 分析 描述统计学 交叉列表 2.将行业规定为行,期限规定为列 单击 并且 检查期望数和各行的百分比 单击并且方检验 和Phi and Cramers V 3.单击 SPSS 输出结果 可以用皮尔生卡方来表示卡方检验统计值 2 = 4.157自由度 = 2p 值 = 0.125 ( 0.05)由于p 值 ,因此我们接受 H0即数据支持原假设:即行业类型
44、与合同期限是相互独立的 行业类型与期限交叉列表 101874824514.1180.150.8245.04.1%76.3%19.6%100.0%13107351558.9113.932.2155.08.4%69.0%22.6%100.0%232948340023.0294.083.0400.05.8%73.5%20.8%100.0%计数每一类行业 的期望数 计数每一类行业 的期望数 计数每一类行业 的期望数 制造型 非制造型 行业类型 总计 少于2年2 4年4年以上期限总计卡方检验 4.157a2.1254.0582.131.0681.795400皮尔生卡方 可能性比例 线性 关系有效情形数量 数值自由度非对称的显 (双侧)小格 (.0%)表示期望数小于5 最小期望数为8.91 a.