《SPSS之平均数比较与T检验.ppt》由会员分享,可在线阅读,更多相关《SPSS之平均数比较与T检验.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据统计分析软件SPSS五、平均数比较与五、平均数比较与T检验检验 假设检验是非常重要的一类统计推断问题。假假设检验是非常重要的一类统计推断问题。假设检验技术不仅可以对总体分布的某些参数,而且设检验技术不仅可以对总体分布的某些参数,而且也可以对总体本身的分布做出假设,通过对样本的也可以对总体本身的分布做出假设,通过对样本的统计分析来判定该假设是否成立,从而对总体分布统计分析来判定该假设是否成立,从而对总体分布给以进一步的确认。给以进一步的确认。如:已知样本来自正态总体,是否有理由说它如:已知样本来自正态总体,是否有理由说它是来自均值为是来自均值为 的正态总体;再如,已知两个相互的正态总体;再如
2、,已知两个相互独立的样本,分别来自两个正态总体,能否说这两独立的样本,分别来自两个正态总体,能否说这两个总体均值相同或方差相同。个总体均值相同或方差相同。假设检验中的几个基本概念假设检验中的几个基本概念v1.原假设与备择假设原假设与备择假设v2.两类错误两类错误v3.检验统计量检验统计量v4.拒绝域与临界值拒绝域与临界值v5.显著性水平显著性水平v例:一种零件的生产标准是直径应为例:一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人员定期为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如
3、果零件的平均直零件是否符合标准要求。如果零件的平均直径大于或小于径大于或小于10cm,则表明生产过程不正常,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。否正常的原假设和备择假设。vv解:建立的原假设和备择假设为解:建立的原假设和备择假设为 H0:u=10cm H1:u10cm1.第第类错误类错误(弃真错误弃真错误)原假设为真时拒绝原假设原假设为真时拒绝原假设第第类错误的概率记为类错误的概率记为 v 被称为显著性水平被称为显著性水平2.第第类错误类错误(取伪错误取伪错误)原假设为假时未拒绝原假设原假设为假时未拒绝原假
4、设第第类错误的概率记为类错误的概率记为 假设检验中的两类错误假设检验中的两类错误两类 错误的关系 N一定,不能同一定,不能同时减少两类错误时减少两类错误!和和和和 的关系就像的关系就像的关系就像的关系就像翘翘板,翘翘板,翘翘板,翘翘板,小小小小 就就就就大,大,大,大,大大大大 就小就小就小就小拒绝域与临界值拒绝域与临界值 假设检验的目的在于判断样本统计量与假设的假设检验的目的在于判断样本统计量与假设的总体参数之间的差异。不同的抽样方法对应着不同总体参数之间的差异。不同的抽样方法对应着不同的标准。显著性水平就是用来判断接受和拒绝原假的标准。显著性水平就是用来判断接受和拒绝原假设的标准,通常用设
5、的标准,通常用 表示。表示。vv1.1.在一次试验中,一个几乎不可能发生的事件发生在一次试验中,一个几乎不可能发生的事件发生在一次试验中,一个几乎不可能发生的事件发生在一次试验中,一个几乎不可能发生的事件发生的概率为零。的概率为零。的概率为零。的概率为零。vv2.2.在一次试验中小概率事件一旦发生,我们就有理在一次试验中小概率事件一旦发生,我们就有理在一次试验中小概率事件一旦发生,我们就有理在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。由拒绝原假设。由拒绝原假设。由拒绝原假设。vv3.3.由研究者事先确定。由研究者事先确定。由研究者事先确定。由研究者事先确定。假设检验的步骤假设检验的
6、步骤v1根据具体问题的要求,建立原假设根据具体问题的要求,建立原假设和备择假和备择假设设H。v2选择一个合适的检验统计量,它应与原假设有关,选择一个合适的检验统计量,它应与原假设有关,而且当原假设而且当原假设为真时统计量的分布已知。为真时统计量的分布已知。v3给定显著性水平给定显著性水平,当原假设,当原假设为真的,求出为真的,求出临界值。临界值。v4由样本观测值计算检验统计量的数值由样本观测值计算检验统计量的数值,按检验规按检验规则,对原假设作出拒绝或接受的判断。则,对原假设作出拒绝或接受的判断。注:当总体标准差未知时一般采用注:当总体标准差未知时一般采用T分布检验;当分布检验;当总体标准差已
7、知时一般采用正态分布检验。总体标准差已知时一般采用正态分布检验。vSPSS 的输出结果中给出了相应检验统计量的输出结果中给出了相应检验统计量的实际取值,但由于显著性水平根据不同要的实际取值,但由于显著性水平根据不同要求而有所不同,求而有所不同,SPSS 并不给出临界值。如并不给出临界值。如果不查概率表,就无法直接采用上面的步骤果不查概率表,就无法直接采用上面的步骤进行检验。进行检验。vSPSS 给出了检验统计量的概值即文献中常给出了检验统计量的概值即文献中常见的见的p 值(值(p-value),或称为相伴概率),或称为相伴概率。利。利用用p 值就可以直接进行检验。值就可以直接进行检验。p 值是
8、在零假设值是在零假设成立的情况下,检验统计量的取值等于或超成立的情况下,检验统计量的取值等于或超过检验统计量的实际值的概率,从而过检验统计量的实际值的概率,从而p 值即值即为否定零假设的最低显著性水平。为否定零假设的最低显著性水平。p 值经常值经常被称为实际显著性水平,以区别于给定的显被称为实际显著性水平,以区别于给定的显著性水平著性水平v当当p 时,意味着如果给定一个真实的零假设,时,意味着如果给定一个真实的零假设,那么检验统计量的取值等于或超过实际观察到的极那么检验统计量的取值等于或超过实际观察到的极端值的概率为端值的概率为。大多数学者都把这一结果解释为。大多数学者都把这一结果解释为支持你
9、否定零假设而接受替代假设的证据。有学者支持你否定零假设而接受替代假设的证据。有学者称称p值为值为“实验使零假设相信者感到吃惊的程度的实验使零假设相信者感到吃惊的程度的度量度量”。p值越小,零假设相信者吃惊的程度越高。值越小,零假设相信者吃惊的程度越高。v为了便于记忆,我们可以把为了便于记忆,我们可以把p 值理解为零假设的支值理解为零假设的支持率或可信程度。当持率或可信程度。当p Compare Means=Means (2)用于单独样本的)用于单独样本的t 检验过程检验过程 Analyze=Compare Means=One-Sample T Test (3)用于独立样本的)用于独立样本的t
10、检验过程检验过程 Analyze=Compare Means =Independent-Samples T Test 用于检验是否两个不相关的样本来自具有相用于检验是否两个不相关的样本来自具有相同均值的总体。同均值的总体。(4)用于配对样本的)用于配对样本的t 检验过程检验过程 Analyze=Compare Means=Paired-Samples T Test 用于检验两个相关的样本是否来自具有相同用于检验两个相关的样本是否来自具有相同均值的总体。均值的总体。1、分组平均数的比较分组平均数的比较v“Dependent List”选项框中选入的是因变量,可直选项框中选入的是因变量,可直接用来
11、计算各级平均数。接用来计算各级平均数。v“Independent List”选项框中入选的是独立变量,选项框中入选的是独立变量,即即“分组变量分组变量”,此时要清楚是平行的分组变量还,此时要清楚是平行的分组变量还是层叠分组变量。是层叠分组变量。如:若同时按照年龄、性别分组情况下的年经济收如:若同时按照年龄、性别分组情况下的年经济收入是平行分组;先按不同性别分组,再按年龄分组入是平行分组;先按不同性别分组,再按年龄分组情况下的年经济收入是层叠分组。情况下的年经济收入是层叠分组。并行分组时同时输入性别和年龄变量;而层叠分组并行分组时同时输入性别和年龄变量;而层叠分组应先输入性别变量,单击应先输入性
12、别变量,单击“Next”按钮,再输入年按钮,再输入年龄变量。龄变量。2、单一样本、单一样本T检验检验 单单样样本本T检检验验是是指指样样本本平平均均与与总总体体平平均均数数的的差差异异检检验验。样样本本平平均均数数()与与总总体体平平均均数数往往往往大大小小不不一一,这这差差异异是是由由于于抽抽样样误误差差造造成成,还还是是本本质质性性误误差差样样本本根根本本不不是是来来源源于于该该总总体体。如如果果差差异异显显著著,则则认认为为样样本本平平均均数数与与总总体体平平均均数数的的差差异异已已不不能能完全认为是抽样误差了。完全认为是抽样误差了。v对于单个正态总体,常用对于单个正态总体,常用T统计量
13、来检验样统计量来检验样本均数本均数 是否等于总体平均数是否等于总体平均数 即即 若计算的若计算的T统计量大于等于统计量大于等于 ,或相伴概,或相伴概率小于率小于 ,则认为在显著性水平,则认为在显著性水平 下,下,样本统计量落入拒绝域,所以拒绝原假设;样本统计量落入拒绝域,所以拒绝原假设;反之,则不能拒绝原假设。反之,则不能拒绝原假设。Analyze Compare Means One Sample T test v在在“Test Variables”选项框中输入需要检验选项框中输入需要检验的变量。的变量。v在在“Test Value”输入一个值作为假设检验值。输入一个值作为假设检验值。v在在“
14、Options”对话框中,还可以输出置信区对话框中,还可以输出置信区间,一般取为间,一般取为90%,95%,99%等。以及缺等。以及缺失值的处置方式。失值的处置方式。例例1、以、以“Employee”为资料,计算公司职为资料,计算公司职工的平均受教育年数,假定该地区人口平工的平均受教育年数,假定该地区人口平均受教育年数为均受教育年数为13年,现问,公司职工文年,现问,公司职工文化程度是否等同于居民文化程度?其中,化程度是否等同于居民文化程度?其中,显著性水平为显著性水平为 统计量观测值为统计量观测值为t,自由度为,自由度为df=473,双双尾概率尾概率P值为值为Sig=0.000 ,拒绝原假设
15、,拒绝原假设,平均受教育年数不等于平均受教育年数不等于13年。年。实际上,样本平均数与总体平均数的差实际上,样本平均数与总体平均数的差异为,以异为,以95%的可靠性估计平均数在(,)的可靠性估计平均数在(,)之间之间,确实不包含确实不包含13。例例2、某省大学英语四级考试的平均成绩为某省大学英语四级考试的平均成绩为65分,现从某校随机抽取分,现从某校随机抽取20份试卷,其分数份试卷,其分数为:为:72 76 68 78 62 59 64 85 70 75 61 74 87 83 54 76 56 66 68 62。问该校英语水平。问该校英语水平与全区是否基本一致。其中,显著性水平为与全区是否基
16、本一致。其中,显著性水平为 。例例3、某企业生产的零件直径服从正态分布,某企业生产的零件直径服从正态分布,从中抽取从中抽取5件测得直径分别为:,。问件测得直径分别为:,。问零件的平均直径是否为零件的平均直径是否为21。其中,显著性水。其中,显著性水平为平为 。练习题v利用住房状况调查数据,推断家庭人均住房利用住房状况调查数据,推断家庭人均住房面积的平均值是否为面积的平均值是否为20平方米。其中,显著平方米。其中,显著性水平为性水平为 。v利用保险公司人员构成的数据,推断利用保险公司人员构成的数据,推断35岁以岁以下年轻人所占比例的平均值与有无显著差异。下年轻人所占比例的平均值与有无显著差异。推
17、断具有大专及其以上教育水平的员工的平推断具有大专及其以上教育水平的员工的平均比例是否不低于。其中,显著性水平为均比例是否不低于。其中,显著性水平为 。3 3、两独立样本平均数差异、两独立样本平均数差异T T 检验检验 独立样本独立样本(Independent Sample)(Independent Sample)是指两个样是指两个样本彼此独立,没有任何关联。例如实验组与控本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。利用来自两个总体的大学数学系与物理系等。利用来自两个总体的独立样本,推断两个总体
18、的均值是否存在显著独立样本,推断两个总体的均值是否存在显著差异。差异。两个独立样本均值之间差异用两个独立样本均值之间差异用T T 统计量进行统计量进行检验。检验。Analyze Analyze Compare Means Compare MeansIndependent Sample T testIndependent Sample T test例4、例例4 4:用:用“Employee data.sav”“Employee data.sav”资料,问:资料,问:清洁工清洁工(jobcat=1)(jobcat=1)的受教育年数与保管员的受教育年数与保管员(jobcat=2)(jobcat=2)
19、和经理和经理(jobcat=3)(jobcat=3)的受教育年数的受教育年数是否有显著差异?是否有显著差异?其中,显著性水平为其中,显著性水平为 =0.05。v在在“Test Variables”选项框中加入要检验的选项框中加入要检验的变量。变量。v在在“Grouping Variable”选项框中输入分组变选项框中输入分组变量,此时可以通过量,此时可以通过“Define Groups”定义分定义分组值,其中,组值,其中,“Use specified values”是选择合适的第一是选择合适的第一组、第二组分组变量值。组、第二组分组变量值。“Cut point”是输入一个临界点值,将数据是输入
20、一个临界点值,将数据分为两组,大于等于该分组值的分为两组,大于等于该分组值的case属于同属于同一个组,其余的为另外一个组。一个组,其余的为另外一个组。结果分析:结果分析:1、由上表中可以看出前者为、由上表中可以看出前者为111人,平均受教育年人,平均受教育年数分别为,后者数分别为,后者363人,平均受教育年数为,有人,平均受教育年数为,有一定差异。一定差异。2、第一步:、第一步:F统计量的观测值为,由于对应的概率统计量的观测值为,由于对应的概率P值值Sig,所以认为清洁工与保管员和经理之间,所以认为清洁工与保管员和经理之间的受教育年数两总体方差有显著差异。由于两总的受教育年数两总体方差有显著
21、差异。由于两总体方差有差异,所以应看第二行体方差有差异,所以应看第二行(Equal variances not assumed)t检验的结果,对应的检验的结果,对应的 t 观测值为,对应的概率观测值为,对应的概率P值值Sig,所以认为两总,所以认为两总体的均值有显著差异。体的均值有显著差异。练习题v利用住房状况调查数据,推断本市户口总体利用住房状况调查数据,推断本市户口总体和外地户口总体的家庭人均住房面积的平均和外地户口总体的家庭人均住房面积的平均值是否有显著差异。值是否有显著差异。v利用保险公司人员构成数据,分析全国性保利用保险公司人员构成数据,分析全国性保险公司与外资合资保险公司的人员构成
22、中具险公司与外资合资保险公司的人员构成中具有大专及其以上学历的员工比例的均值是否有大专及其以上学历的员工比例的均值是否有显著差异。有显著差异。4 4、两配对样本平均数差异、两配对样本平均数差异T T检验检验 配配对对样样本本(Paired Paired SampleSample)或或相相关关样样本本(Correlated Correlated SampleSample),指指两两个个样样本本的的观观测测值值之之间间彼彼此此有有关关联联,如如实实验验前前和和实实验验后后的的测测量量,研究者感兴趣的是二次测量之间是否存在差异。研究者感兴趣的是二次测量之间是否存在差异。如如为为研研究究某某种种减减肥
23、肥茶茶是是否否有有显显著著的的减减肥肥效效果果,对对肥肥胖胖人人群群喝喝茶茶前前后后的的体体重重进进行行分分析析,看看均均值值有无显著差异。有无显著差异。两两个个配配对对样样本本均均值值之之间间差差异异用用T 统计量进行检验。统计量进行检验。配配对对样样本本检检验验就就是是根根据据配配对对样样本本均均值值之之间间的的差差异异,检检验验两两个个总总体体均均值值是否相等。是否相等。在在“Paired-Samples T Test”对话框中对话框中定义要比较的变量对,如,员工的目前工资定义要比较的变量对,如,员工的目前工资与起始工资。与起始工资。AnalyzeAnalyzeCompare Means
24、Compare MeansPaired-Samples T testPaired-Samples T test例5、例例5 5、用、用“Employee”“Employee”资料,资料,分析美国企业现在工资与过去工分析美国企业现在工资与过去工资是否有明显差异。资是否有明显差异。v由于由于Sig,所以原假设不成立,既可以认为目,所以原假设不成立,既可以认为目前工资与开始时工资有显著性差异。前工资与开始时工资有显著性差异。练习题v利用减肥茶数据,推断减肥茶是否有明显的利用减肥茶数据,推断减肥茶是否有明显的减肥作用。减肥作用。检验两个或多个样本平均数间差异是检验两个或多个样本平均数间差异是否有显著性意义,是通过样本方差比较而否有显著性意义,是通过样本方差比较而得到的,又称为方差分析。得到的,又称为方差分析。One Way过程是一个因变量单因素过程是一个因变量单因素简单方差分析过程,在简单方差分析过程,在“Analyze”菜单菜单中的中的“Compare Means”过程组中,用过程组中,用“One way ANOVA”菜单项调用。菜单项调用。5、多个平均数检验