SPSS170在生物统计学中的应用实验五方差分析六简单相关及回归分析.pdf-淘文阁

资源描述

《SPSS170在生物统计学中的应用实验五方差分析六简单相关及回归分析.pdf》由会员分享，可在线阅读，更多相关《SPSS170在生物统计学中的应用实验五方差分析六简单相关及回归分析.pdf（31页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 SPSS17.0 在生物统计学中的应用-实验五、方差分析-六、简单相关及回归分析精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 SPSS在生物统计学中的应用实验指导手册实验五：方差分析一、实验目标与要求 1帮助学生深入了解方差及方差分析的基本概念，掌握方差分析的基本思想和原理 2掌握方差分析的过程。3增强学生的实践能力，使学生能够利用 SPSS 统计软件，熟练进行单因素方差分析、两因素方差分析等操作，激发学生的学习兴趣，增强自我学习和研究的能力。二、实验原理在现实的生产和经营管理过程中，影响产品质量、数量或销量的因素往往很多。例如，农作物的产量受作物的品种、

2、施肥的多少及种类等的影响；某种商品的销量受商品价格、质量、广告等的影响。为此引入方差分析的方法。方差分析也是一种假设检验，它是对全部样本观测值的变动进行分解，将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较，据以推断各组样本之间是否存在显著差异。若存在显著差异，则说明该因素对各总体的影响是显著的。方差分析有 3 个基本的概念：观测变量、因素和水平。观测变量是进行方差分析所研究的对象；因素是影响观测变量变化的客观或人为条件；精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除因素的不同类别或不通取值则称为因素的不同水平。在上面的例子中，农

3、作物的产量和商品的销量就是观测变量，作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中，因素常常是某一个或多个离散型的分类变量。根据观测变量的个数，可将方差分析分为单变量方差分析和多变量方差分析；根据因素个数，可分为单因素方差分析和多因素方差分析。在 SPSS 中，有 Oneway ANOVA(单变量单因素方差分析)、GLM Univariate（单变量多因素方差分析）；GLM Multivariate（多变量多因素方差分析），不同的方差分析方法适用于不同的实际情况。本节仅练习最为常用的单变量方差分析。三、实验演示内容与步骤单变量单因素方差分析单因素方差分析也称一维方差分析，对两

4、组以上的均值加以比较。检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较，称作组间均值的多重比较。主要采用 One-way ANOVA 过程。采用 One-way ANOVA 过程要求：因变量属于正态分布总体，若因变量的分布明显是非正态，应该用非参数分析过程。若对被观测对象的实验不是随机分组的，而是进行的重复测量形成几个彼此不独立的变量，应该用Repeated Measure 菜单项，进行重复测量方差分析，条件满足时，还可以进行趋势分析。【例 6.1】欲比较四种饲料对仔猪增重效果的优劣，随机选取了性别、年龄、体重相同，无亲缘关系的 20

5、头猪，随机分为 4 组，每组 5 头，分别饲喂一种饲料所得增重数据如下在。试利用这些数据对 4 种饲料对仔猪增重效果的差异进行检验。饲料日增重（g）均值ix A 57 37 54 42 60 50 B 13 39 41 33 19 29 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 C 13 15 13 29 20 18 D 18 24 38 22 13 23 合计 600 =x=30 打开数据文件“单因素方差分析数据-1.xls”。在 SPSS 中实验该检验的步骤如下：步骤 1：选择菜单【分析】【比较均值】【单因素方差分析】，依次将观测变量销量移入因变量列表框，

6、将因素变量地区移入因子列表框。图 5.1 One-Way ANOVA 对话框单击两两比较按钮，如图 5.2，该对话框用于进行多重比较检验，即各因素水平下观测变量均值的两两比较。方差分析的原假设是各个因素水平下的观测变量均值都相等，备择假设是各均值不完全相等。假如一次方差分析的结果是拒绝原假设，我们只能判断各观测变量均值不完全相等，却不能得出各均值完全不相等的结论。各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 5.2 两两比较对话框假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下

7、的多种检验方法。LSD。使用 t 检验执行组均值之间的所有成对比较。对多个比较的误差率不做调整。Bonferroni。使用 t 检验在组均值之间执行成对比较，但通过将每次检验的错误率设置为实验性质的错误率除以检验总数来控制总体误差率。这样，根据进行多个比较的实情对观察的显著性水平进行调整。Sidak。基于 t 统计量的成对多重比较检验。Sidak 调整多重比较的显著性水平，并提供比 Bonferroni 更严密的边界。Scheffe。为均值的所有可能的成对组合执行并发的联合成对比较。使用 F 取样分布。可用来检查组均值的所有可能的线性组合，而非仅限于成对组合。R-E-G-W F。基于 F 检验

8、的 Ryan-Einot-Gabriel-Welsch 多步进过程。R-E-G-W Q。基于学生化范围的 Ryan-Einot-Gabriel-Welsch 多步进过程。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 S-N-K 使用学生化的范围分布在均值之间进行所有成对比较。它还使用步进式过程比较具有相同样本大小的同类子集内的均值对。均值按从高到低排序，首先检验极端差分。Tukey。使用学生化的范围统计量进行组间所有成对比较。将试验误差率设置为所有成对比较的集合的误差率。Tukeys b。使用学生化的范围分布在组之间进行成对比较。临界值是 Tukeys 真实显著性差异

9、检验的对应值与 Student-Newman-Keuls 的平均数。Duncan。使用与 Student-Newman-Keuls 检验所使用的完全一样的逐步顺序成对比较，但要为检验的集合的错误率设置保护水平，而不是为单个检验的错误率设置保护水平。使用学生化的范围统计量。Hochbergs GT2。使用学生化最大模数的多重比较和范围检验。与 Tukeys 真实显著性差异检验相似。Gabriel。使用学生化最大模数的成对比较检验，并且当单元格大小不相等时，它通常比 Hochbergs GT2 更为强大。当单元大小变化过大时，Gabriel 检验可能会变得随意。Waller-Duncan。基于 t

10、统计的多比较检验；使用 Bayesian 方法。Dunnett。将一组处理与单个控制均值进行比较的成对多重比较 t 检验。最后一类是缺省的控制类别。另外，您还可以选择第一个类别。双面检验任何水平（除了控制类别外）的因子的均值是否不等于控制类别的均值。控制检验任何水平的因子的均值是否大于控制类别的均值。这里选择最常用的 LSD 检验法、S-N-K检验法、Duncan 检验法。未假定方差齐性选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 Tamhanes T2。基于 t 检验的保守成对比较。当方差不相等时，适合使

11、用此检验。Dunnetts T3。基于学生化最大值模数的成对比较检验。当方差不相等时，适合使用此检验。Games-Howell。有时会变得随意的成对比较检验。当方差不相等时，适合使用此检验。Dunnetts C。基于学生化范围的成对比较检验。当方差不相等时，适合使用此检验。这里选择 Tamhane s T2 检验法、Dunnetts T3 检验法。Significance level 输入框中用于输入多重比较检验的显示性水平，默认为 5。单击【选项】按钮，弹出 options 子对话框，如图所示。在对话框中选中描述性复选框，输出不同因素水平下观测变量的描述统计量；选择方差同质性检验复选框，输出

12、方差齐性检验结果；选中均值图复选框，输出不同因素水平下观测变量的均值直线图。图 5.3 “选项”子对话框精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除统计量。描述性。计算每组中每个因变量的个案数、均值、标准差、均值的标准误、最小值、最大值和 95%置信区间。固定和随机效果。显示固定效应模型的标准差、标准误和 95%置信区间，以及随机效应模型的标准误、95%置信区间和成分间方差估计。方差同质性检验。计算 Levene 统计量以检验组方差是否相等。该检验独立于正态的假设。Brown-Forsythe。计算 Brown-Forsythe 统计量以检验组均值是否相等。当方差

13、相等的假设不成立时，这种统计量优于 F 统计量。Welch。计算 Welch 统计量以检验组均值是否相等。当方差相等的假设不成立时，这种统计量优于 F 统计量。均值图。显示一个绘制子组均值的图表（每组的均值由因子变量的值定义）。缺失值。控制对缺失值的处理。按分析顺序排除个案。给定分析中的因变量或因子变量有缺失值的个案不用于该分析。而且，也不使用超出为因子变量指定的范围的个案。按列表排除个案。因子变量有缺失值的个案，或包括在主对话框中的因变量列表上的任何因变量的值缺失的个案都排除在所有分析之外。如果尚未指定多个因变量，那么这个选项不起作用。在主对话框（单因素方差分析对话框）中点击ok 按钮，可以

14、得到单因素分析的结果。实验结果分析：表 5.1 资料描述性统计表 Descriptives 日增重（g）精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 N Mean Std.Deviation Std.Error 95%Confidence Interval for Mean Minimum Maximum Lower Bound Upper Bound 1 5 50.00 9.975 4.461 37.61 62.39 37 60 2 5 29.00 12.410 5.550 13.59 44.41 13 41 3 5 18.00 6.782 3.033 9.58 2

15、6.42 13 29 4 5 23.00 9.381 4.195 11.35 34.65 13 38 Total 20 30.00 15.424 3.449 22.78 37.22 13 60 表 5.2 方差齐性检验表 Test of Homogeneity of Variances Test of Homogeneity of Variances 日增重（g）Levene Statistic df1 df2 Sig.1.322 3 16.302 表5.3 单因素方差分析结果 ANOVA 日增重（g）Sum of Squares df Mean Square F Sig.Between Gr

16、oups 2970.000 3 990.000 10.219.001 Within Groups 1550.000 16 96.875 Total 4520.000 19 表 5.4 多重比较检验结果-LSD法、Tamhane法、Dunnett T3法 Multiple Comparisons Dependent Variable:日增重（g）(I)饲料(J)饲料 Mean Difference(I-J)Std.Error Sig.95%Confidence Interval Lower Bound Upper Bound LSD 1 2 21.000*6.225.004 7.80 34.20

17、 3 32.000*6.225.000 18.80 45.20 4 27.000*6.225.001 13.80 40.20 2 1-21.000*6.225.004-34.20-7.80 3 11.000 6.225.096-2.20 24.20 4 6.000 6.225.349-7.20 19.20 3 1-32.000*6.225.000-45.20-18.80 2-11.000 6.225.096-24.20 2.20 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 4-5.000 6.225.434-18.20 8.20 4 1-27.000*6.225.0

18、01-40.20-13.80 2-6.000 6.225.349-19.20 7.20 3 5.000 6.225.434-8.20 18.20 Tamhane 1 2 21.000 7.120.111-4.02 46.02 3 32.000*5.394.003 12.52 51.48 4 27.000*6.124.014 5.76 48.24 2 1-21.000 7.120.111-46.02 4.02 3 11.000 6.325.570-12.99 34.99 4 6.000 6.957.960-18.66 30.66 3 1-32.000*5.394.003-51.48-12.52

19、2-11.000 6.325.570-34.99 12.99 4-5.000 5.177.934-23.48 13.48 4 1-27.000*6.124.014-48.24-5.76 2-6.000 6.957.960-30.66 18.66 3 5.000 5.177.934-13.48 23.48 Dunnett T3 1 2 21.000 7.120.094-3.24 45.24 3 32.000*5.394.003 13.21 50.79 4 27.000*6.124.012 6.38 47.62 2 1-21.000 7.120.094-45.24 3.24 3 11.000 6.

20、325.481-11.93 33.93 4 6.000 6.957.933-17.86 29.86 3 1-32.000*5.394.003-50.79-13.21 2-11.000 6.325.481-33.93 11.93 4-5.000 5.177.896-22.86 12.86 4 1-27.000*6.124.012-47.62-6.38 2-6.000 6.957.933-29.86 17.86 3 5.000 5.177.896-12.86 22.86*.The mean difference is significant at the 0.05 level.表 5.5 多重比较

21、检验结果-Student-Newman-Keulsa法、Duncana法日增重（g）饲料 N Subset for alpha=0.05 1 2 Student-Newman-Keulsa 3 5 18.00 4 5 23.00 2 5 29.00 1 5 50.00 Sig.212 1.000 Duncana 3 5 18.00 4 5 23.00 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 2 5 29.00 1 5 50.00 Sig.112 1.000 Means for groups in homogeneous subsets are displaye

22、d.a.Uses Harmonic Mean Sample Size=5.000.图 5.4 均值图单变量多因素方差分析例7.1 为了比较3种不同饲料配方对4种不同品种的增重效果，从每个品种猪中随机抽取了3头体重相同的仔猪，分别随机饲喂不同的饲料，3个月后的增重效果（kg/头）如下。试分析不同饲料和品种对仔猪增重的影响。品种饲料合计平均 1 2 3 Ti.Xi.A 52 53 52 156 52 B 56 57 58 171 57 C 45 49 47 141 47 D 42 44 43 129 43 合计T.j 194 203 200 597 平均 X.j 48.5 50.75 5

23、0 49.75 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除打开数据文件“两因素方差分析数据-无重复数据.xls”。在 SPSS 中实验该检验的步骤如下：步骤1：选择菜单【分析】【一般线性模型】【单变量.】，弹出“单变量”对话框图 5.5 “单变量”对话框依次将观测变量“增重”销量移入因变量列表框，将因素变量“品种”、“饲料”移入固定因子列表框。单击【模型】按钮，弹出“模型”对话框，如图5.6 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 5.6 “模型”对话框指定模型：全因子模型包含所有因子主效应、所有协变量主效应以及所有因子间

24、交互。它不包含协变量交互。选择定制可以仅指定其中一部分的交互或指定因子协变量交互。必须指定要包含在模型中的所有项。因子与协变量。列出因子与协变量。模型：模型取决于数据的性质。选择定制之后，您可以选择分析中感兴趣的主效应和交互效应。平方和：计算平方和的方法。对于没有缺失单元的平衡或非平衡模型，类型 III 平方和方法最常用。在模型中包含截距：模型中通常包含截距。如果您可以假设数据穿过原点，则可以排除截距。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除构建项：对于选定因子和协变量：交互。创建所有选定变量的最高级交互项。这是缺省值。主效应。为每个选定的变量创建主效应项。所有

25、二阶。创建选定变量的所有可能的二阶交互。所有三阶。创建选定变量的所有可能的三阶交互。所有四阶。创建选定变量的所有可能的四阶交互。所有五阶。创建选定变量的所有可能的五阶交互。平方和:对于该模型，您可以选择平方和类型。类型 III 最常用，并且是缺省类型。类型 I：此方法也称为平方和分级解构法。在模型中，每一项只针对它前面的那项进行调整。类型 I 平方和常用于：平衡 ANOVA 模型，其中任何主效应在任何一阶交互效应之前指定，任何一阶交互效应在任何二阶交互效应之前指定，依此类推。多项式回归模型，其中任何低阶项在任何高阶项之前指定。纯嵌套模型，其中第一个指定的效应嵌套在第二个指定的效应中，第二个指定

26、的效应嵌套在第三个指定的效应中，依此类推。（此嵌套形式只能通过使用语法来指定。）类型 II：此方法在为所有其它“相应的”效应进行调节的模型中计算某个效应的平方和。相应的效应是指，与所有效应（不包含正被检查的效应）相对应的效应。类型 II 平方和方法常用于：平衡 ANOVA 模型。任何只有主要因子效应的模型。任何回归模型。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除纯嵌套设计。（此嵌套形式能通过使用语法来指定。）类型 III：缺省类型。此方法在设计中通过以下形式计算某个效应的平方和：为任何不包含该效应的其他效应，以及任何与包含该效应正交的效应（如果存在）调整的平方和。

27、类型 III 平方和具有一个主要优点，那就是只要可估计性的一般形式保持不变，平方和对于单元频率就保持不变。因此，我们常认为此类平方和对于不带缺失单元格的不平衡模型有用。在不带缺失单元的因子设计中，此方法等同于 Yates 加权均值平方方法。类型 III 平方和法常用于：任何在类型 I 和类型 II 中列出的模型。任何不带空白单元的平衡或非平衡模型。类型 IV：此方法针对存在缺失单元的情况设计。对于设计中的任何效应 F，如果任何其它效应中不包含 F，则类型 IV=类型 III=类型 II。当 F 包含在其它效应中时，则类型 IV 将 F 中的参数中正在进行的对比相等地分配到所有较高水平的效应。类

28、型 IV 平方和法常用于：任何在类型 I 和类型 II 中列出的模型。任何带有空白单元的平衡或非平衡模型。点击【继续】按钮，返回主对话框（“单变量”对话框），点击【对比】按钮，弹出“单变量：对比”对话框，可对指定的因子变量不同水平进行多种方式的比较，精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 5.7 “单变量：对比”对话框由于生物统计学的分析，主要是对每个影响因子的不同水平进行多重比较，及交互作用检验，在“模型”、“两两对比”、“选项”三项中进行选择设置即可满足需要，故此项通常保持默认设置，即不做相关对比。点击【继续】按钮，返回主对话框（“单变量”对话框），点

29、击【绘制】按钮，弹出“单变量：轮廓图”对话框，可对指定的因子变量之间是否存在交互作用进行直观分析。可任选一个因子作为水平轴取值，对另一个因子的不同水平取值的线性变化进行显示，若呈现“平行”相，则说明两个因子没有交互作用，若呈现“交叉相”，则说明两个因子有交互作用。将“品种”选入水平轴框，将“饲料”选入单图框，点击“添加”，将所做选择确定。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 5.8 “单变量：轮廓图”对话框点击【继续】按钮，返回主对话框（“单变量”对话框），点击【两两比较】按钮，弹出“单变量：观测均值的两两比较”对话框，可对指定的因子变量各水平之间因变量

30、均值的显著差异性进行检验，只有在方差分析表明该变量的不同水平间的差异主要是处理效应的前提下，此项比较才有意义。图 5.9 “单变量：观测均值的两两比较”对话框精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除选择最常用的 LSD 检验法、S-N-K检验法、Duncan 检验法。点击【继续】按钮，返回主对话框（“单变量”对话框），点击【保存】按钮，弹出“单变量：保存”对话框，可以在数据编辑器中将模型预测的值、残差和相关测量另存为新变量。这些变量中有许多可用于检查关于数据的假设。要保存供另一 SPSS Statistics 会话中使用的值，您必须保存当前数据文件。图 5.1

31、0 “单变量：保存”对话框由于生物统计学的分析，通常不对此项做选择，保持默认设置。点击【继续】按钮，返回主对话框（“单变量”对话框），点击【选项】按钮，弹出“单变量：选项”对话框。此对话框中有一些可选统计量。统计量是使用固定效应模型计算的。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 5.11 “单变量：选项”对话框估计边际均值：选择您需要的单元中的总体边际均值估计的因子和交互作用。为协变量（如果存在）调整这些均值。比较主效应。对于主体间和主体内因子，为模型中的任何主效应提供估计边际均值未修正的成对比较。只有在“显示以下项的均值”列表中选择了主效应的情况下，此

32、项才可用。置信区间调节。选择最小显著性差异(LSD)、Bonferroni 或对置信区间和显著性的Sidak 调整。此项只有在选择了比较主作用的情况下才可用。输出：描述统计：以生成所有单元中的所有因变量的观察到的均值、标准差和计数。功效估计：给出了每个作用和每个参数估计值的偏eta 方值。eta 方统计量描述总变异性中可归因于某个因子的部分。检验效能：当基于观察到的值设置备用假设时，选择检验效能可获取检验的效能。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除参数估计：选择参数估计可为每个检验生成参数估计值、标准误、t 检验、置信区间和检验效能。对比系数矩阵：选择对比系

33、数矩阵可获取L 矩阵。齐性检验：为跨主体间因子所有水平组合的每个因变量生成Levene 的方差齐性检验（仅对于主体间因子）。分布-水平图和残差图：选项对于检查关于数据的假设很有用。如果不存在任何因子，则禁用此项。残差图：选择残差图可为每个因变量生成观察-预测-标准化残差图。这些图对于调查方差相等的假设很有用。失拟：选择失拟可检查因变量和自变量之间的关系是否能由模型充分地描述。常规可估计函数允许您基于常规可估计函数构造定制的假设检验。任何对比系数矩阵中的行均是常规可估计函数的线性组合。显著性水平。您可能想要调整用在两两比较检验中的显著性水平，以及用于构造置信区间的置信度。指定的值还用于计算检验的

34、检验效能。如果指定了显著性水平，则相关联的置信区间度会显示在对话框中。生物统计学的分析，主要是对每个影响因子的不同水平进行多重比较，及交互作用检验，在“选项”中选择“描述统计”、“齐性检验”即可满足需要，故此项通常保持默认设置，即不做相关对比。点击【继续】按钮，返回主对话框（“单变量”对话框），点击【确定】按钮后，结果输出窗口看分析结果。表5.6 方差分析表 Tests of Between-Subjects Effects 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 Dependent Variable:增重 Source Type III Sum of Squa

35、res df Mean Square F Sig.Model 30145.500a 6 5024.250 6699.000.000 品种 337.000 3 112.333 149.778.000 饲料 8.167 2 4.083 5.444.045 Error 4.500 6.750 Total 30150.000 12 a.R Squared=1.000(Adjusted R Squared=1.000)表5.6可知，品种各水平间效应值的变异主要是处理效应造成的，可进行多重比较；饲料各水平间效应值的变异主要是处理效应造成的，也可进行多重比较。表5.7 品种各水平间多重比较表增重品种 N

36、 Subset 1 2 3 4 Student-Newman-Keulsa,b 4 3 43.00 3 3 47.00 1 3 52.33 2 3 57.00 Sig.1.000 1.000 1.000 1.000 Duncana,b 4 3 43.00 3 3 47.00 1 3 52.33 2 3 57.00 Sig.1.000 1.000 1.000 1.000 b.Alpha=.05.从表5.7可知，增重效果由大到小依次是2号、1号、3号、4号，各品种之间增重效果均达到了显著性差异。表5.8 饲料各水平间多重比较表增重饲料 N Subset 1 2 Student-Newman-1

37、 4 48.75 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 Keulsa,b 3 4 50.00 50.00 2 4 50.75 Sig.087.267 Duncana,b 1 4 48.75 3 4 50.00 50.00 2 4 50.75 Sig.087.267 b.Alpha=.05.从表5.8可知，增重效果由大到小依次是2号、3号、1号，各饲料之间增重效果差异，2号和1号之间达到了显著性。图 5.12 品种与饲料间交互作用图从图5.8可知，品种与饲料间存在着一定的交互作用。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除实验六：

38、简单相关与回归分析一、实验目标与要求 1帮助学生深入了解线性及回归的基本概念，掌握线性相关与回归分析的基本思想和原理 2掌握线性相关与回归分析的过程。二、实验原理 1相关分析的统计学原理相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是 Pearson 简单相关系数。2回归分析的统计学原理相关关系不等于因果关系，要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是，在相关分析的基础上，对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定，确立一个合适的数据模型，以便从一个已知量推断另一个未知

39、量。回归分析的主要任务就是根据样本数据估计参数，建立回归模型，对参数和模型进行检验和判断，并进行预测等。三、实验演示内容与步骤两个变量间的简单相分析【课本例】现有 10 头动物体重与饲料消耗量的数据如下，试建立饲料消耗量对体重的回归方程，并对回归系数加以检验。体重 X 4.6 5.1 4.8 4.4 5.9 4.7 5.1 5.2 4.9 5.1 饲料消耗量 Y 87.1 93.1 89.8 91.4 99.5 92.1 95.5 99.3 93.4 94.4 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除打开数据文件“线性相关与回归分析数据.xls”，依次选择“

40、【分析】【相关】【双变量】”打开“双变量”对话框如图，将待分析的2 个指标移入右边的变量列表框内。其他均可选择默认项。图 6.1 “双变量”对话框选择两个或更多数值型变量。还可以使用以下选项：相关系数。对于正态分布的定量变量，请选择Pearson 相关系数。如果您的数据不是正态分布的，或具有已排序的类别，请选择Kendall 的tau-b 或Spearman，后两者度量秩次之间的相关性。相关系数的值范围为 1（完全负相关）到+1（完全正相关）。0 值表示没有线性关系。在解释结果时请小心谨慎，不要因显著的相关性而得出任何因果结论。显著性检验。您可以选择双尾概率或单尾概率。如果预先已知关联的方向

41、，请选择单尾。否则，请选择双尾。标记显著性相关。用一个星号来标识显著性水平为0.05 的相关系数，用两个星号来标识显著性水平为0.01 的相关系数。单击【选项】按钮，弹出“双变量相关性：选项”对话框，选择“均值和标准差”，精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 6.2 “双变量相关性：选项”对话框统计量。对于Pearson 相关性，您可以选择以下一项或两项：均值和标准差。为每个变量显示。还显示具有非缺失值的个案数。无论缺失值设置如何，都将逐变量处理缺失值。叉积偏差和协方差。为每对变量显示。偏差的叉积等于校正均值变量的乘积之和。这是Pearson 相关系数的

42、分子。协方差是有关两个变量之间关系的一种非标准化度量，等于叉积偏差除以N 1。缺失值。您可以选择以下选项之一：按对排除个案。会从分析中排除对其计算相关系数的一对变量中一个或两个含有缺失值的个案。由于每个系数均基于对特定变量对具有有效代码的所有个案，因此在每次计算中会使用可用的最大信息量。这可能因为个案数不同而产生一组系数。按列表排除个案。从所有相关性中排除对任意变量有缺失值的个案。点击【继续】按钮，返回主对话框（“单变量”对话框），点击【确定】按钮后，结果输出窗口看分析结果。表6.1 双变量相关性分析基本统计量表 Descriptive Statistics Mean Std.Deviatio

43、n N 体重X 4.980.4131 10 精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除 Descriptive Statistics Mean Std.Deviation N 体重X 4.980.4131 10 饲料消耗量Y 93.560 3.8816 10 表6.2 双变量相关性分析表 Correlations 体重X 饲料消耗量Y 体重X Pearson Correlation 1.818*Sig.(2-tailed).004 N 10 10 饲料消耗量Y Pearson Correlation.818*1 Sig.(2-tailed).004 N 10 10*

44、.Correlation is significant at the 0.01 level(2-tailed).两个变量间的线性回归分析打开数据文件“线性相关与回归分析数据.xls”，依次选择“【分析】【回归】【线性】”打开“线性回归”对话框如图，将待分析的2个指标移入右边的变量列表框内。其他均可选择默认项。图 6.3 “线性回归”对话框在“线性回归”对话框中，选择一个数值型因变量。选择一个或多个数值型自变量。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除根据需要，您可以：将自变量分组成块，并对不同的变量子集指定不同的进入方法。选择一个选择变量，将分析限于包含此变

45、量特定值的个案子集。选择个案标识变量，用于标识图上的点。选择数值型WLS 权重变量以进行加权最小平方分析。WLS：允许您获取加权最小平方模型。以数据点方差的倒数对数据点进行加权。这意味着方差较大的观察值对分析的影响比方差较小的观察值要小。如果加权变量的值为0、负数或缺失，则将该个案从分析中排除。本题中，因只有一个自变量，故只需选择自变量和因变量即可，点击【统计量】按钮，弹出“线性回归：统计量”对话框，可选择需要输出的基本统计量，图 6.4 “线性回归：统计量”对话框我们选择默认的“估计”、“模型拟合度”和“描述性”。点击继续返回主对话框（“线性回归”对话框），点击【绘制】按钮，弹出“线性

46、回归：图”对话框，精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除图 6.5 “线性回归：图”对话框可以帮助验证正态性、线性和方差相等的假设。对于检测离群值、异常观察值和有影响的个案，图也是有用的。在将它们保存为新变量之后，在数据编辑器中可以使用预测值、残差和其他诊断以使用自变量构造图。以下图是可用的：散点图：您可以绘制以下各项中的任意两种：因变量、标准化预测值、标准化残差、剔除残差、调整预测值、Student 化的残差或Student 化的已删除残差。针对标准化预测值绘制标准化残差，以检查线性关系和等方差性。源变量列表：列出因变量(DEPENDNT)及以下预测变量和

47、残差变量：标准化预测值(*ZPRED)、标准化残差(*ZRESID)、剔除残差(*DRESID)、调整的预测值(*ADJPRED)、学生化的残差(*SRESID)以及学生化的已删除残差(*SDRESID)。生成所有部分图：当根据其余自变量分别对两个变量进行回归时，显示每个自变量残差和因变量残差的散点图。要生成部分图，方程中必须至少有两个自变量。标准化残差图：您可以获取标准化残差的直方图和正态概率图，将标准化残差的分布与正态分布进行比较。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除如果请求了任意图，则将显示标准化预测值和标准化残差（*ZPRED 和*ZRESID）的摘

48、要统计。本题中，不需要此项，故保持默认。点击继续返回主对话框（“线性回归”对话框），点击【保存】按钮，弹出“线性回归：保存”对话框，本题中，不需要此项，故保持默认。点击继续返回主对话框（“线性回归”对话框），点击【选项】按钮，弹出“线性回归：选项”对话框，图 6.6 “线性回归：选项”对话框可用选项有：步进方法标准：这些选项在已指定向前、向后或逐步式变量选择法的情况下适用。变量可以进入到模型中，或者从模型中移去，这取决于F 值的显著性（概率）或者F 值本身。使用F 的概率。如果变量的F 值的显著性水平小于“输入”值，则将该变量选入到模型中，如果该显著性水平大于“剔除”值，则将该变量从模型中移

49、去。“输入”值必须小于“剔除”值，且两者均必须为正数。要将更多的变量选入到模型中，请增加“输入”值。要将更多的变量从模型中移去，请降低“剔除”值。精品好资料-如有侵权请联系网站删除精品好资料-如有侵权请联系网站删除使用F 的值。如果变量的F 值大于“输入”值，则该变量输入模型，如果F 值小于“剔除”值，则该变量从模型中移去。“输入”值必须大于“剔除”值，且两者均必须为正数。要将更多的变量选入到模型中，请降低“输入”值。要将更多的变量从模型中移去，请增大“剔除”值。在等式中包含常量：缺省情况下，回归模型包含常数项。取消选择此选项可强制使回归通过原点，实际上很少这样做。某些通过原点的回归结果无

50、法与包含常数的回归结果相比较。例如，不能以通常的方式解释R2。缺失值：您可以选择以下选项之一：按列表排除个案。只有所有变量均取有效值的个案才包含在分析中。按对排除个案。使用正被相关的变量对具有完整数据的个案来计算回归分析所基于的相关系数。自由度基于最小成对N。使用均值替换。将所有个案用于计算，用变量的均值替换缺失观察值。本题中，不需要此项，故保持默认。点击继续返回主对话框（“线性回归”对话框），点击【确定】按钮后，在输出视图中看结果，表6.3 体重与饲料消耗量相关系数表 Correlations 饲料消耗量Y 体重X Pearson Correlation 饲料消耗量Y 1.000.818 体

展开阅读全文