《方差分析与回归.ppt》由会员分享,可在线阅读,更多相关《方差分析与回归.ppt(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学原理第八章 方差分析与回归统计学原理第一节 方差分析统计学原理方差分析的概念比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。ANOVA:Analysis Of Variance方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。统计学原理考察下列例子:某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。统计学原理观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值
2、的差异属于偶然差异。统计学原理方差分析的原理计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。建立原假设 H0:各组平均数相等构造统计量 F组间方差组内方差在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。统计学原理单因素方差分析统计学原理使用EXCEL中的数据分析功能,生成方差分析表如下:其中:组间离差平方和 SSA(Sum of S
3、quares for factor A)39.084 误差项离差平方和 SSE(Sum of Squares for Error)76.8455 总离差平方和 SST(Sum of Squares for Total)115.9295 P-value值为0.000466,小于0.05,所以拒绝原假设。统计学原理关系强度组间方差占总方差的大小。该数值反映出在总变异中,能够用因素来解释的变异的大小。统计学原理双因素方差分析观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。其中SSE的自由度为 (n
4、-r-k)统计学原理调用EXCEL中的双因素方差分析工具,计算方差分析表如下:其中行差异(地区因素)对于销售无显著影响;列差异(包装因素)对于销售有显著影响。统计学原理第二节 相关分析统计学原理变量间的相关性分析相关关系o变量间存在的不确定的数量关系,称为相关关系分类变量:列联表分析顺序变量:Spearman等级相关分析分类变量与数值变量:方差分析数值变量:Pearson相关分析统计学原理相关系数的计算总体相关系数与样本相关系数统计学原理相关系数的变化形式相关系数的实质,是两个数的协方差除以各自的标准差。统计学原理相关系数的解释相关系数为正时,说明数据间存在正相关;相关系数为负时,说明数据间存
5、在负相关。相关系数的绝对值越大,说明相关性越强。相关系数的绝对值越接近于0,说明变量间的相关性越弱。相关系数值最大为+1,最小为-1。相关系数为+1或-1时,表示两组数据之间存在完全的相关性,即函数关系。统计学原理相关系数的显著性检验检验总体相关系数是否为0原假设为总体相关系数为0。通过T检验进行判断注意:相关系数显著并不意味着相关性强。统计学原理统计学原理等级相关(Rank Correlation)等级相关用于两个定序尺度测量的样本间相关程度的测定。将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。如果两个测度完全一致,则U与V的差异应当为0。计算DU
6、V的平方和,该值越大,表明相关性越差。如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)统计学原理考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R0.3212。统计学原理第三节 线性回归统计学原理回归分析的内容1、通过一组样本数据,确定变量间的函数关系2、对函数关系进行统计检验3、通过回归方程,进行估计或预测,并对估计结果的可靠性进行判断。统计学原理回归模型因变量:被解释的变量自变量:用于解释因变量的其他变量。误差项:因变量中不能被函数关系解释的部分。线性回归模型:统计学原理线性回归模型的假设因变量y与自变量x
7、之间存在线性关系;自变量x的取值是固定的,不具有随机性;误差项相互独立,并服从正态分布;误差项的期望为0;误差项的方差相等。统计学原理估计回归方程的最小二乘法统计学原理利用EXCEL求解统计学原理统计学原理利用EXCEL求解产生三个部分回归统计:相关系数,判定系数,调整的判定系数,标准误差,观测值数量方差分析:自由度,回归平方和,残差平方和,总平方和,回归和残差的均方差,检验统计量,显著性水平参数估计结果:截距,斜率,标准误差,T统计量,P-level值,截距与斜率的置信区间统计学原理回归统计判定系数:回归平方和占总平方和的比例,反映出回归直线对观测数据的拟合程度。估计标准误差:均方残差的平方
8、根。统计学原理方差分析建立原假设:变量间不存在线性关系检验统计量为回归平方和与残差平方和的比值。服从F分布。统计学原理回归系数检验建立原假设:回归系数为0使用T检验。利用软件提供的P-level值进行判断。oP-level0.05时,表示系数显著。即该自变量对于因变量具有解释作用。统计学原理利用回归方程进行估计(P335)利用回归方程,在给定x的情况下,可以对y的期望值进行点估计或区间估计。Y期望值的置信区间上下限如下:统计学原理利用回归方程进行预测预测与估计的区别在于o预测是确定一个具体的数值o估计是确定期望值统计学原理残差分析残差是否服从正态分布;残差是否具有同方差特征;残差是否存在序列相关特征。