《回归和相关性分析.ppt》由会员分享,可在线阅读,更多相关《回归和相关性分析.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1相关和回归分析相关分析概述 相关分析是一种常用的揭示变量之间相互关系的分析方 法,我们知道产品、过程、服务等质量存在波动性和规律 性,质量管理就是要揭示质量随过程变量变化的规律。发 现最关键的少数变量并加以改善和控制使过程保持在相 对稳定的高水平上。六西洛玛管理法正是一种基于数据 以客户要求为驱动的质量管理系统,所以利用相关、回归 等分析方注寻找影响质量的关键因素是六西格玛突玻策略 中分析阶段的主要任务。2相关和回归分析在六西格玛突破模式各阶段的作用从下图可看出,相关和回归分析在六西括玛突破策略的分析阶段可以验证输入输出结果间关系的真实性即原因的真实性并确定“关键的少数因素”。这是六西格玛分
2、析阶段的主要任务。在控制阶段,相关和回归分析法可以根据输入的变化对输出结果进行预测从而确定是否对输入进行调整。相关和回归分析的作用验证原因的真实性确定关键数变量对结果进行预测六西格玛突破策略鉴别优化测量分析改善控制3相关分析概述变量间的相关性 某工艺工程师想研究松香比重对焊点拉拔里的影响,测得一组数据如下:仔细观察这组数据,我们会发现一个规律,当松香比重提高时,焊点拉拔力也会相应提高,这表明焊点拉拔力和松香比重间存在一种关系,我们称松香比重和焊点拉拔力间存在相关关系.4散布图散布图是将一对变量用图形表示出来,两个变量分别对应于上图的X和Y坐标轴,这样每对对应的X、Y数据均可在散布图上以一个点来
3、表示.观察散布图的形状即可以了解变量X和Y的相互关系.上例松香比重和焊点拉拔力的关系可用散布图表示如下:5本散布图中的lO个点的坐标分别是:(O.760,5.1)(0.785,6.8)(0.780,6.2)(0.770,5.9)(0.820,7.5)(0.765,5.0)(O.815,7.0)(O.788,6.9)(O.790,7.1)(0.769,5.9)以上坐标和松香比重与焊点拉拔力数据一一对应。从上面的散布图上我们可以看到一个规律:数据分布呈一条细带型(在一个带型范围内);从图的左下角延期伸至右上角。但通过上图我们所能了解的信息是很粗略的,怎样才能将x和y之间的这种相关关系量化呢,有无一
4、个参数来衡量x和v之间相关的程度昵?有,这就是我们将要讨论的相关系数。6相关系数相关系数是用来描述变量x和y之间线性相关程度的参数用r来表示,它具有以下特性.1.r的值介于(-1,1)之间.2.r的绝对值越接近1表示x和y之间的线性关系越密切.3.r0,x和 y呈正相关,r0,x与y呈负相关,r=0,x与y之间4.无线性相关关系.5.r的计算公式其中:78因为r=0.88较大,故认为松香比重和焊点拉拔力之间存在较强的正相关关系.9散布图形状与相关系数的对应关系散布图可直观观察变量间的相互关系,但无法量化.相关系数r可以精确量化x和y的相关关系.如果将二者对应起来,即可以通过散布图获取更多的较为
5、准确的信息.下面是几种常见散布图和对应的相关系数.10结果相关系数的几个特性及上面的散布图可对变量间的相关关系有较深入的理解.11 一元线回归分析概述通过相关分析可以确定变量间的相关性及相关程度,在解决实际问题时,仅做到这一步是不够的。因为我们分析的目的是发现主要因素并找到其影响规律。即随着“关键的少数因素”的变化量为多少?回归分析就是用来定量描述因素x和因变量y间关系的方法。通过回归分析,我们可用方程来表示x和y的关系。从而发现y随x的变化规律。在六西格玛管理法的突破案略中,回归分析是强有力的工具,它可以筛选潜在的少数x,对y进行预测和优化及确定对应于y的最优值的x的水平设置。12一元性线回
6、归模型一元性线回归方程在本章第一节的例子中,我们做出的散布图如下:13从上面的散布图可看出,数据点大都分布在一条直线附近,由此可知松香比重(x)和焊点拉拨力(y)之间大致可认是线性关系,但同时这些点又不在一条直线上,这说明x与y的关系未确定到给定x就可唯一地确定出y的程度,即x与y之间不是函数关系.因为除了松香比重外,还有其它因素如预热温度、焊点温度、焊锡成分等对焊点拉拔力产生重要影响还有部分随机因素如环境温度湿度等也作用于y,如果我们只研究松香比重(x)和焊点拉拔力(y)二者之间关系,可甚量设出以下直线关系。y=a+bx+c其中:a、b称为回归系数 b为直线斜率 a为Y截距 e为模型的误差项
7、。代表随机误差。14用这个关系式确定的直线我们称作图因变量y的回归方程它量化了y于x之间的关系,本例的直线作于散布图上如下:从上图可以看出,归直线代表了x和y之间最接近的关系,即通过直线模型,以x里预测y时误差最小.15回归方程中直线斜率b和Y截距a的计算假设 为一组数据,须用回归方程对x和y的关系进行描述,当x=时y。的估计值为 上式中,我们希望求出的a和b的值能使在组中所有点上,y的估计值 与其实际观测值y 最接近,即我们需确定一条使组中所有点都与其比较接近的直线。这条直线的斜率b和Y截距a计算公式如下:N=1,n上式中:16利用以上公式,我们可求得上例:将a、b的值代入回归方程得:Y=-
8、23.04+37.47x17细看本例的回归方程,a=一23.04,y截距为负值,即如果x=0,y=-23.04。回到刚才的例子中,根据回归方程可知,若松香比重的值为O,焊点拉拔力为-23.04,这个结论令人啼笑皆非。原因何在?因为回归方程只是一种描述y和x关系的近似模型,它是根据x和y的现有取值作出的一种拟合,不能不考虑前提条件,以为这是万能的,有输入就有对应的输出,而是要将x和y限定在实际范围内才有意义,这一点非常重要.18 是否所有的成对数据都可用一元直线回归方程来描述?如何确认回归方程的准确度呢?并非所有成对数据都可用一元直线回归方程描述,因为有些变量之间不存在任何相关关系,有些变量之间
9、的相关关系无法用直线来描述。前面讲过,通过散布图和相关关系数我们可以检验变量间是否存在相关关系,及线性相关的程度,在对线性相关的一对变量建立起回归方程后,如何确认这个方程的可信程度呢?可用方差分析进行检验。回归方程的方差分析和F校验19回归方程的方差分析因变量y的波动可用 来表示此波动的影响因素有两个:一是由于x的变化引起的变化。一个是随机误差引起的波动.如果没有随机误差影响,只有y的影响,x和y之间就是函数关系,即对应于一个x的值,y有唯一精确的取值。因为有了随机误差的影响,回归方程才存在误差,误差的大小也决定了同归方程的可信度通过分析比较x引起的y的波动(称回归平方和)和随机误差引起的y的
10、波动(称残差平方和)即对回归方程进行方差分析,可以确认回归方程是否可信。20回归平方和与残差平方和的计算公式如下:其中:21对于现行回归,和 可用下式计算针对上例的线性回归方程,可计算回归平方和 及残差平方和 如下:22列出方差分析表如下23 残差分析 称为残差,分析残差可从中了解多方面的信息如可以直观地观察y的每个实际值与预测值偏差的大小上例的残差表如下24一般假设残差 服从正态分布N ,这表示残差以0为中心,分布在0两侧.为残差的方差.的估计 称为残差标准差,它确定了回归方程的精度.如果残差服从正态分布N ,则y的预测值落在 之内的概率约是95%.对于上例25是由回归方程可解释的总变差的百分比,公式如下:26其中:n=观测值的数量 p=回归方程中的项数27 一元线性回归分析例上节讲述了一元线性回归分析的基本方法,本节仍用第一节的例子来讲述一元线性回归分析的流程。回归分析用手工计算较烦琐,用MINITAB进行回归分析十分方便MINITAB丰富的图形和工作表输出可提供我们需要的所有信息。本节将借助MINITAB进行一元线性回归分析。捌:某工艺工程师想研究松香比重对焊点拉拔力的影响,测得一组数据如下表: