《11.相关性分析.ppt》由会员分享,可在线阅读,更多相关《11.相关性分析.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、六西格玛绿带培训教材六西格玛绿带培训教材相关性分析相关性分析10-1结束对本章节的学习后,学员将可以:结束对本章节的学习后,学员将可以:解释什么是相关分析解释什么是相关分析进行相关分析进行相关分析 散点图散点图 相关系数相关系数 常见错误常见错误学习目的学习目的定义:回归是确定一个响应变量定义:回归是确定一个响应变量(或输出或输出)与一个或多个因变量与一个或多个因变量(或输入或输入)之间的统计关系的方法。之间的统计关系的方法。Y=f(x1,x2,xn)回归分析回归分析其中:其中:Y是响应变量是响应变量X1到到xn是因变量是因变量10-2定义:决定两个来自不同变量源的响应(或输出)之间线性关系的
2、方定义:决定两个来自不同变量源的响应(或输出)之间线性关系的方法。法。也代表了两个变量间的线性关联程度。由一个相关系数也代表了两个变量间的线性关联程度。由一个相关系数(R)来衡量两个来衡量两个变量间的联系强度,在这里变量间的联系强度,在这里-1 R 1。按照惯例,按照惯例,R表示真实的系数,表示真实的系数,R表示我们的最佳估算。表示我们的最佳估算。相关相关回归与相关回归与相关10-3回归分析回归分析回归分析建立关于因变量与回归分析建立关于因变量与响应变量之间关系的估计方响应变量之间关系的估计方程式(公式)。程式(公式)。相关分析相关分析量化两个变量之间的线性关量化两个变量之间的线性关系的程度,
3、即等式的适合性系的程度,即等式的适合性如何?如何?VS散点图散点图以图形方式展示每个样本的两个特性,每个坐标轴表示一个特性值:以图形方式展示每个样本的两个特性,每个坐标轴表示一个特性值:X轴轴-因变量因变量Y轴轴-响应变量响应变量散点图的目的是直观地说明两个变量之间的关系散点图的目的是直观地说明两个变量之间的关系与关联程度。与关联程度。散点图散点图-图形展示关系图形展示关系10-4用用Minitab做散点图做散点图在在Minitab中,可通过下列方式做散点图:中,可通过下列方式做散点图:a)图形图形散点图散点图b)统计统计回归回归拟合线图拟合线图例例1某黑带想了解一化学蒸馏过程中氧气的纯度某黑
4、带想了解一化学蒸馏过程中氧气的纯度(Y)与冷凝器中的炭氢化与冷凝器中的炭氢化合物的合物的%之间的关系。之间的关系。数据在数据在Oxygen purity.mtw请做出散点图请做出散点图Oxygen purity(Y)v s Hydrocarbon%(x)10-5例例1Minitab:图形图形散点图散点图(oxygen purity.mtw)例例110-6相关系数相关系数:R10-7属性属性R值取范围从值取范围从-1.0到到+1.0,即,即-1 R 1。R0意味和一个正线性相关,即是意味和一个正线性相关,即是Y随着随着X的增加而增加。的增加而增加。R=-1意味着一个完全负线性关系。意味着一个完全
5、负线性关系。R=1意味着一个完全正线性关系。意味着一个完全正线性关系。R=0意味着无线性关系。意味着无线性关系。相关系数相关系数(R)有时又称为皮尔森成果,用来测定两个变量之间的关系强有时又称为皮尔森成果,用来测定两个变量之间的关系强度。度。R=0R=0意味着无线性关系。意味着无线性关系。R=0并不意味着无关系。并不意味着无关系。相关系数相关系数按照惯例按照惯例p表示总体的相关系数。表示总体的相关系数。r表示样本的相关系数。表示样本的相关系数。在在Minitab中,两个或多个变量间的相关系数中,两个或多个变量间的相关系数(R)及其统计显著性及其统计显著性可以通过下列方法得到:可以通过下列方法得
6、到:统计统计基本统计量基本统计量相关相关10-8例例2从文件从文件Oxygen purity.mtv中,测定出中,测定出Oxygen purity Hydrocarbon%(X)的相关系数。的相关系数。例例2:Minitab的对话窗口的对话窗口结论是什么?结论是什么?H0:p=0(无相关性无相关性)Ha:p0(有相关性)有相关性)Correlations:Oxygen purity%,Hydrocarbon%Pearson correlation of Oxygen purity%and Hydrocarbon%=0.937P-Value=0.000相关分析的常见错误相关分析的常见错误收集数据
7、范围过窄收集数据范围过窄外推法外推法因果归属因果归属掩饰真正的相关或创造虚假的相关掩饰真正的相关或创造虚假的相关过多的集中在相关系数上过多的集中在相关系数上10-10错误错误1:数据覆盖范围过窄:数据覆盖范围过窄收集的数据覆盖范围过窄收集的数据覆盖范围过窄X的范围越宽就会产生更佳的估算回归线。的范围越宽就会产生更佳的估算回归线。错误错误II:外推法:外推法在数据范围以外对相关性进行外推在数据范围以外对相关性进行外推数据范围内的关系在其他区域内不一定适用。数据范围内的关系在其他区域内不一定适用。10-11错误错误III:因果归属:因果归属相关并不意味着因果,仅仅是两个变量间存在的关系。相关并不意
8、味着因果,仅仅是两个变量间存在的关系。错误错误IV:曲解数据曲解数据10-12掩饰真实的相关或者创造虚假的相关掩饰真实的相关或者创造虚假的相关数据实际上是来自不同的数据来源。数据实际上是来自不同的数据来源。错误错误V:过多的集中于过多的集中于R过多的集中于相关系数过多的集中于相关系数上图有相关系数上图有相关系数R0.7错误错误V(续续)10-13通常,人们过于把通常,人们过于把R(或(或R2)值作为一个)值作为一个“好好”的相关的依据。前面的图的相关的依据。前面的图形说明了将数据图表化是多么重要。形说明了将数据图表化是多么重要。但是当图表(和接下来的诊断)展示一个合法的线性关系或数学模型时但是当图表(和接下来的诊断)展示一个合法的线性关系或数学模型时,我们可以做出如下结论:,我们可以做出如下结论:R20.4:相关性明确存在相关性明确存在(n25时时)R20.7:我们可以使用该关系,但必须慎重我们可以使用该关系,但必须慎重(n9时时)R20.9:可使用的关系存在可使用的关系存在R20.95:关系良好:关系良好注意:这些注意:这些“规则规则”是基是基于经验的主观判断。于经验的主观判断。