《回归分析与聚类分析.ppt》由会员分享,可在线阅读,更多相关《回归分析与聚类分析.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回归分析与聚类分析1现在学习的是第1页,共28页8.1 一元线性回归一元线性回归(1)确定性关系确定性关系对应关系、函数关系。其变量称确定性变量。对应关系、函数关系。其变量称确定性变量。(2)相关关系相关关系对应的变量称随机变量。没有一一对应的函数关系,对应的变量称随机变量。没有一一对应的函数关系,但有统计规律但有统计规律散点图、回归方程。散点图、回归方程。一元回归分析研究单因素与试验指标间相关关系;多元回归分析研究多因素与试验指标间相关关系;线性回归、非线性回归相关关系为线性或非线性。8.1.1 概述科研与生产中,变量之间的关系有两种情况科研与生产中,变量之间的关系有两种情况2现在学习的是第
2、2页,共28页设有一组试验数据xi,yi(i=1,2,n),其中x是自变量,y 是因变量。若x,y 符合线性关系,或已知经验公式为直线形式,即:8.1 一元线性回归一元线性回归8.1.2 回归方法 a,b 称为回归系数;称为回归系数;是由是由xi代入回归方程的计算值,称为回归值。代入回归方程的计算值,称为回归值。3现在学习的是第3页,共28页 与与yi 之间的偏差称为残差,用之间的偏差称为残差,用ei 表示,则有:表示,则有:残差平方值(考虑到残差有正有负)之和为:残差平方值(考虑到残差有正有负)之和为:显然,只有残差平方和最小时,回归方程与试验值的拟合程度最好。显然,只有残差平方和最小时,回
3、归方程与试验值的拟合程度最好。残差平方和残差平方和SSe为为a,b的函数,即:的函数,即:SSe=f(a,b),为使为使SSe值到达极小,根据极值原理,只要对上式分别对值到达极小,根据极值原理,只要对上式分别对a,b求偏求偏导数,并令其等于零,求解方程组即可求得导数,并令其等于零,求解方程组即可求得a,b之值之值最小二乘法原理。最小二乘法原理。4现在学习的是第4页,共28页要使误差最小,则要使误差最小,则对方程组求解,即可得到回归系数对方程组求解,即可得到回归系数a,b的计算式:的计算式:正规方程组5现在学习的是第5页,共28页为了方便计算,令:为了方便计算,令:于是:于是:6现在学习的是第6
4、页,共28页(1)相关系数检验法相关系数检验法 先求出回归方程的相关系数,然后与临界值进行对比:先求出回归方程的相关系数,然后与临界值进行对比:计算值计算值临界值临界值两变量不是独立,相关关系成立;两变量不是独立,相关关系成立;计算值计算值F0.01(fR,fe),称,称 x与与y有非常显著的线性关系,用两有非常显著的线性关系,用两个个“*”号表示号表示2.若若F0.05(fR,fe)F F0.01(fR,fe),称称 x与与y有有显显著著的的线线性性关关系,用一个系,用一个“*”号表示;号表示;3.若若F F0.01(fR,fe),称,称 y与与x1,x2,xm有非常显著的线有非常显著的线性
5、关系,用两个性关系,用两个“*”号表示号表示2.若若F0.05(fR,fe)FF0.01(fR,fe),称称y与与x1,x2,xm有有显显著的线性关系,用一个著的线性关系,用一个“*”号表示;号表示;3.若若F F0.05(fR,fe),则则称称y与与x1,x2,xm没没有有明明显显著著的线性关系,回归方程不可信的线性关系,回归方程不可信。16现在学习的是第16页,共28页8.3 主成分分析主成分分析 多元统计分析处理的是多变量(多指标)问题。由于变多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一
6、定的相关但在实际问题中,变量之间可能存在一定的相关性,多变量中可能存在信息的重叠。因此,人们自然性,多变量中可能存在信息的重叠。因此,人们自然希望通过克服相关性、重叠性,用较少的变量来代替希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量原来较多的变量,而这种代替可以反映原来多个变量的大部分信息的大部分信息.这实际上是一种这实际上是一种“降维降维”的思想。的思想。17现在学习的是第17页,共28页 主成分分析也称主分量分析,是由主成分分析也称主分量分析,是由Hotelling于于1933年年首先提出的。首先提出的。由于多个变量之间往往存在着一定程度的相
7、关性。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,第二个线性组合继续这个快速提取的过程,直到,直到所提取的信息与原指标相差不多时为止。所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。这就是主成分分析的思想。18现在学习的是第18页,共28页 在力求数据信息丢失最少的原则下,对高维的变量空间在力求数据信息丢失最少的原则下,对高维的
8、变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。面的信息。这些综合指标就称为主成分。要讨论的问题是:要讨论的问题是:(1)(1)基于相关系数矩阵还是基于协方差矩阵做主成分基于相关系数矩阵还是基于协方差矩阵做主成分基于相关系数矩阵还是基于协方差矩阵做主成分基于相关系数矩阵还是基于协方差矩阵做主成分分析分析分析分析 当分析中所选择的经济变量具有不同的量纲,变量水平当分析中所选择的经济变量具有不同的
9、量纲,变量水平当分析中所选择的经济变量具有不同的量纲,变量水平当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。差异很大,应该选择基于相关系数矩阵的主成分分析。差异很大,应该选择基于相关系数矩阵的主成分分析。差异很大,应该选择基于相关系数矩阵的主成分分析。19现在学习的是第19页,共28页 (2)选择几个主成分)选择几个主成分)选择几个主成分)选择几个主成分 主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成分的个数应该小于原始变量的个数。成分的个数应该小于原始变量的个数。关关关关于于于于保保保保留留留留几几几几个个个
10、个主主主主成成成成分分分分,应应应应该该该该权权权权衡衡衡衡主主主主成成成成分分分分个个个个数数数数和和和和保保保保留留留留的信息。的信息。的信息。的信息。(3 3)如何解释主成分所包含的经济意义)如何解释主成分所包含的经济意义20现在学习的是第20页,共28页8.3.2 主成分的计算主成分的计算 设两个变量(x1,x2)的样板数据如下表 X1x11x12.x1nx2x21x22.x2n求得平均值和协和方差矩阵分别为 并有 适当选取(a1,a2)使y1处于方差最大的方向。21现在学习的是第21页,共28页设总体设总体X的样本数据阵为的样本数据阵为则样本协方差阵则样本协方差阵S及样本相关阵及样本
11、相关阵R分别为分别为22现在学习的是第22页,共28页其中其中 下面以样本协方差阵下面以样本协方差阵S作为作为 的估计或用的估计或用R作为总体相关作为总体相关阵的估计,然后按上节方法求样本主成分。阵的估计,然后按上节方法求样本主成分。23现在学习的是第23页,共28页8.4 聚类分析聚类分析8.4.1 概述概述 聚类分析的基本思想是在样品之间定义距离,在样品之间聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系程度。按相似程度的大小,
12、将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类次按照某些要求对样品(或变量)进行分类.24现在学习的是第24页,共28页(距离可以自己定义,只要满足距离的条件)距离可以自己定义,只要满足距离的条件)8.4.2 样品间的距离样品间的距离25现在学习的是第25页,共28页一般情况下,我们常用到下面定义的几种距离欧氏距离(Euclidean distance)绝对距离(Block距离)明考斯基距离(Minkowski)26现在学习的是第26页,共28页切比雪夫距离(Chebychev)马氏距离方差加权距离27现在学习的是第27页,共28页方法名称参 数最短距离1/21/20-1/2最远距离1/21/201/2重心距离00类平均距离 0离差平方和距离0五五种种系系统统聚聚类类方方法法的的距距离离参参数数值值 8.4.3 类聚方法类聚方法28现在学习的是第28页,共28页