《第8章 相关分析和回归分析.ppt》由会员分享,可在线阅读,更多相关《第8章 相关分析和回归分析.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第 八八 章章 相关分析和回归分析相关分析和回归分析第一节第一节 相关分析相关分析第二节第二节 回归分析:一元线性回归回归分析:一元线性回归第三节第三节 回归分析:多元线性回归回归分析:多元线性回归第四节第四节 回归分析:非线性回归回归分析:非线性回归【问题引入问题引入】A化妆品公司对化妆品公司对L品牌制定了以销售品牌制定了以销售额最大化为目标的竞争策略,采取了一系额最大化为目标的竞争策略,采取了一系列措施:列措施:(1)广告营销:广告投入)广告营销:广告投入(2)产品研发:研发投入)产品研发:研发投入(3)降价营销:降低销售价格)降价营销:降低销售价格4/8/20232经过两年的经营,经过
2、两年的经营,L品牌的销售额翻品牌的销售额翻了三番,市场部收集了近两年了三番,市场部收集了近两年L品牌每个品牌每个月的产品销售额、研发投入、广告支出、月的产品销售额、研发投入、广告支出、平均销售价格数据(见表平均销售价格数据(见表8-1)。)。分析这两年来分析这两年来L品牌的销售额与广告品牌的销售额与广告营销、产品研发和降价营销等是否有关系营销、产品研发和降价营销等是否有关系?如果有关系,他们有是什么样的关系?如果有关系,他们有是什么样的关系?各项措施中,哪项措施对销售额的影响最各项措施中,哪项措施对销售额的影响最大?大?4/8/20233【问题分析问题分析】L品牌的销售额与广告营销、产品研发和
3、降价品牌的销售额与广告营销、产品研发和降价 营销等是否有关系?营销等是否有关系?”如果有关系,他们有是什么样的关系?如果有关系,他们有是什么样的关系?各项措施中,哪项措施对销售额的影响最大?各项措施中,哪项措施对销售额的影响最大?相关分析和回归分析相关分析和回归分析 那么变量之间的关系有哪些呢那么变量之间的关系有哪些呢?4/8/20234变量之间的关系变量之间的关系 变量之间的关系按照关系的强弱程度,变量之间的关系按照关系的强弱程度,可以分为三类:可以分为三类:l确定性的函数关系确定性的函数关系l相关关系相关关系l没有关系没有关系 统计学所研究的统计学所研究的4/8/20235用相关分析方法分
4、析变量之间的相关用相关分析方法分析变量之间的相关关系,通常有两个角度:关系,通常有两个角度:l相关关系的相关关系的描述描述l相关关系的相关关系的度量度量第第一一节节 相关分析相关分析 一、相关关系的描述一、相关关系的描述散点图散点图描述变量的相关关系的方法有很多,描述变量的相关关系的方法有很多,其中最常用、最直观的方法是作变量之间其中最常用、最直观的方法是作变量之间的的散点图散点图。4/8/20237【例题例题8-1】用用Excel分别绘制本章问题引分别绘制本章问题引入中的产品销售额对广告支出、研发投入入中的产品销售额对广告支出、研发投入和平均销售价格的散点图。和平均销售价格的散点图。【画散点
5、图的画散点图的Excel操作操作】4/8/20238相关关系的类型相关关系的类型变量个数:变量个数:简单相关简单相关、多重相关(、多重相关(“复相关复相关”)相关关系的表现形式:线性相关、非线性相关相关关系的表现形式:线性相关、非线性相关相关关系变化的方向:正相关、负相关相关关系变化的方向:正相关、负相关相关的程度:完全相关、不相关、相关的程度:完全相关、不相关、不完全相关不完全相关4/8/20239二、简单线性相关关系的度量二、简单线性相关关系的度量 相关系数相关系数l总体的简单线性相关系数:总体的简单线性相关系数:l样本的简单线性相关系数:样本的简单线性相关系数:其中:其中:x和和y是样本
6、观测值,是样本观测值,和和 是对应样本的平均是对应样本的平均值。值。【例题例题8-2】4/8/202310相关系数的特点相关系数的特点1、关系类型、关系类型定性定性 取值范围取值范围-1r 1 r=-1:完全负相关:完全负相关 r=1:完全正相关:完全正相关 r=0:不存在:不存在线性线性相关关系相关关系 -1 r0:负相关负相关 0r 1:正相关正相关 2、关系的强弱、关系的强弱定量定量|r|0.8:高度相关:高度相关|r|1:相关关系越强,:相关关系越强,|r|0:相关关系越弱:相关关系越弱4/8/202311注意注意l相关系数中的相关系数中的x和和y都是相互对称的随机变量;都是相互对称的
7、随机变量;l线线性性相关系数只反映变量间的线性相关程度,相关系数只反映变量间的线性相关程度,不能说明非线性相关关系;不能说明非线性相关关系;l相关系数只能反映线性相关程度,相关系数只能反映线性相关程度,不能确定因不能确定因 果关系,不能说明相关关系具体接近哪条直线果关系,不能说明相关关系具体接近哪条直线【思考思考】变量间的因果关系及隐藏在随机性后面变量间的因果关系及隐藏在随机性后面的统计规律性如何测量?的统计规律性如何测量?回归分析回归分析4/8/202312关于回归关于回归l统计分析方法的基础方法统计分析方法的基础方法l高尔顿高尔顿l子代尺寸与父代尺寸关系的研究子代尺寸与父代尺寸关系的研究在
8、统计学中,我们把通过一个或多个自变在统计学中,我们把通过一个或多个自变量的值来确定因变量平均值的研究称为量的值来确定因变量平均值的研究称为回归分析回归分析。第二节第二节 回归分析:一元线性回归回归分析:一元线性回归 按照自变量的个数不同按照自变量的个数不同l一元回归分析一元回归分析l多元回归分析多元回归分析按照变量之间的关系形式不同按照变量之间的关系形式不同l线性回归分析线性回归分析l非线性回归分析非线性回归分析 4/8/202314回归分析的四个步骤:回归分析的四个步骤:一、模型的设定一、模型的设定二、模型参数的估计二、模型参数的估计三、模型的检验三、模型的检验四、模型的应用四、模型的应用4
9、/8/202315一、一元线性回归模型的设定一、一元线性回归模型的设定一般来说,我们是通过确定回归模型的回一般来说,我们是通过确定回归模型的回归函数来对模型进行设定。归函数来对模型进行设定。l总体回归函数总体回归函数条件均值形式:条件均值形式:E(y)=0+1x个别值形式:个别值形式:y=0+1 x+其中,其中,0和和 1称为模型的参数称为模型的参数,是误差项是误差项 4/8/202316l样本回归函数样本回归函数 条件均值形式:条件均值形式:个别值形式:个别值形式:其中:其中:是样本回归直线在是样本回归直线在y轴上的截距;轴上的截距;是直线的斜率;是直线的斜率;是是y的估计值;的估计值;是样
10、本回归模型的残差,是样本回归函数预测是样本回归模型的残差,是样本回归函数预测结果与实际值的差。结果与实际值的差。【例题例题8-3】4/8/202317二、一元线性回归模型参数的估计二、一元线性回归模型参数的估计在给定一组样本数据时,对一元线性回归在给定一组样本数据时,对一元线性回归模型的参数进行估计,我们是先估计样本回归模型的参数进行估计,我们是先估计样本回归函数中的函数中的 和和 ,然后用,然后用 和和 来估计总体来估计总体回归函数中的回归函数中的 和和 。在估计模型参数之前,我们需要对设定的在估计模型参数之前,我们需要对设定的一元线性回归模型进行一些一元线性回归模型进行一些假定假定。4/8
11、/202318一元线性回归模型的基本假定一元线性回归模型的基本假定1、对模型形式设定的假定:、对模型形式设定的假定:假定因变量假定因变量y与自变量与自变量x之间具有线性关系;之间具有线性关系;2、对自变量、对自变量x的假定:的假定:假定在重复抽样中,自变量假定在重复抽样中,自变量x的取值是固定的取值是固定 的,即的,即x非随机;非随机;4/8/202319一元线性回归模型的基本假定一元线性回归模型的基本假定3.对误差项对误差项的假定:的假定:零均值:零均值:E()=0同方差:对所有的同方差:对所有的x值,值,的方差的方差2都相同都相同正态性:误差项正态性:误差项N(0,2)无自相关:误差项无自
12、相关:误差项的逐次值互不相关,的逐次值互不相关,即即Cov(i,j)=0,(,(ij)与与x不相关不相关:误差项误差项与与x值不相关值不相关在满足以上假定时,我们就可以使用在满足以上假定时,我们就可以使用最小二乘法最小二乘法来来估计模型的参数。估计模型的参数。4/8/202320最小二乘估计最小二乘估计所谓最小二乘法,就是使因变量的观察值所谓最小二乘法,就是使因变量的观察值与估计值之间的离差平方和达到最小时,估计与估计值之间的离差平方和达到最小时,估计 和和 的方法。的方法。用公式表达:用公式表达:即:即:最小最小4/8/202321最小二乘估计最小二乘估计 根据最小二乘法的要求,可以得到根据
13、最小二乘法的要求,可以得到 和和 的计算公式如下:的计算公式如下:【例题例题8-4】4/8/202322最小二乘估计式的性质最小二乘估计式的性质 最小二乘法拟合的直线代表最小二乘法拟合的直线代表x与与y之间的关系之间的关系与实际数据的误差比其他任何直线都小。与实际数据的误差比其他任何直线都小。最小二乘法计算的一元线性回归模型的结果最小二乘法计算的一元线性回归模型的结果具有以下特点:具有以下特点:l线性特征线性特征l无偏特性无偏特性l最小方差性:在所有的线性无偏估计中,最小方差性:在所有的线性无偏估计中,OLS 估计具有最小方差。估计具有最小方差。结论:在古典假定下,一元线性回归的结论:在古典假
14、定下,一元线性回归的OLS估计估计式是最佳线性无偏估计式。式是最佳线性无偏估计式。4/8/202323三、一元线性回归模型的检验三、一元线性回归模型的检验对一元线性回归模型,我们通常作两对一元线性回归模型,我们通常作两个检验:个检验:l拟合优度检验拟合优度检验l回归系数的显著性检验回归系数的显著性检验(在一元线性模型(在一元线性模型中,中,“回归系数的显著性检验回归系数的显著性检验”也可以称为也可以称为“线性关系检验线性关系检验”)4/8/202324一元线性回归模型的检验一元线性回归模型的检验1.拟合优度检验拟合优度检验从右图可以看出,从右图可以看出,有的点落在直线上,而有的点落在直线上,而
15、有的点偏离了直线有的点偏离了直线。这说明这说明直线对数直线对数据是不完全拟合的据是不完全拟合的。因此我们有必要因此我们有必要来计算来计算直线到底有多大直线到底有多大程度上拟合了数据程度上拟合了数据。4/8/202325我们把样本回归线对样本观测数据拟合的我们把样本回归线对样本观测数据拟合的优劣程度称为优劣程度称为样本回归线的样本回归线的拟合优度拟合优度。我们可以通过计算回归线的拟合优度来对我们可以通过计算回归线的拟合优度来对模型进行模型进行拟合优度检验拟合优度检验。拟拟合合优优度度的的度度量量是是建建立立在在对对数数据据总总变变差差分分解解的基础上的。的基础上的。一元线性回归模型的检验一元线性
16、回归模型的检验4/8/202326(1)变差)变差因变量因变量 y 的取值是不同的,的取值是不同的,y 取值的这种取值的这种波动称为波动称为变差变差。变差来源于两个方面:变差来源于两个方面:来源来源1:由于自变量:由于自变量 x 的取值不同造成的的取值不同造成的来源来源2:除:除 x 以外的其他因素以外的其他因素(如如x对对y的非线性的非线性影响、测量误差等影响、测量误差等)的影响的影响 一元线性回归模型的检验一元线性回归模型的检验4/8/202327分析变差的两个来源,我们发现:分析变差的两个来源,我们发现:来源来源1 1可以回归的结果来解释,即:可以回归的结果来解释,即:来源来源2 2不可
17、以用回归的结果来解释,即:不可以用回归的结果来解释,即:对所有数据的总变差进行分解:对所有数据的总变差进行分解:可以证明得到:可以证明得到:4/8/202328(3)在)在 中:中:即:即:SST=SSR+SSE称为称为总平方和总平方和,记作记作SST(反映因变量的反映因变量的 n 个观察值与其均值个观察值与其均值的总离差。)的总离差。)称为称为回归平方和回归平方和,记作,记作SSR(反映自变量(反映自变量 x 的变化对因的变化对因变量变量 y 取值变化的影响,或取值变化的影响,或者说,是由于者说,是由于 x 与与 y 之间的之间的线性关系引起的线性关系引起的 y 的取值变的取值变化,也称为可
18、解释的平方和。化,也称为可解释的平方和。)称为称为残差平方和残差平方和,记作记作SSE(反映(反映除除 x 以外的其他以外的其他因素对因素对 y 取值的影响,取值的影响,也称为不可解释的平方也称为不可解释的平方和或余平方和。)和或余平方和。)4/8/202329拟合优度拟合优度系数(或判定系数)系数(或判定系数)R2 R2=SSR/SST=1-SSE/SST【特点特点】l反映回归直线的拟合程度反映回归直线的拟合程度l取值范围在取值范围在 0,1 之间之间lR2 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R20,说明,说明回归方程拟合的越差回归方程拟合的越差l l在一元回归中在一元回
19、归中在一元回归中在一元回归中,判定系数等于相关系数的平方,判定系数等于相关系数的平方,即即R2(r)24/8/2023302.回归系数的检验回归系数的检验(1)定义:检验)定义:检验 x 与与 y 之间是否具有线性关之间是否具有线性关系,或者说,检验自变量系,或者说,检验自变量 x 对因变量对因变量 y 的的影响是否显著影响是否显著(2)注意:)注意:在一元线性回归中,检验自变量在一元线性回归中,检验自变量对因变量是否有影响,也就是检验模型的对因变量是否有影响,也就是检验模型的线性关系是否显著线性关系是否显著(3)理论基础:)理论基础:回归系数的抽样分布回归系数的抽样分布4/8/202331(
20、4)检验步骤)检验步骤l提出假设:提出假设:H0:1=0(没有线性关系没有线性关系)H1:1 0(有线性关系有线性关系)l计算检验的统计量:计算检验的统计量:l确定显著性水平确定显著性水平,若,若|t|t,则拒绝,则拒绝H0,认为模型,认为模型通过检验,认为通过检验,认为x对对y有显著影响;若有显著影响;若|t|t,不拒绝,不拒绝H0,认为模型没有通过检验,认为,认为模型没有通过检验,认为x对对y没有显著影响。没有显著影响。【例题例题8-6】4/8/202332四、一元线性回归模型的应用四、一元线性回归模型的应用当模型通过以上检验之后,我们认为模型当模型通过以上检验之后,我们认为模型是合理的、
21、可行的。因此,我们可以应用以上是合理的、可行的。因此,我们可以应用以上模型来解决实际问题。模型来解决实际问题。一元线性回归模型应用主要有两方面:一元线性回归模型应用主要有两方面:l解释因变量与自变量之间的具体数量形式和解释因变量与自变量之间的具体数量形式和数量关系数量关系l根据自变量的已知值,使用模型对因变量的根据自变量的已知值,使用模型对因变量的值进行预测。值进行预测。4/8/2023331.模型的意义模型的意义根据模型根据模型 ,表示当表示当x每增每增加加1个单位,个单位,会增加会增加 个单位。个单位。【例题例题8-7】4/8/2023342.预测应用预测应用预测是指根据自变量预测是指根据
22、自变量x的取值估计或的取值估计或预测因变量预测因变量y的取值。的取值。因变量因变量y的预测具体分以下的预测具体分以下4种情况:种情况:l点预测:点预测:y的平均值的点预测;的平均值的点预测;y 的个别值的的个别值的点预测点预测l区间预测:区间预测:y 的平均值的置信区间预测;的平均值的置信区间预测;y 的的个别值的预测区间预测个别值的预测区间预测4/8/202335(1)点估计)点估计ly的平均值的点估计的平均值的点估计利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量x的一个给定值的一个给定值xF,求出因变量,求出因变量y的平均值的平均值的一个估计值的一个估计值E(yF),就是平均值的点估,就是平均值的点估计。计。ly的个别值的点估计的个别值的点估计同同“y的平均值的点估计的平均值的点估计”4/8/202336(2)区间估计)区间估计ly的平均值的置信区间估计的平均值的置信区间估计y平均值平均值 在在1-置信水平下的置信区间:置信水平下的置信区间:(式中:(式中:为估计标准误差);为估计标准误差);l y的个别值的预测区间估计的个别值的预测区间估计y的个别值的个别值yF在在1-置信水平下的预测区间置信水平下的预测区间为:为:【例题例题8-8】4/8/202337