《统计学第十一章.ppt》由会员分享,可在线阅读,更多相关《统计学第十一章.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十一章第十一章 相关与回归分析相关与回归分析l变量间关系的度量变量间关系的度量l一元线性回归分析一元线性回归分析第一节第一节 变量间关系的度量变量间关系的度量l变量间的关系变量间的关系l相关关系的描述与测度相关关系的描述与测度一、变量间的关系一、变量间的关系l在生产经营活动中,我们经常要对在生产经营活动中,我们经常要对变量之间的关变量之间的关系系进行分析。进行分析。l比如,在企业生产中,我们要对影响生产成本的比如,在企业生产中,我们要对影响生产成本的各种因素进行分析,以达到控制成本的目的;在各种因素进行分析,以达到控制成本的目的;在农业生产中,我们需要研究农作物产量与施肥量农业生产中,我们需
2、要研究农作物产量与施肥量的关系,以便分析施肥量对产量的影响,进而确的关系,以便分析施肥量对产量的影响,进而确定合理的施肥量;商业活动中,我们需要分析广定合理的施肥量;商业活动中,我们需要分析广告费支出与销售量之间的关系,进而通过广告费告费支出与销售量之间的关系,进而通过广告费支出来预测销售量等。支出来预测销售量等。l变量之间的关系形态可分为两种类型:变量之间的关系形态可分为两种类型:函数关系函数关系和相关关系。和相关关系。我们比较熟悉的我们比较熟悉的一、变量间的关系一、变量间的关系l例:某种产品的销售额和销售量之间的例:某种产品的销售额和销售量之间的关系。设销售额为关系。设销售额为y,销售量为
3、,销售量为x,销售价,销售价格为格为p,则,则x与与y之间的关系可表示为之间的关系可表示为y=px。这就是说,在销售价格不变的情况下,对这就是说,在销售价格不变的情况下,对于该商品的某一销售量,总有一个销售额于该商品的某一销售量,总有一个销售额与之对应,即销售额完全由销售量所确定,与之对应,即销售额完全由销售量所确定,二者之间为二者之间为线性函数关系线性函数关系。l例:企业的原材料消耗额(例:企业的原材料消耗额(y)与产量)与产量(x1),单位产品消耗(),单位产品消耗(x2),原材料价格),原材料价格(x3)之间的关系可表示为)之间的关系可表示为y=x1x2x3。这里。这里的的y与与x1、x
4、2、x3之间是一种确定的函数关系,之间是一种确定的函数关系,但它们不是线性函数关系。但它们不是线性函数关系。函数关系是一一对应的确定关系。函数关系是一一对应的确定关系。l但实际问题中,变量之间的关系往往不那但实际问题中,变量之间的关系往往不那么简单。么简单。例如:我们考察例如:我们考察家庭储蓄与家庭收入家庭储蓄与家庭收入这两个变量,这两个变量,它们之间不存在完全确定的关系。它们之间不存在完全确定的关系。l定义:我们把变量之间存在的定义:我们把变量之间存在的不确定不确定的数量关系的数量关系称为称为相关关系相关关系。l例:从遗传学角度看,例:从遗传学角度看,子女的身高(子女的身高(y)与其父母的身
5、高(与其父母的身高(x)有很大关系)有很大关系。一般来说,父母身高较高时,其子女的身高通常也一般来说,父母身高较高时,其子女的身高通常也高,父母身高较低时,其子女的身高通常也较低。但实际高,父母身高较低时,其子女的身高通常也较低。但实际情况并不完全如此,因为它们之间不是完全确定的关系。情况并不完全如此,因为它们之间不是完全确定的关系。显然,子女的身高并不完全由父母身高一个因素所决定,显然,子女的身高并不完全由父母身高一个因素所决定,还还受其他许多因素的影响受其他许多因素的影响,因此,因此二者之间属于相关关系二者之间属于相关关系。总结:从上面的例子可以看出,总结:从上面的例子可以看出,相关关系的
6、特点是相关关系的特点是:一个变量的:一个变量的取值不能由另一个变量唯一确定,当变量取值不能由另一个变量唯一确定,当变量x取某个值时,变量取某个值时,变量y的的取值可能有几个。对这种关系不确定的变量显然不能用函数关系取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无规律可循。进行描述,但也不是无规律可循。通过大量数据的观察与研究,我们会发现许多变量之间确定存在通过大量数据的观察与研究,我们会发现许多变量之间确定存在着一定的客观规律。如:平均来说,父母身高较高时,其子女的着一定的客观规律。如:平均来说,父母身高较高时,其子女的身高一般也较高;收入水平高的家庭,其家庭储蓄一
7、般也较多。身高一般也较高;收入水平高的家庭,其家庭储蓄一般也较多。l相关与回归分析相关与回归分析正是描述与探索这类变量正是描述与探索这类变量之间关系及其规律的统计方法。之间关系及其规律的统计方法。二、相关关系的描述与测度二、相关关系的描述与测度l(一)散点图(一)散点图l(二)相关系数(二)相关系数(一)散点图(一)散点图l相关分析就是对两个变量之间相关分析就是对两个变量之间线性线性关系的关系的描述与度量描述与度量。对于两个变量。对于两个变量x和和y,通过观,通过观察或试验我们可以得到若干组数据,记为察或试验我们可以得到若干组数据,记为(xi,yi)()(i=1,2,3)。)。l相关分析所要解
8、决的问题是,根据这些数相关分析所要解决的问题是,根据这些数据确定变量之间是否存在相关关系,如果据确定变量之间是否存在相关关系,如果存在的话,如何存在的话,如何描述出它们之间的关系描述出它们之间的关系并并对其对其关系强度关系强度进行测度。进行测度。l定义:用坐标的水平轴代表变量定义:用坐标的水平轴代表变量x x,纵轴,纵轴代表因变量代表因变量y y,每组数据(,每组数据(x xi i,y,yi i)在坐标)在坐标系中用一个点表示,系中用一个点表示,n n组数据在坐标系中形组数据在坐标系中形成的成的n n个点称为散点,由坐标及散点形成的个点称为散点,由坐标及散点形成的二维数据图称为二维数据图称为散
9、点图散点图。(e)非线性相关非线性相关(f)不相关不相关不同形态的散点图不同形态的散点图l例例:一家大型商业银行在多个地区设有分行一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例提高,这给银行业良贷款额也有较大比例提高,这给银行业务的发展带来压力。为弄清楚不良贷款形务的发展带来压力。为弄清楚不良贷款形成的原因,研究人员希望利用银行业务的成的原因,研究人员希望利用银行业务
10、的有关的有关数据作些定量分析,以便找出有关的有关数据作些定量分析,以便找出控制不良贷款的办法。下表是该银行所属控制不良贷款的办法。下表是该银行所属2525家分行家分行20022002年的有关业务数据。年的有关业务数据。某商业银行某商业银行2002年的主要业务数据年的主要业务数据研究人员想研究人员想知道,不良知道,不良贷款是否与贷款是否与与贷款余额、与贷款余额、应收贷款,应收贷款,贷款项目的贷款项目的多少、固定多少、固定资产投资等资产投资等因素有关?因素有关?是什么样的是什么样的关系?关系关系?关系强度如何?强度如何?l由散点图可以看出:不良贷款与贷款余额、由散点图可以看出:不良贷款与贷款余额、
11、应收贷款、贷款项目个数、固定资产投资应收贷款、贷款项目个数、固定资产投资额之间都具有一定的线性关系,但从各散额之间都具有一定的线性关系,但从各散点的分布情况看,与点的分布情况看,与贷款余额线性关系比贷款余额线性关系比较密切较密切,而,而与固定资产投资额关系最不密与固定资产投资额关系最不密切切。(二)相关系数(二)相关系数l通过散点图可以判断两个变量之间有无相通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作出大致关关系,并对变量间的关系形态作出大致描述,但描述,但散点图不能准确反映变量之间的散点图不能准确反映变量之间的关系密切程度关系密切程度。因此,为准确度量两个变。因此,为准
12、确度量两个变量之间的关系密切程度,需要计算相关系量之间的关系密切程度,需要计算相关系数。数。l定义定义3 3:根据样本数据计算的对两个变量之:根据样本数据计算的对两个变量之间线性关系强度的度量值,称为相关系数。间线性关系强度的度量值,称为相关系数。l若相关系数是根据总体全部数据计算的,若相关系数是根据总体全部数据计算的,称为总体相关系数,记为称为总体相关系数,记为;若是根据样;若是根据样本数据计算的,则称为样本相关系数,记本数据计算的,则称为样本相关系数,记为为r r。样本相关系数的计算公式为:。样本相关系数的计算公式为:l简化公式为:简化公式为:l例:根据表中数据,计算不良贷与贷款余例:根据
13、表中数据,计算不良贷与贷款余额之间的相关系数。额之间的相关系数。各相关系数的各数值说明了什么?各相关系数的各数值说明了什么?l可以证明:相关系数的取值范围在可以证明:相关系数的取值范围在+1-1之间,即之间,即-1r1。l若若0r1,x与与y之间存在正线性相关关系;之间存在正线性相关关系;l-1r0,x与与y之间存在负线性相关关系;之间存在负线性相关关系;lr=+1,表明表明x与与y之间为完全正线性相关关系;之间为完全正线性相关关系;r=-1,表明表明x与与y之间为完全负线性相关关系;之间为完全负线性相关关系;lr=0时,表示两个变量不存在线性相关关系。时,表示两个变量不存在线性相关关系。注:
14、注:r=0只表示两个变量之间不存在线性相关关系,只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。存在非线性相关关系。|r|1,说明变量之间线性关,说明变量之间线性关系越密切。系越密切。l|r|0.8时,可视为高度相关,时,可视为高度相关,l0.5|r|0.8时,可视为中度相关;时,可视为中度相关;0.3|r|0.5时,视为低度相关;时,视为低度相关;l|r|0.3时,说明两个变量之间的相关程度时,说明两个变量之间的相关程度极弱,可视为不相关。极弱,可视为不相关。三、相关关系的显著性检验三、相关
15、关系的显著性检验l一般情况下,总体相关系数一般情况下,总体相关系数是未知的,是未知的,通常是根据样本相关系数通常是根据样本相关系数r r作为作为的近似估的近似估计值。由于计值。由于r r是根据样本数据计算出来的,是根据样本数据计算出来的,它受到抽样波动的影响,由于抽取的样本它受到抽样波动的影响,由于抽取的样本不同,不同,r r取值不同,因此取值不同,因此r r是一个随机变量。是一个随机变量。注:能否根据样本相关系数说明总体的相关程度呢注:能否根据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就是需?这就需要考察样本相关系数的可靠性,也就是需要考察样本相关系数的可靠性,也
16、就是显著性检验。要考察样本相关系数的可靠性,也就是显著性检验。第二节第二节 一元线性回归分析一元线性回归分析l相关分析相关分析 的目的的目的在于测度变量之间的关系在于测度变量之间的关系密切程度密切程度,它所使用的,它所使用的测度工具就是相关测度工具就是相关系数系数。l回归分析回归分析侧重于考察变量之间的数量侧重于考察变量之间的数量伴随伴随关系关系,并通过一定的,并通过一定的数学表达式数学表达式将这种关将这种关系描述出来,进而确定一个或几个变量系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因(自变量)的变化对另一个特定变量(因变量)的影响程度。变量)的影响程度。l一、一元线
17、性回归模型一、一元线性回归模型l二、参数的最小二乘估计二、参数的最小二乘估计一、一元线性回归模型一、一元线性回归模型l(一)回归模型(一)回归模型l(二)回归方程(二)回归方程(一)回归模型(一)回归模型l定义定义4 4:在回归分析中,被预测或被解释的:在回归分析中,被预测或被解释的变量,称为因变量,用变量,称为因变量,用y y表示。表示。l定义定义5 5:在回归分析中,用来预测或用来解:在回归分析中,用来预测或用来解释因变量的一个或多个变量,称为自变量,释因变量的一个或多个变量,称为自变量,用用x x表示。表示。例如:在分析贷款余额对不良贷款的影响时,例如:在分析贷款余额对不良贷款的影响时,
18、我们的目的是预测一定的贷款余额条件下的不我们的目的是预测一定的贷款余额条件下的不良贷款是多少。因此不良贷款是被预测的变量,良贷款是多少。因此不良贷款是被预测的变量,称为因变量,而用来预测不良贷款的贷款余额称为因变量,而用来预测不良贷款的贷款余额就是自变量。就是自变量。l定义定义6 6:在回归分析中,只涉及一个自变量:在回归分析中,只涉及一个自变量的回归,称为一元回归,若因变量的回归,称为一元回归,若因变量y y与自变与自变量量x x之间为线性关系时称为一元线性回归。之间为线性关系时称为一元线性回归。l定义定义7 7:描述因变量:描述因变量y y如何依赖于自变量如何依赖于自变量x x和和误差项误
19、差项的方程,称为回归模型。的方程,称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:对于只涉及一个自变量的一元线性回归模型可表示为:y=0+1x+反映了由于反映了由于x的变化而引的变化而引起的起的y 的线性变化;的线性变化;称为误差项,是一个随机变量,称为误差项,是一个随机变量,它反映了除它反映了除x x和和y y之间的线性关之间的线性关系之外的随机因素对系之外的随机因素对y y的影响,的影响,是不能由是不能由x x与与y y之间的线性关系之间的线性关系所解释的变异性所解释的变异性0、1称为模型的参数称为模型的参数l以上模型有三个假定:以上模型有三个假定:(1)误差项是一个期望值为
20、零的正态分布)误差项是一个期望值为零的正态分布随机变量,并且随机变量,并且相互独立。相互独立。(2 2)当当x x固定为某一值固定为某一值x xi i时,时,y y为正态分布为正态分布的随机变量,即的随机变量,即y yN N(0+1xi,2)(3)y的的方差方差2是一个不变的常量;是一个不变的常量;(4)每一对观察数据()每一对观察数据(xi,yi)和另一对)和另一对观察数据(观察数据(xi,yi)都是相互独立地进行)都是相互独立地进行观察所得到的。观察所得到的。独立性意味着对于一个特定的独立性意味着对于一个特定的x x值,它所对应的值,它所对应的与其他与其他x x值对值对应的应的不相关。不相
21、关。(二)回归方程(二)回归方程l根据回归方程中的假定,根据回归方程中的假定,的期望值等于的期望值等于零,因此零,因此y的期望值的期望值E(y)=0+1x,也就,也就是说是说y的期望值是的期望值是x的线性函数。的线性函数。l定义定义8 8:描述因变量:描述因变量y y的期望值如何依赖于的期望值如何依赖于自变量自变量x x的方程,称为回归方程。的方程,称为回归方程。l一元线性回归方程的形式为:一元线性回归方程的形式为:E E(y y)=0+1x一元线性回归方程的图示是一条直线一元线性回归方程的图示是一条直线,因此也因此也称为直线回归方程。称为直线回归方程。0为回归直线在为回归直线在y y轴上的截
22、距,轴上的截距,当当x=0 x=0时时y y的期望值的期望值1为直线的斜率,它表示为直线的斜率,它表示当当x x每变动一个单位时,每变动一个单位时,y y的平均变动值。的平均变动值。(三)估计的回归方程(三)估计的回归方程l如果回归方程中的参数如果回归方程中的参数0和和1已知,对于一已知,对于一个给定的个给定的x值,利用式值,利用式E(y)=0+1x可以可以计算出计算出y的期望值。但回归参数的期望值。但回归参数0和和1是未是未知的,我们必须利用样本数据去估计它们。知的,我们必须利用样本数据去估计它们。用样本统计量用样本统计量 0和和1代替回归方程中的未代替回归方程中的未知参数知参数0和和1,这
23、时我们就得到了估计的,这时我们就得到了估计的回归方程。回归方程。l定义定义9 9:利用最小二乘法,根据样本数据求:利用最小二乘法,根据样本数据求出的回归方程的估计,称为估计的回归方出的回归方程的估计,称为估计的回归方程。程。l对于一元线性回归,估计的回归方程形式对于一元线性回归,估计的回归方程形式如下如下:y=0+1x0为估计的回归直线为估计的回归直线在在y 轴上的截距轴上的截距1为直线的斜为直线的斜率,它表示对率,它表示对于一个给定的于一个给定的x值,值,y是是y的估的估计值计值二、参数的最小二乘估计二、参数的最小二乘估计l对于对于x和和y的的n对观察值,用于描述其关系的对观察值,用于描述其
24、关系的直线有多条,究竟用哪直线来代表两个变直线有多条,究竟用哪直线来代表两个变量之间的关系,需要有一个明确的原则。量之间的关系,需要有一个明确的原则。我们我们采用距离各观察点最近的一条直线来采用距离各观察点最近的一条直线来代表代表x与与y之间的关系之间的关系。l最小二乘法是使因变量的观察值最小二乘法是使因变量的观察值yi与估计值与估计值yi之间的离差平方和达到最小来求得之间的离差平方和达到最小来求得0和和1的方法。即的方法。即l定义定义1010:使因变量的观察值与估计值之间:使因变量的观察值与估计值之间的离差平方和达到最小来求得的离差平方和达到最小来求得0 0和和1 1的方的方法,称为最小二乘
25、法。法,称为最小二乘法。令令Q=,求使用权,求使用权Q最小的最小的0和和1值,值,l例:根据数据,求不良贷款对贷款余额的估计方例:根据数据,求不良贷款对贷款余额的估计方程。程。解:根据公式:解:根据公式:即不良贷款对贷款余额的估计方程为:即不良贷款对贷款余额的估计方程为:y=-0.8295+0.037895x。回归系数回归系数1=0.037895,表示贷款表示贷款余额每增加余额每增加1亿元,不良贷款平均增加亿元,不良贷款平均增加0.037895亿元。将亿元。将xi的的各个取值代入上述估计方程,可以得到不良贷款各个取值代入上述估计方程,可以得到不良贷款的各个估计值的各个估计值yi,由下图可以看出
26、散点图与回归,由下图可以看出散点图与回归直线的关系。直线的关系。l将将x xi i的各个取值代入上述估计方程,可以得的各个取值代入上述估计方程,可以得到不良贷款的各个估计值到不良贷款的各个估计值y yi i。由下图可以看。由下图可以看出散点图与回归直线的关系。出散点图与回归直线的关系。练习l某企业的产量与产品成本情况如表所示某企业的产量与产品成本情况如表所示(1)计算相关系)计算相关系数;(数;(2)建立单位产品依产量的直线方程。)建立单位产品依产量的直线方程。年份年份产量(千台)产量(千台)单位成本(元单位成本(元/台)台)1998473019996720200087102001673020028690200310680