《(专科)第7章 相关分析与回归分析教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(专科)第7章 相关分析与回归分析教学ppt课件.ppt(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(专科)第7章 相关分析与回归分析教学ppt课件郭国庆主编第第7 7章章 相关分析相关分析与回归分析与回归分析重点:重点为一元线性回归分析方法,要求运用最小二乘法确定直线方程。判定系数三个平方和之间的关系、回归方程的区间估计和预测。难点:用最小二乘法确定一元线性回归系数。如何如何正确理解离差平方和分解原理。学习目标学习目标1. 1.变量间的相关关系与相关系数的计算变量间的相关关系与相关系数的计算2.2.总体回归函数与样本回归函数总体回归函数与样本回归函数3.3.线性回归的基本假定线性回归的基本假定4.4.简单线性回归参数的估计与检验简单线性回归参数的估计与检验5.5.多元线性回归参数的估计与检
2、验多元线性回归参数的估计与检验6.6. 第第1 1节节 变量间关系的度量变量间关系的度量一、变量间的相互关系一、变量间的相互关系1 1、函数关系:是指当一个或几个变量取一定的值时,另一、函数关系:是指当一个或几个变量取一定的值时,另一个变量有确定值与之相对应的个变量有确定值与之相对应的关系。关系。2 2、相关关系、相关关系(1 1)定义:)定义:是指当一个或几个相互联系的变量取一定数值是指当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值按某种规律在一定的范时,与之相对应的另一变量的值按某种规律在一定的范围内发生围内发生的变化。的变化。(2 2)特点)特点f一个变量的取值不能由另
3、一个变量惟一确定;一个变量的取值不能由另一个变量惟一确定;f这种关系不能用函数关系表示,但存在一定的客观规律。这种关系不能用函数关系表示,但存在一定的客观规律。3 3、没有关系、没有关系 函数关系函数关系v是一一是一一对应的确定关系对应的确定关系v设设有两个变量有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一起变化,并完全依一起变化,并完全依赖于赖于 x ,当变量,当变量 x 取某个数值取某个数值时,时, y 依确定的关系取相应的依确定的关系取相应的值,则称值,则称 y 是是 x 的函数,记为的函数,记为 y = f (x),其中,其中 x 称为自变量,称为自变量,y 称为因变
4、量称为因变量v各各观测点落在一条线上观测点落在一条线上 函数关系(举例)函数关系(举例)相关关系相关关系v变量间关系不能用函数关变量间关系不能用函数关系精确表达系精确表达v一个变量的取值不能由另一个变量的取值不能由另一个变量唯一确定一个变量唯一确定v当变量当变量 x 取某个值时,变取某个值时,变量量 y 的取值可能有几个的取值可能有几个v各观测各观测点分布在直线周围点分布在直线周围v Y= f(X)+ (为随机变为随机变量)量)相关关系(举例)相关关系(举例)没有关系没有关系没有关系没有关系 变量间关系的图形描述变量间关系的图形描述散点图散点图 二、相关关系的类型二、相关关系的类型 o按研究变
5、量的数量:单相关和复相关;如:某种商品的按研究变量的数量:单相关和复相关;如:某种商品的需求与其价格水平以及人们收入水平之间的关系;需求与其价格水平以及人们收入水平之间的关系; 复相关条件下,假定其他变量不变,研究两个复相关条件下,假定其他变量不变,研究两个变量之间的相关关系称为偏相关。变量之间的相关关系称为偏相关。o按相关关系的表现形式:线性相关按相关关系的表现形式:线性相关和非线性相关;和非线性相关;o按相关关系变化的方向:正相关和负相关;按相关关系变化的方向:正相关和负相关; o按相关的程度:完全相关、不完全相关和完全不相关;按相关的程度:完全相关、不完全相关和完全不相关;三、相关分析的
6、主要内容三、相关分析的主要内容 o揭示现象之间是否存在相关关系揭示现象之间是否存在相关关系;o判断现象之间相关关系的具体形式判断现象之间相关关系的具体形式;o测定现象相关关系的密切程度和方向。测定现象相关关系的密切程度和方向。1.1.相关图:用坐标的水平轴代表变量相关图:用坐标的水平轴代表变量x x,纵轴,纵轴代表因变量代表因变量y y,每组数据(,每组数据(x xi i,y,yi i)在坐标系中)在坐标系中用一个点表示,用一个点表示,n n组数据在坐标系中形成的组数据在坐标系中形成的n n个点称为散点,由坐标及其散点形成的二维个点称为散点,由坐标及其散点形成的二维数据图称为散点图。数据图称为
7、散点图。第第2 2节节 相关关系的描述与测度相关关系的描述与测度相关图相关图不相关不相关负线性相关负线性相关正线性相关正线性相关非线性相关非线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关2.2.相关系数相关系数度量变量之间关系强度的一个统计量;度量变量之间关系强度的一个统计量;对两个变量之间线性相关强度的度量称为简对两个变量之间线性相关强度的度量称为简单相关系数;单相关系数;若相关系数若相关系数是根据总体全部数据计算的,称是根据总体全部数据计算的,称为总体相关系数,记为为总体相关系数,记为;对于特定的总体来说,对于特定的总体来说,X X和和Y Y的数值是既定的;的数值是既定的
8、;总体相关系数是客观存在的特定数值;总体相关系数是客观存在的特定数值;一般是不知道的。一般是不知道的。若若是根据样本数据计算的,则称为样本相关系数,是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为简称为相关系数,记为 r;n也称为线性相关系数也称为线性相关系数(linear correlation coefficient) ;n或称为或称为Pearson相关系数相关系数 (Pearsons correlation coefficient) ;n样本相关系数是根据从总体中抽取的随机样本的观测值样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的;计算出来的;n是对总体相关系数
9、的估计,它是个随机变量;是对总体相关系数的估计,它是个随机变量; 22)(yyxxyyxxriiii 2222yynxxnyxxynr相关系数的性质相关系数的性质o性质性质1:r 的取值范围的取值范围是是 -1,1n |r|=1,为完全相关为完全相关or =1,为完全正相关,为完全正相关or =-1,为完全负正相关,为完全负正相关n r = 0,不存在不存在相关关系相关关系n -1 r0,为负相关为负相关n0r 1,为正相关为正相关n|r|越趋于越趋于1表示表示关系越强;关系越强;|r|越趋于越趋于0表示关表示关系越弱系越弱相关系数的性质相关系数的性质r具有对称性。即具有对称性。即x与与y之间
10、的相关系数和之间的相关系数和y与与x 之间的相关系数相等,即之间的相关系数相等,即rxy= ryxr数值大小与数值大小与x和和y原点及尺度无关,即改变原点及尺度无关,即改变x和和y的数据原点及计量尺度,并不改变的数据原点及计量尺度,并不改变r数值大小数值大小仅仅是仅仅是x与与y之间线性关系的一个度量,它不之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,能用于描述非线性关系。这意味着, r=0只表示两个只表示两个变量之间不存在线性相关关系,并不说明变量之间没变量之间不存在线性相关关系,并不说明变量之间没有任何关系有任何关系r虽然是两个变量之间线性关系的一个度量,虽然是两个变量之间线性
11、关系的一个度量,却不却不 一定意味着一定意味着x与与y一定有因果关系,也不能说明具一定有因果关系,也不能说明具体接近哪条直线体接近哪条直线相关系数的经验解释相关系数的经验解释 |r| 0.8时,可视为两个变量之间高度相关时,可视为两个变量之间高度相关0.5 |r|0.8时,可视为中度相关时,可视为中度相关0.3 |r|0.5时,视为低度相关时,视为低度相关|r|t/2 ,则拒绝原假设则拒绝原假设H H0 0,表明总体的两个变量之表明总体的两个变量之间存在显著的线性关系。间存在显著的线性关系。2-12-rnrt 例:从某班例:从某班30名学生中随机抽取名学生中随机抽取10名,测得高等数学名,测得
12、高等数学和统计学考试成绩资料如下表,试计算高等数学考试成和统计学考试成绩资料如下表,试计算高等数学考试成绩与统计学考试成绩之间的相绩与统计学考试成绩之间的相关系数。关系数。序号序号12345678910高数高数成绩成绩5466 68 76 78 82 85 87 90 94统计统计成绩成绩6180 62 86 84 76 85 82 88 96o解:解:代入公式得代入公式得9880. 0110201370012140800651021078062210108007806361410222222 yynxxnyxxynr63614,65102,62210,800,78022xyyxyx1.1.提
13、出假设提出假设 H H0 0:=0 H:=0 H1 1: 0: 02.2.确定显著水平:确定显著水平:=0.05=0.053.3.计算统计量计算统计量 4.4.查表得查表得因为:因为:tt所以拒绝原假设,高等数学成绩与统计学成绩之间存所以拒绝原假设,高等数学成绩与统计学成绩之间存在显著线性相关关系。在显著线性相关关系。0927.18023856.08988.0-12-2rnrt306. 28025. 0t8025.0t 第第2 2节节 一元线性回归分析一元线性回归分析 一、回归分析一、回归分析1.1.回归:回归:18891889英国统计学家高尔顿发表遗传论文中首英国统计学家高尔顿发表遗传论文中
14、首次提到,研究身高问题;凡是由一个变量的变化去推次提到,研究身高问题;凡是由一个变量的变化去推测另一个变量的变化都称为回归。测另一个变量的变化都称为回归。2.2.回归分析:对具有相关关系的现象之间的数量变化进回归分析:对具有相关关系的现象之间的数量变化进行测定,配合一定的数学方程,对因变量进行估计或行测定,配合一定的数学方程,对因变量进行估计或预测的一种统计分析方法。预测的一种统计分析方法。3.3.回归与相关分析的区别回归与相关分析的区别f相关研究的两个变量是对等关系,而回归研究的两个相关研究的两个变量是对等关系,而回归研究的两个变量不是对等关系;变量不是对等关系;f相关分析只计算一个相关系数
15、,回归分析可以建立两相关分析只计算一个相关系数,回归分析可以建立两个不同回归方程;个不同回归方程;f相关分析相关分析x x、y y都是随机变量,回归分析自变量是可以都是随机变量,回归分析自变量是可以控制的变量,因变量是随机变量;控制的变量,因变量是随机变量;4.4.联系:相关分析是回归分析的基础和前提;回联系:相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。归分析是相关分析的深入和继续。共同的研究对象:都是对变量间相关关系的分析;共同的研究对象:都是对变量间相关关系的分析;只有当变量间存在相关关系时,用回归分析去寻求相只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形
16、式才有实际意义;关的具体数学形式才有实际意义;相关分析只表明变量间相关关系的性质和程度,要确相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析;定变量间相关的具体数学形式依赖于回归分析;回归分析回归分析回归的回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系: : 无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的趋势都有向人的平均身高回归的趋势二、一元线性回归模型(二、一元线性回归模型(简单线性回归简单线性回归模型)模型)1.1.简单线性回归模型简单线性回归模型
17、假定因变量假定因变量y y主要受自变量主要受自变量x x的影响,它们之间的的影响,它们之间的简单线性回归模型如下:简单线性回归模型如下: y= y= 0 0+ + 1 1x+x+ 0 0,1 1为参数,为参数,为随机误差项。为随机误差项。 对于误差项,在回归分析中有如下假设:对于误差项,在回归分析中有如下假设:1 1)误差项是随机变量,它的期望值为)误差项是随机变量,它的期望值为0 0。2 2)对于所有的)对于所有的 x x值,误差项的方差值,误差项的方差 2 2 为常数。为常数。3 3)误差项之间相互独立,即与一个值相联系的误差对与)误差项之间相互独立,即与一个值相联系的误差对与另一个值相联
18、系的误差没有影响。另一个值相联系的误差没有影响。4 4)随机误差项服从正态分布。)随机误差项服从正态分布。2.2.简单线性回归方程简单线性回归方程 y= y= 0 0+ + 1 1x+x+o 描述描述y y的均值的均值E(y)E(y)与与 x x的关系的方程叫做回归方程。的关系的方程叫做回归方程。 由于由于E(E(0 0)=)= 0 0, E(, E(1 1)=)= 1 1, E()=0, E()=0 所以所以E(y)=E(y)= 0 0+ + 1 1x xo不难看出,简单线性回归方程的图形是一条直线。这条不难看出,简单线性回归方程的图形是一条直线。这条直线被称为直线被称为0 0是回归直线的截
19、距,是回归直线的截距, 1 1是回归直线的斜率,表示是回归直线的斜率,表示x x每变动一个单位,每变动一个单位,y y的平均变的平均变动,动,E(y)E(y)是给定某个是给定某个x x值值y y的均值或期望值。的均值或期望值。 o各实际观测点与总体回归线垂直方向的间隔,就是各实际观测点与总体回归线垂直方向的间隔,就是随机随机误差项误差项,即,即 =y- E(y)=y- E(y)一元线性回归模型一元线性回归模型(基本假定基本假定) x=x3时的时的E(y)x=x2时时y的分布的分布x=x1时时y的分布的分布x=x2时的时的E(y)x=x1时的时的E(y)y3.3.估计一元线性回归方程估计一元线性
20、回归方程 根据样本数据拟合的直线,称为根据样本数据拟合的直线,称为 , , 分别为分别为 0 0,1 1 的估计值,是样本回归直线的截距的估计值,是样本回归直线的截距和斜率和斜率, , , , 称为回归系数。称为回归系数。 实际观测到的因变量实际观测到的因变量y y值,并不完全等于估计值值,并不完全等于估计值 ,如果用如果用e e表示二者之差,则样本回归模型为:表示二者之差,则样本回归模型为: (其中(其中e e为残差)为残差)xy10exy10)(yye-y 1010 二、一元线性回归模型的估计二、一元线性回归模型的估计1.1.回归系数的估计回归系数的估计例例1 1 假定我们想为某街区内的住
21、宅房地产的销售价格假定我们想为某街区内的住宅房地产的销售价格y y与评估价值与评估价值x x之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选5 5所住宅作样本,相应的数据如表所示所住宅作样本,相应的数据如表所示 。房地产房地产评估价值(拾万美元)评估价值(拾万美元) 销售价格(拾万美元)销售价格(拾万美元) 12345234562571011直线回归分析步骤直线回归分析步骤1.1.绘制散点图绘制散点图2.2.计算回归系数(最小二乘法)计算回归系数(最小二乘法)3.3.作回归直线(在自变量的实测范围内任取两个相作回归直线(在自变
22、量的实测范围内任取两个相距较远的数值距较远的数值 、 ,根据,根据 两点作图。两点作图。22110-xxnyxxynxyxy102x1x),(22yx),(11yx最小二乘估计最小二乘估计(method of least squares )最小121012)-() -(niiniiyyy 101Karl Gauss的最小化图的最小化图xy10例例2 2:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本苗数推算成熟期有效穗数的方法。在苗数推算成熟期有效穗数的方法。在5 5块田上进行对比试验,取得数块田上进行对比试验,取得数据如下:据如
23、下:试验号试验号基本苗数基本苗数有效穗数有效穗数1 12 23 34 45 51515 25.8 25.83030 36.6 36.6 44.4 44.439.439.442.942.941.041.043.143.149.249.2解:回归直线方程计算表(解:回归直线方程计算表(1 1)编号编号xyx2y2xy1234515.025.830.036.644.439.442.941.043.149.2225.00665.64900.001339.561971.361552.361840.411681.001857.612420.64591.001106.821230.001577.462184
24、.48合计合计151.8215.65101.569352.026689.76回归直线方程计算表(回归直线方程计算表(2 2)80.151=x6 .215=y5=n36.30=x12.43=y56.51012=x0 .93522=y76.6689=yx64.4608/2=nx )(67.9296/)(2=ny61.6545/ )(=nyx92.492=xxL35.455=yyL15.144=xyL29.092.49215.1441xxxyLL32.3436.3029.0-12.43-10 xyxy29. 032.34+=练习练习1 1:某企业上半年产品产量与单位成本数据如表所示。试根据表中:某企
25、业上半年产品产量与单位成本数据如表所示。试根据表中数据:数据:(1 1)绘制散点图;)绘制散点图;(2 2)建立回归方程,说明产量每增加)建立回归方程,说明产量每增加10001000件,单位成本平均变动如何?件,单位成本平均变动如何?(3 3)作回归直线。)作回归直线。产量(千件)产量(千件)单位成本(元单位成本(元/件)件)234345737271736968练习练习2 2: 根据根据PizzaPizza连锁店的学生人数和季度销售收入数据,建立回归直线方程,连锁店的学生人数和季度销售收入数据,建立回归直线方程,并预测学生人数为并预测学生人数为2525人时的销售收入。人时的销售收入。连锁店连锁
26、店学生人数学生人数x x销售收入销售收入y yxyx212345678910268812162020222658105881181171371571691492021166307049441404219231403380327852524366464144256400400484676合计合计1401300210402528练习练习3 3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据据: :a a、用身高作自变量,画出散点图、用身高作自变量,画出散点图b、根据散点图表明两变量之间存在什么关系?、根据散点图表明两
27、变量之间存在什么关系?c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系d、求出估计的回归方程、求出估计的回归方程e、如果一名运动员的身高是、如果一名运动员的身高是63英寸,你估计她的体重是多少?英寸,你估计她的体重是多少?身高身高68 64 62 65 66 体重体重132 108 102 115 128三、一元线性回归模型的检验三、一元线性回归模型的检验1.1.拟合程度的评价拟合程度的评价 o拟合程度,是指样本观察值聚集在估计回归线周围的紧密程度。拟合程度,是指样本观察值聚集在估计回归线周围的紧密程度。o评价拟合程度最常用
28、的方法是测定系数或判定系数。评价拟合程度最常用的方法是测定系数或判定系数。o对于任何观察值对于任何观察值y y总有:总有: o得得o设设SST= = ,SSR= = ,那么:,那么:oSST=SSR+SSE SST为总平方和,为总平方和,SSR为回归平方和,为回归平方和,SSE为误差平方和。为误差平方和。o比率比率SSR/SST可以用来评价拟合的程度。我们称之为可以用来评价拟合的程度。我们称之为测定系数测定系数(或判定系数(或判定系数),用),用R R2表示,显然,表示,显然,0 R2 1。) -()-()-(yyyyyy222) -()-()-yyyyyy(2)- yy(2)-(yySSTS
29、SESSTSSRR/-1/2误差的分解误差的分解yxy10yy-yy -yy-),(iiyx误差平方和的分解误差平方和的分解121212-niiniiniiyyyyyyv总平方和总平方和(SSTtotal sum of squares)n反映因变量的反映因变量的 n 个观察值与其均值的总误差个观察值与其均值的总误差v回归平方和回归平方和(SSRsum of squares of regression)n反映自变量反映自变量 x 的变化对因变量的变化对因变量 y 取值变化的影响,取值变化的影响,或者说,是由于或者说,是由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的的取值变化
30、,也称为可解释的平方和取值变化,也称为可解释的平方和v残差平方和残差平方和(SSEsum of squares of error)n反映除反映除 x 以外的其他因素对以外的其他因素对 y 取值的影响,也称为取值的影响,也称为不可解释的平方和或剩余平方和不可解释的平方和或剩余平方和判定系数判定系数R2 v回归平方和回归平方和占总误差平方和的比例占总误差平方和的比例121212122-1-niiniiniiniiyyyyyyyySSTSSRRyyxxxxxxyySSRi1221210102222212221222yyxxyyxxyyyyxxyyxxyyyyRi判定系数与相关系数之间的区别判定系数与
31、相关系数之间的区别 第一,二者的应用场合不同。当我们只对测量两个第一,二者的应用场合不同。当我们只对测量两个变量之间线性关系的强度感兴趣时,采用相关系数;变量之间线性关系的强度感兴趣时,采用相关系数;当我们想要确定最小二乘直线模型同数据符合的程度当我们想要确定最小二乘直线模型同数据符合的程度时,应用测定系数。时,应用测定系数。 第二,相关系数仅限定于两个变量之间存在线性关第二,相关系数仅限定于两个变量之间存在线性关系,而测定系数却可以应用于线性、非线性相关和自系,而测定系数却可以应用于线性、非线性相关和自变量是两个和两个以上的复相关。变量是两个和两个以上的复相关。 /)(-/)(-/)(-22
32、22nyynxxnyxxyr 2Rr2.2.估计的标准误差估计的标准误差o根据回归模型及其关于误差项的假定,我们能够得出这样的结论:根据回归模型及其关于误差项的假定,我们能够得出这样的结论:的方差的方差2 2说明了说明了y y关于回归直线的方差。由于关于回归直线的方差。由于2 2的值很少知道,的值很少知道,而我们知道而我们知道y y关于回归直线的偏差是残差关于回归直线的偏差是残差e,因此,残差平方和就是,因此,残差平方和就是实际观察值关于估计回归直线差异的一种测度。实际观察值关于估计回归直线差异的一种测度。o如果以如果以 表示误差平方的均值,以表示误差平方的均值,以SSE表示残差平方和,则有:
33、表示残差平方和,则有: =SSE/(n-2) 。它是总体方差的无偏估计量。它是总体方差的无偏估计量。o 称为称为估计标准误差估计标准误差。即:。即:o 越小说明实际观察值与估计回归直线的离差越小,回归直线代表越小说明实际观察值与估计回归直线的离差越小,回归直线代表性较好;反之,性较好;反之, 越大说明实际观察值与估计回归直线的离差越大,越大说明实际观察值与估计回归直线的离差越大,回归直线代表性较差。回归直线代表性较差。o直接计算直接计算 比较复杂,可采用以下公式:比较复杂,可采用以下公式:) 2-/(nSSEse2-1022nxyyyseeses2es2eseses例例3 3:根据例:根据例1
34、 1数据计算数据计算s2和和s。o解:36667. 02-51633 . 2-35)2 . 2-2992-1022(nxyyyse6055. 036667. 0es3.3.显著性检验显著性检验o 对于变量对于变量x x与与y y之间的线性关系存在与否的问题,可以通过显著性检验之间的线性关系存在与否的问题,可以通过显著性检验进行。进行。o t t检验,就是依据检验,就是依据t t概率分布所进行的回归显著性检验。概率分布所进行的回归显著性检验。F F 检验,就是检验,就是依据依据F F概率分布所进行的回归显著性检验。当只有一个自变量时,概率分布所进行的回归显著性检验。当只有一个自变量时,F F检验
35、检验与与t t检验结论相同,但是如果自变量多于一个时,则只能用检验结论相同,但是如果自变量多于一个时,则只能用F F检验。检验。 o 对于简单线性回归模型对于简单线性回归模型 y= y= 0 0+ + 1 1x+x+,如果,如果x x与与y y之间存在线性之间存在线性关系,一定有关系,一定有1 100;若;若x x与与y y完全无关,那么必定完全无关,那么必定1 1=0=0。因此,为了。因此,为了验证验证“x x与与y y完全无关完全无关”这一假设,应该检验:这一假设,应该检验:o H H0 0(零假设)(零假设): : 1 1=0 H=0 H1 1(替代假设):(替代假设):1 100o 如
36、果数据支持如果数据支持H H1 1,我们将得出,我们将得出x x与与y y之间具有统计上的显著性关系的结之间具有统计上的显著性关系的结论。但是,如果数据拒绝论。但是,如果数据拒绝H H1 1,我们将没有足够的证据得出显著性关系存,我们将没有足够的证据得出显著性关系存在的结论。在的结论。 t t检验的根据是:统计量检验的根据是:统计量t=t=( - - )/ / 服从自由度为(服从自由度为(n-2n-2)的)的t t分布。分布。若零假设为真,即若零假设为真,即 =0=0,则,则t= / t= / 。如果。如果|t|t|t t/2/2(临界值),则拒绝(临界值),则拒绝H H0 0。 对对 的假设
37、检验是建立在的假设检验是建立在 及其抽样分布基础之上的。及其抽样分布基础之上的。 的抽样的抽样分布特征为分布特征为: 服从正态分布。服从正态分布。由于由于的值未知,应用其估计值的值未知,应用其估计值s s可以计算可以计算 的估计值的估计值 如下:如下: 11)(Enxx/)(-22111snxxsse/)(-2211s1s11111t t 检验的一般程序为:检验的一般程序为:(1 1) 提出假设提出假设 H H0 0: =0 H=0 H1 1: 00(2 2) 确定显著水平确定显著水平(3 3) 计算统计量计算统计量t= / t= / (4 4) 找出临界值找出临界值t t/2/2(5 5)
38、检验判断检验判断 拒绝区为拒绝区为t tt t/2/211s11 例例1 1 假定我们想为某街区内的住宅房地产的销售价格假定我们想为某街区内的住宅房地产的销售价格y y与评估价值与评估价值x x之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选之间的关系建立一个回归模型,从去年已售出的房地产中随机抽选5 5所住宅作样本,相应的数据如表所示所住宅作样本,相应的数据如表所示 。房地产房地产评估价值(拾万美元)评估价值(拾万美元) 销售价格(拾万美元)销售价格(拾万美元) 12345234562571011例例4 4:以住宅房地产问题为例,检验评估价值与销售价格之间存在线性:以住宅房地产问题
39、为例,检验评估价值与销售价格之间存在线性关系的显著性。关系的显著性。解:假设解:假设 H0:1=0 H1:10 已知已知n=5,显著性水平,显著性水平=0.05。 查查t分布表可得:分布表可得:t/2=t0.025=3.182 检验统计量检验统计量t= / =2.3/(0.6055/ )=12.01 因为因为tt/2,所以拒绝零假设,得出,所以拒绝零假设,得出10的结的结论。论。 因此我们可以得到这样的结论:在因此我们可以得到这样的结论:在0.05的显著性的显著性水平下,房地产的评估价值与销售价格之间的确存水平下,房地产的评估价值与销售价格之间的确存在线性关系,即前者对后者有显著的影响。在线性
40、关系,即前者对后者有显著的影响。1011s练习练习3 3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据据: :求出估计的回归方程,并进行拟合度和显著性检验。求出估计的回归方程,并进行拟合度和显著性检验。如果一名运动员的身高是如果一名运动员的身高是6363英寸,你估计她的体重是多少?英寸,你估计她的体重是多少?身高身高68 64 62 65 66 体重体重132 108 102 115 128编号编号身高(身高(x) 体重(体重(y)xyx2y216813289764624174242 64 10869124096
41、11664362102632438441040446511574754225132255661288448435616384合计合计325585381352114569101回归直线方程计算表回归直线方程计算表 -240.5 -240.5+5.5x325=x585=y5=n65=x117=y211452=x691012=y38135=yx21125/2=nx )(68445/)(2=ny38025/ )(=nyx5.5100550325-211455585325-381355-2221 xxnyxxyn655.5-117-10 xy=y oR2=0.9223 说明回归直线对点的拟说明回归直线对
42、点的拟合优度较好。合优度较好。9603. 065620110/)( -/)( -/ )( - 2222nyynxxnyxxyr显著性检验:显著性检验:假设假设 H0:1=0 H1:10 已知已知n=5,显著性水平,显著性水平=0.05。 查查t分布表可得:分布表可得:t/2=t0.025=3.1824 检验统计量检验统计量t= / =5.5/(7.1414/201/2)=3.444 因为因为tt/2,所以拒绝零假设,得出,所以拒绝零假设,得出10的结论。的结论。 因此我们可以得到这样的结论:在因此我们可以得到这样的结论:在0.05的显著性水平的显著性水平下,女子游泳运动员的身高和体重之间的确存
43、在线性下,女子游泳运动员的身高和体重之间的确存在线性关系,即前者对后者有显著的影响。关系,即前者对后者有显著的影响。11s第第3 3节节 一元线性回归模型的估计和预测一元线性回归模型的估计和预测o简单线性回归模型是对简单线性回归模型是对 x x与与y y之间的关系假定。运用最之间的关系假定。运用最小平方法可以得到简单线性估计方程。如果已经得出小平方法可以得到简单线性估计方程。如果已经得出结论说明方程拟合效果较好、结论说明方程拟合效果较好、x x与与y y之间线性关系显著,之间线性关系显著,那么,估计回归方程将会有助于估计和预测。那么,估计回归方程将会有助于估计和预测。o回归模型在推断方面的应用
44、有两类:回归模型在推断方面的应用有两类: 一是利用模型估计对应特定一是利用模型估计对应特定x x值的值的y y的均值,即在的均值,即在x x值值给定的条件下对大量实验估计给定的条件下对大量实验估计y y的均值的均值E(y)E(y); 二是利用模型预测对应给定二是利用模型预测对应给定x x值的值的y y值,即在值,即在x x值给值给定的条件下预言某一定的条件下预言某一y y的个别值。无论是哪种应用,都的个别值。无论是哪种应用,都将利用最小二乘模型将利用最小二乘模型估计或预测的类型估计或预测的类型n点估计点估计oy 的平均值的点估计的平均值的点估计oy 的个别值的点估计的个别值的点估计n区间估计区
45、间估计oy 的平均值的的平均值的置信区间置信区间估计估计oy 的个别值的的个别值的预测区间预测区间估计估计1.1.点估计点估计 对于住宅房地产的问题,我们已经求出了估计回归方程对于住宅房地产的问题,我们已经求出了估计回归方程 =-2.2+2.3x =-2.2+2.3x 。下面我们分别说明已知评估价值为。下面我们分别说明已知评估价值为3030万美元条件万美元条件下,下,E(y)E(y)和和y y的点估计值的推断方法。的点估计值的推断方法。 (1 1)E(y)E(y)的点估计量的点估计量 在最小二乘基础上,这个估计量就是在最小二乘基础上,这个估计量就是 当当x=3x=3时,时, =-2.2+2.3
46、=-2.2+2.33=4.73=4.7结论:当评估价值为结论:当评估价值为3030万美元时,估计所有房地产的平均销万美元时,估计所有房地产的平均销售价格为售价格为4747万美元。万美元。 (2 2)y y的点估计值的点估计值 当当x=3x=3时,时, =-2.2+2.3=-2.2+2.33=4.73=4.7结论:当某所住宅评估价值为结论:当某所住宅评估价值为30万美元时,该住宅将以万美元时,该住宅将以47万万美元的价格售出。美元的价格售出。y y y y 2.区间估计区间估计o最小二乘模型既被用来估计最小二乘模型既被用来估计E(y)E(y),又被用来预测,又被用来预测y y,它们的区别就是精,
47、它们的区别就是精度不同。在最小二乘直线分别用在估计量和预测量的情况下,相应的度不同。在最小二乘直线分别用在估计量和预测量的情况下,相应的精度用最小二乘直线的重复抽样误差来测量如下:精度用最小二乘直线的重复抽样误差来测量如下:x x固定时,固定时,E(y)E(y)的估计量的抽样分布的标准差为的估计量的抽样分布的标准差为x x固定时,固定时,y y的预测值的预测误差的标准差为的预测值的预测误差的标准差为 (1 1)E(y)E(y)的(的(1-1-)置信区间为)置信区间为(2 2)y y的(的(1-1-)预测区间为)预测区间为 220)-()-(1xxxxny220)()-()-(11xxxxnyy
48、2202/)-()-(1xxxxnstye2202/)-()-(11xxxxnstye例例5:对于房地产数据,分别就评估价值为:对于房地产数据,分别就评估价值为30万美元时,求所有住万美元时,求所有住宅平均售价及该住宅售价的宅平均售价及该住宅售价的95%置信区间。置信区间。o解:解:o已知已知o即评估价值为即评估价值为30万元时,所有住宅平均售价的万元时,所有住宅平均售价的95%置信区间为置信区间为(364500,5755500)美元。)美元。o即评估价值为即评估价值为30万元的住宅,其售价的万元的住宅,其售价的95%置信区间为置信区间为(250300,689700)美元。)美元。182. 3)2-(, 3, 4,6055. 0, 7 . 42/0ntxxsye055. 17 . 4)-()-(12202/xxxxnstye2202/)-()-(11xxxxnstye本章小结本章小结v函数关系、相关关系函数关系、相关关系v一元回归模型、回归方程、估计方程一元回归模型、回归方程、估计方程v拟合优度评价拟合优度评价v显著性检验显著性检验v利用回归方程进行估计和预测利用回归方程进行估计和预测结结 束束