《统计学相关与回归分析白含检验.pptx》由会员分享,可在线阅读,更多相关《统计学相关与回归分析白含检验.pptx(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学习目标学习目标1.1.变量间的相关关系与相关系数的计算变量间的相关关系与相关系数的计算2.2.总体回归函数与样本回归函数总体回归函数与样本回归函数3.3.线性回归的基本假定线性回归的基本假定4.4.简单线性回归参数的估计与检验简单线性回归参数的估计与检验5.5.常用的可以转换为线性回归的非线性函数常用的可以转换为线性回归的非线性函数6.6.非线性相关指数非线性相关指数第1页/共77页学习重点相关系数的计算相关系数的计算相关分析与回归分析的联系与区别相关分析与回归分析的联系与区别总体回归函数与样本回归函数总体回归函数与样本回归函数线性回归的基本假定线性回归的基本假定简单线性回归参数的估计与检验
2、简单线性回归参数的估计与检验非线性相关指数非线性相关指数第2页/共77页学习难点总体回归函数与样本回归函数的联系与区别总体回归函数与样本回归函数的联系与区别线性回归的基本假定线性回归的基本假定简单线性回归参数的估计与检验简单线性回归参数的估计与检验常用的可以转换为线性回归的非线性函数常用的可以转换为线性回归的非线性函数第3页/共77页授课学时6学时第4页/共77页10.1 10.1 相关与回归的基本概念相关与回归的基本概念一、变量间的相互关系变量间的相互关系二、相关关系的类型二、相关关系的类型三、相关分析与回归分析三、相关分析与回归分析第5页/共77页 一、变量间的相互关系一、变量间的相互关系
3、 确定性的函数关系确定性的函数关系 Y=f(X)不确定性的统计关系相关关系相关关系 相关关系是指变量之间存在一定的相依关系,但又不是确定的和严格依存的。Y=f(X,u)(u为随机变量)如广告费用(X)与销售收入(Y)之间的关系,居民的可支配收入(X)与居民的消费支出(Y)之间的关系没有关系没有关系 变量间关系的图形描述:坐标图(散点图)第6页/共77页二、相关关系特点(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;当变量 x 取某个值的时候,变量 y 的取值可能有几个;(3)各观测点(x,y)分布在某条线的周围。x xy y第7页/共77页 相关关系的例子
4、相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系商品的消费量商品的消费量(y)与物价与物价(x)之间的关系之间的关系商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系粮粮食食亩亩产产量量(y)与与施施肥肥量量(x1)、降降雨雨量量(x2)、温温度度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系相关关系举例第8页/共77页三、相关关系的类型第9页/共77页(1)不完全相关。介于完全相关与不相关之间(2)完全相关(函数关系)一个变量的变化完全由另一个变量的变化所确定(3)不相关
5、两个变量的变化相互之间完全没有关系1.按相关的程度划分第10页/共77页(1)线性相关。(2)非线性相关。2.按相关的形式划分第11页/共77页3.按相关的方向划分(1)正相关 例如收入与消费的关系。(2)负相关 例如物价与消费的关系。第12页/共77页(1)单相关(又称一元相关)。指两个变量之间的相互关系(2)复相关(又称多元相关)。指三个变量及以上变量之间的相互关系 例如,某种商品的需求与其价格水平以及收入水平之间的相关关系便是一种复相关。(3)偏相关。在某一变量与多个变量相关时,当假定其他变量不变,其中两个变量的相关关系。例如,在假定人们的收入水平、偏好等不变的条件下,某种商品的需求与其
6、价格水平的关系就是一种偏相关。4.按相关关系涉及的变量多少划分第13页/共77页相关关系的图示 不相关不相关不相关 负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关 第14页/共77页定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。四、相关关系的判断第15页/共77页研究现象之间的依存关系的一种表格。
7、首先要通过实际调查取得一系列成对数据作为相关分析的原始资料。然后将某一变量按其数值的大小顺序排列,再将与其相关的另一变量的对应值平行排列,即可得到简单的相关表。(一)相关表第16页/共77页 例:为了研究分析某种产品完成量与其单位产品成本之间的关系,调查30个同类公司得到的原始数据如表。整理后有第17页/共77页(二)相关图又称散点图,是以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量相对应的成对数据用坐标点的形式描绘出来,用于反映两个变量之间相关关系的图形。第18页/共77页销售收入与广告费相关图 第19页/共77页五、相关分析与回归分析五、相关分析与回归分析 回归的古典意义古典意义
8、:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势第20页/共77页回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的目的(实质)(实质):由固定的自变量去估计因变量的平均值样样本本总总体体自变量固定值自变量固定值自变量固定值估计因变量平均值第21页/共77页回归分析:是指对具有相关关系的变量,依据其关系性质,选择一个合适的数学模型(回归方程),用来近似地表示变量间数量平均变化关系的一种统计方法。回归分析按分析变量
9、的多少可分为一元回归分析和多元回归分析;按分析变量间的表现形式可分为现性回归分析和非线性回归分析;第22页/共77页相关分析与回归分析的关系相关分析与回归分析的关系联系:(1)共同的研究对象:都是对变量间相关关系的分析;共同的研究对象:都是对变量间相关关系的分析;(2)相关分析是回归分析的基础和前提。只有当变量间存在相关关只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义;(系时,用回归分析去寻求相关的具体数学形式才有实际意义;(3 3)相关分析只表明变量间相关关系的性质和程度,要确定变量间相关相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖
10、于回归分析的具体数学形式依赖于回归分析区别:(1)相关分析与回归分析在研究目的和方法上是有明显区别的。相关分析研究变量之间相关的方向和相关的程度。但是,相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要的方法(2)相关分析可以不必确定变量中哪个是自变量,哪个是因变量,而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。(3)相关分析所涉及的变
11、量可以都是随机变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。第23页/共77页六、回归模型的类型一个自变量两个及两个以上自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归第24页/共77页102 简单线性相关与回归分析简单线性相关与回归分析一、简单线性相关系数及检验一、简单线性相关系数及检验二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的估计三、回归系数的估计四、简单线性回归模型的检验四、简单线性回归模型的检验 五、简单线性回归模型预测五、简单线性回归模型预测第25页/共77页一、简单线性相关系数及
12、检验一、简单线性相关系数及检验(一)相关系数的定义(一)相关系数的定义 单相关分析是对两个变量之间的线性相关程度进行分析。线性相关程度可用总体相关系数总体相关系数 特点:特点:对于特定的总体来说,总体相关系数是客观存在的特定数值,表现为一个常数。第26页/共77页 样本相关系数样本相关系数通常用 表示 特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。第27页/共77页(二)相关系数的特点:o相关系数的取值在-1与1之间。o当r=0时,表明X与Y没有线性相关关系,但可能存在其他类型关系。o当 时,表明X与Y存在一定的线性相关关系:若
13、表明X与Y 为正相关 若 表明X与Y 为负相关。o当 时,表明X与Y完全线性相关:若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。第28页/共77页(三)相关系数的计算(三)相关系数的计算第29页/共77页序号序号能源消耗量(十万能源消耗量(十万吨)吨)x工业总产值(亿工业总产值(亿元)元)yx2y2xy12345678910111213141516353840424952545962646568697172762425242832313740414047504951485812251444160017642401270429163481384440964225462447615
14、04151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计合计916625550862617537887【例例】计算工业总产值与能源消耗量之间的相关系数计算工业总产值与能源消耗量之间的相关系数第30页/共77页结论:结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。第31页/共77页(四)使用相关系数的注意事项:X和Y 都是相互对称
15、的随机变量,所以相关系数只反映只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。第32页/共77页(五)相关系数的检验 1.1.为什么要检验?为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。2.检验的依据:检验的依据:如果X和Y都服从正态分布,在总体相关系数 的假设下,可采用t检验来确定变量之间相关关系的显著性。与样本相关系数 r 有关的 t统计量服从自由度为n-2的 t 分布:第33页/共77页3.相关系数的检验方法相关系数的检验方法给定显著性水平 ,查自由度为 n-2 的临界值
16、若 ,表明相关系数 r 在统计上是显著的,应否定 而接受 的假设;反之,若 ,应接受 的假设。第34页/共77页【例】检验工业总产值与能源消耗量之间的线性相关性是否显著 资料当 成立时,则统计量第35页/共77页 二、一元线性回归模型 若干基本概念 Y的条件分布条件分布:Y在X取某固定值条件下的分布。对于X的每一个取值,都有Y的条件期望条件期望与之对应,在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线回归线。如果把Y的条件期望 表示为X的某种函数:,这个函数称为回归函数回归函数。如果其函数形式是只有一个自变量的线性函数,如 称为简单线性回归函数简单线性回归函数。第36
17、页/共77页(一)总体回归函数(PRF)n概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。n表现形式:(1 1)总体回归直线)总体回归直线第37页/共77页(2 2)总体一元线性回归模型)总体一元线性回归模型第38页/共77页(3)简单线性回归的基本假定o假定假定1 1:误差项u是一个期望值为0的随即变量,即o假定假定2 2:对于所有的:对于所有的X X值,误差项值,误差项u ui i的的方差为常数 。o 假定假定3 3:自变量是给定的变量,与随机误差项线性无关o 假定4:无自相关假定。随机误差项u的逐次值互不相关o假定5:正态性假定。随机误差
18、项u ui i是无法直接观测,为进行回归分析,需对其概率分布进行假设。满足这些假设的模型称为标准的一元线性回归模型。第39页/共77页(二)样本回归函数(SRF)u概念:概念:总体回归函数实际上是未知的,需要用样本的信息对其进行估计,根据样本数据拟合的直线,称为样本回归直线样本回归直线。其相应的函数称为样本回归函数样本回归函数 (简记为SRF)。u表现形式:表现形式:线性样本回归函数可表示为o 第40页/共77页样本回归方程第41页/共77页(四)样本回归函数与总体回归函数的关系 (1)相互联系 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和 是对总体回归函数参数的估计。是对总
19、体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机误差u。回归分析的目的:用样本回归函数去估计总体回归函数。第42页/共77页样本回归函数与总体回归函数的关系 (2)相互区别 总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的 是不可直接观测的;而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。第43页/共77页 三、回归系数的回归系数的最小二乘估计估计基本思想:回归
20、分析主要任务是建立能够反映真实总体回归函数的样本回归函数。在用样本资料确定样本回归方程时,希望估计值 偏离实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标准最小二乘准则 第44页/共77页最小二乘法(图示)x xy y(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi第45页/共77页(一)回归系数的估计的最小二乘法公式 将对 求偏导数,并令其等于零,可得:加以整理后有:设设第46页/共77页 解方程组解方程组可得求解可得求解 的标准方程如下:的标准方程如下:第47页/共77页【例】建立工业总产值对能源消耗量的线性回归方程 资料【分析】因为工业总
21、产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。解:设解:设线性回归方程为第48页/共77页即线性回归方程为:计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.79610.7961个单位(亿元)。第49页/共77页 (二)最小二乘估计的概率分布性质(二)最小二乘估计的概率分布性质o 和和 都是服从正态分布的随机变量,其期都是服从正态分布的随机变量,其期望为望为o概率分布为概率分布为第50页/共77页(三)总体方差 的无偏估计总体随机误差项的方差 可以反映理论模型误差的大小,是检验模型时必须利用的一个重要参数。可
22、以证明 的无偏估计为:第51页/共77页 四、一元线性回归模型的检验 回归模型的参数(系数)估计出来后,必须回归模型的参数(系数)估计出来后,必须对其进行检验。对回归系数的假设检验,是对其进行检验。对回归系数的假设检验,是在对总体回归系数某种原假设成立的条件下,在对总体回归系数某种原假设成立的条件下,确定适当的统计量,在一定的显著水平下对确定适当的统计量,在一定的显著水平下对原假设进行统计检验原假设进行统计检验。第52页/共77页(一)拟合优度的度量回归直线对数据的拟合优度:样本观测值聚集在样本回归线周围的紧密程度。回归直线对数据的拟合优度:样本观测值聚集在样本回归线周围的紧密程度。样本回归直
23、线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。如果各观测值数据的散点都聚集回归直线周围,那么这条直线对数据拟合效果就好,否则,拟合效果就差。通常用判定系数判定系数度量回归模型的拟合优度回归模型的拟合优度第53页/共77页离差平方和的分解(图示)x xy yy y 离差分解图1.判定系数的定义判定系数的定义是建立在对因变量总离差平方和分解的基础上判定系数的定义是建立在对因变量总离差平方和分解的基础上第54页/共77页离差平方和的分解(三个平方和的关系)两端平方后求和有:从图上看有:SST=SSR+SSE总变差平方和(SST)回归平方和(SSR)残差平方和(SSE)第55页/共77页
24、离差平方和的分解(三个平方和的意义)1.总的离差平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。3.残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。第56页/共77页2.判定系数(可决系数R2)的特点(1)回归平方和占总离差平方和的比例:(2)反映回归直线的拟合程度(3)取值范围在 0,1 之间(4)R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差(5)
25、判定系数等于相关系数的平方,即R2(r)2第57页/共77页 (二)回归系数显著性的回归系数显著性的 t t 检验检验o对回归模型的统计检验,除了对模型拟合程度的检验外,还包括各回归系数的显著性检验和对回归方程的总显著检验。在一元线性回归中,由于只有一个自变量,对各回归系数的显著性检验与 对回归方程的总显著性检验实际是等价的,故这里只讨论对回归系数的显著性检验。o检验目的是评价两个变量之间是否有关系,即变量X是否对变量Y有影响。第58页/共77页思想思想:是未知的,而且不一定能获得大样本,这时可用是未知的,而且不一定能获得大样本,这时可用 的的无偏估计无偏估计 代替代替 去估计参数的标准误差去
26、估计参数的标准误差第59页/共77页 回归系数显著性的回归系数显著性的 t t 检验检验(续续)用估计的参数标准误差对估计的参数作标准化变 换,所得的 t 统计量将不再服从正态分布,而是服从 t 分布:可利用 t 分布作有关的假设检验。第60页/共77页 回归系数显著性回归系数显著性 t t 检验的方法检验的方法(1)提出假设一般假设:常用假设:(2)计算统计量(3)给定显著性水平,确定临界值(4)检验结果判断 若 则拒绝原假设,而接受备择假设 若 则接受原假设,拒绝备择假设第61页/共77页回归系数显著性的回归系数显著性的P P值检验值检验P P值的意义值的意义 P值的意义:在既定原假设下计
27、算回归系数的t统计量 ,可求得统计量 t 大于 的概率 :这里的 是 t 统计量大于 值的概率,是尚不能拒绝原假设 最大显著水平,称为所估计的回归系数的P值。第62页/共77页 回归系数显著性的回归系数显著性的P P值检验值检验 检验方法检验方法回归系数显著性的P值检验方法:将所取显著性水平与P值对比 所取的显著性水平 (例如取0.05)若比P值更大,就可在显著性水平 下拒绝 所取的 若小于P值,就应在显著性水平 下接受 第63页/共77页五、简单线性回归模型预测五、简单线性回归模型预测 如果所拟合的样本回归方程经过检验,被认为具有经济意义,同时具有较高的拟合度,就可利用其进行预测。即用自变量
28、X的取值估计或预测因变量Y的取值。(1)点预测 第64页/共77页(2)区间预测 的个别值置信度为1的预测区间:第65页/共77页 因变量的区间预测的特点因变量的区间预测的特点(续续)(3)预测区间与样本容量有关:样本容量n越 大,越大,预测误差的方差越小,预 测区间也越窄。(4)当样本容量趋于无穷大(即n)时,不存在抽样误差,平均值预测误差趋 于0,此时个别值的预测误差只决定于 随机扰动的方差。第66页/共77页8.3 非线性相关与回归分析非线性相关与回归分析一、非线性回归的函数形式与估计方法一、非线性回归的函数形式与估计方法二、非线性相关指数二、非线性相关指数第67页/共77页一、非线性回
29、归的函数形式与估计方法一、非线性回归的函数形式与估计方法常用的可以转换为线性的非线性函数形式常用的可以转换为线性的非线性函数形式幂函数对数函数第68页/共77页 非线性回归的函数形式非线性回归的函数形式(续)(续)指数函数如可转换为线性函数 双曲函数多项式函数共同特点:虽然对于变量而言都是非线性的,但对虽然对于变量而言都是非线性的,但对 于参数而言却是线性的可以转换为线性回归去于参数而言却是线性的可以转换为线性回归去估计其参数。估计其参数。第69页/共77页 二、非线性相关指数二、非线性相关指数 非线性相关指数:度量非线性相关程度 第70页/共77页本章小结本章小结1.各种变量相互之间的依存关
30、系:2.变量间的相关关系的程度用相关系数去度量 3.回归分析的目的是要用样本回归函数去估计总体回归函数。4.线性回归的各项基本假定 5.简单线性回归和最小二乘估计 6.用可决系数去度量回归的拟合优度 第71页/共77页 本章小结(续)本章小结(续)7.各个回归系数显著性的t检验或P值检验8.回归方程的显著性检验:在方差分析基础上的F检验 9.利用估计的线性回归模型对因变量作点预测和区间预测 10.复相关系数和偏相关系数 11.常用的可以转换为线性回归的非线性函数:幂函数、对数函数、指数函数、双曲函数、多项式函数等 12.非线性相关指数13.应用Excel去实现 相关分析和回归分析的实际计算和图形描绘第72页/共77页 第八章重要公式第八章重要公式1.总体相关系数2.样本相关系数3.总体回归函数(PRF)4.样本回归函数(SRF)第73页/共77页 第八章重要公式(续第八章重要公式(续1 1)5.最小二乘估计6.的无偏估计7.可决系数 第74页/共77页 第八章重要公式(续第八章重要公式(续2 2)8.修正可决系数 9.t检验统计量10.F检验统计量11.置信度为 的预测区间第75页/共77页第8 8章结束了!第76页/共77页感谢您的观看!第77页/共77页