《统计学 相关与回归分析精品文稿.ppt》由会员分享,可在线阅读,更多相关《统计学 相关与回归分析精品文稿.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学 相关与回归分析第1页,本讲稿共58页相关分析与回归分析是现代统计学中非常重要的内容,在自然、相关分析与回归分析是现代统计学中非常重要的内容,在自然、管理科学和社会经济领域有着十分广泛的应用。管理科学和社会经济领域有着十分广泛的应用。在分析变量之间关系的时,常用的基本模型在分析变量之间关系的时,常用的基本模型:(1):(1)相关模型相关模型;(2)(2)回归模型回归模型实践中到底使用哪种模型取决于研究者的研究目的和数据的实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件。收集方式和条件。相关分析相关分析:变量变量 X 和和 Y 都被视为随机变量,服都被视为随机变量,服从二
2、元分布;从二元分布;经典经典的的回归分析回归分析:通常变量通常变量 x 不是随机变量,在事不是随机变量,在事先选好的值中取值,变量先选好的值中取值,变量 Y 是随机变量,在变量是随机变量,在变量 x 的给定值处的给定值处有相应的观测值。有相应的观测值。例例1 1:太阳镜的日销售数量太阳镜的日销售数量 Y 与日最高气温与日最高气温 X 之间的关系之间的关系例例2 2:人均消费与人均人均消费与人均GDPGDP的关系的关系第2页,本讲稿共58页相关分析与回归分析相关分析与回归分析相关分析相关分析 用一个指标来表明现象间相互依存关系的密用一个指标来表明现象间相互依存关系的密切程度。切程度。回归分析回归
3、分析回归分析回归分析 根据相关关系的具体形态,选择一个合适根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间关系。的数学模型,来近似地表达变量间关系。相关分析所研究的变量是相关分析所研究的变量是对等对等关系;回归分析所研究关系;回归分析所研究的两个变量不是对等关系。的两个变量不是对等关系。因果因果第3页,本讲稿共58页第4页,本讲稿共58页本章内容本章内容一、相关关系的概念和分类一、相关关系的概念和分类二、线性相关关系的识别二、线性相关关系的识别三、三、一元线性回归分析一元线性回归分析四、多元线性回归分析四、多元线性回归分析五、非线性回归分析五、非线性回归分析相相关关分分析析N
4、ewNew第5页,本讲稿共58页一、相关关系的概念和分类相关关系的概念和分类一、函数关系一、函数关系和和相关关系相关关系二、相关关系的分类二、相关关系的分类 相关程度相关程度相关程度相关程度、相关方向相关方向相关方向相关方向、相关形式相关形式相关形式相关形式、变量多少、变量多少、变量多少、变量多少、相关性质相关性质相关性质相关性质第6页,本讲稿共58页二、线性相关关系的识别二、线性相关关系的识别(一)(一)散点图散点图 (例子例子)最简单、最直观的识别方法最简单、最直观的识别方法,但难以给出相关的程度但难以给出相关的程度.(二)(二)直线相关系数直线相关系数 直线相关系数的直线相关系数的设计思
5、想设计思想 总体相关系数总体相关系数与与PearsonPearson相关系数相关系数 相关系数的检验相关系数的检验 第7页,本讲稿共58页三、一元线性回归分析三、一元线性回归分析变量变量y y对对x x的一元线性回归总体模型的一元线性回归总体模型 一元线性回归方程一元线性回归方程 一元线性经验回归方程一元线性经验回归方程 估计方法:估计方法:普通最小二乘估计普通最小二乘估计 、标准误差、标准误差 的估计的估计模型评价:模型评价:可决系数可决系数、显著性检验显著性检验1 21 2预测方法:预测方法:点预测,区间预测点预测,区间预测将代入回归方程得将代入回归方程得=181.5830+0.44141
6、0000=4595.5628=181.5830+0.441410000=4595.5628(元)(元)一元线性回归模型的概念一元线性回归模型的概念New第8页,本讲稿共58页四、多元线性回归分析四、多元线性回归分析基本概念:基本概念:回归系数、被解释变量(因变量)、解释回归系数、被解释变量(因变量)、解释 变量(自变量)、多元回归、变量(自变量)、多元回归、随机误差项。随机误差项。第9页,本讲稿共58页第10页,本讲稿共58页基本假设基本假设解释变量是确定性变量,不是随机变量,且要求矩阵解释变量是确定性变量,不是随机变量,且要求矩阵X X中的自变量列之间不相关,样本容量的个数应大于中的自变量列
7、之间不相关,样本容量的个数应大于解释变量的个数。解释变量的个数。独立、同分布、零均值独立、同分布、零均值正态分布的假定条件:正态分布的假定条件:第11页,本讲稿共58页参数估计参数估计与一元线性回归方程的参数估计原理一样与一元线性回归方程的参数估计原理一样,应该使得估计值与观测应该使得估计值与观测值值y y之间的残差在所有样本点上达到最小,即使之间的残差在所有样本点上达到最小,即使QQ达到最小达到最小参数的最小二乘估计值为:参数的最小二乘估计值为:另外,另外,第12页,本讲稿共58页模型评价模型评价-拟合优度拟合优度一般不再用可决系数一般不再用可决系数而是用修正的可决系数而是用修正的可决系数第
8、13页,本讲稿共58页模型评价模型评价-显著性检验显著性检验1整个回归方程的检验整个回归方程的检验第14页,本讲稿共58页模型评价模型评价-显著性检验显著性检验2单个回归系数的检验单个回归系数的检验第15页,本讲稿共58页EXCELEXCEL演示和解释演示和解释第16页,本讲稿共58页五、非线性回归分析五、非线性回归分析线性回归模型的结构特点线性回归模型的结构特点:(1 1)被解)被解释变量是解释变量的线性函数释变量是解释变量的线性函数变量线性变量线性 (2 2)被解)被解释变量也是参数的线性函数释变量也是参数的线性函数参数线性参数线性根据实际分析建立的模型往往不符合上述线性特点,称为根据实际
9、分析建立的模型往往不符合上述线性特点,称为非线性非线性模型模型。如。如:柯布柯布道格拉斯生产函数道格拉斯生产函数处理非线性回归模型的方法有两种:处理非线性回归模型的方法有两种:(1)(1)把非线性关系转化为线性关系,然后再运用线性回归的把非线性关系转化为线性关系,然后再运用线性回归的分析方法进行估计。分析方法进行估计。(2)(2)利用非线性最小二乘法直接估计利用非线性最小二乘法直接估计非线性模型转换成线性模型的常用方法非线性模型转换成线性模型的常用方法:直接和间接代换法直接和间接代换法 第17页,本讲稿共58页第18页,本讲稿共58页第19页,本讲稿共58页 函数关系:函数关系:对一个或几个变
10、量任意一个取值,另对一个或几个变量任意一个取值,另一个变量都有唯一确定值与之相对应,这种关系一个变量都有唯一确定值与之相对应,这种关系确定确定性性的关系称为的关系称为函数关系函数关系。如某种商品的销售额如某种商品的销售额Y Y与该商品的销售量与该商品的销售量X X以及以及价格价格P P之间的关系可以表示为之间的关系可以表示为Y=PXY=PX,这就是一种函,这就是一种函数关系。数关系。一般把作为影响因素的变量称为一般把作为影响因素的变量称为自变量自变量;把发;把发生对应变化的变量称为生对应变化的变量称为因变量因变量。Y Y是因变量,是因变量,P P与与X X是自变量。是自变量。函数关系函数关系第
11、20页,本讲稿共58页 相关关系相关关系:当一个或几个相互联系的变量取一当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,这种但它仍按某种规律在一定的范围内变化,这种不确不确定定的的相互关系,称为相互关系,称为相关关系相关关系如:劳动生产率与工资水平的关系如:劳动生产率与工资水平的关系,家庭支出和收家庭支出和收入的关系,人的体重和身高的关系。入的关系,人的体重和身高的关系。相关关系不能用函数相关关系不能用函数精确精确表达表达,但经常用一定的但经常用一定的函数形式去函数形式去近似地近似地描
12、述。描述。相关关系相关关系第21页,本讲稿共58页按相关程度划分按相关程度划分 完全相关完全相关:当一种现象的数量变化完全由当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象另一个现象的数量变化所确定时,这两种现象间的关系为完全相关。即函数关系。间的关系为完全相关。即函数关系。不相关不相关:当两个现象彼此互不影响,其数量当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。变化各自独立时,称为不相关。不完全相关不完全相关:两个现象之间的关系介于完全两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。相关和不相关之间,称为不完全相关。(主要表现形式主要表现形式,主主要
13、研究对象,常要研究对象,常简称为相关简称为相关,即狭义的相关,即狭义的相关)第22页,本讲稿共58页 正相关:正相关:当一个现象的数量由小变大,另一当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正个现象的数量也相应由小变大,这种相关称为正相关。如家庭支出随家庭收入的提高而增加。相关。如家庭支出随家庭收入的提高而增加。负相关:负相关:当一个现象的数量由小变大,而另一当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负个现象的数量相反地由大变小,这种相关称为负相关。如商品流转的规模越大,流通费用水平则相关。如商品流转的规模越大,流通费用水平则越低。越低
14、。按相关方向划分按相关方向划分第23页,本讲稿共58页按相关形式划分按相关形式划分线性相关:当两种相关现象之间的关系大当两种相关现象之间的关系大致呈现为直线关系时,称之为线性相关。致呈现为直线关系时,称之为线性相关。如如人均消费与人均收入通常呈线性关系人均消费与人均收入通常呈线性关系非线性相关:如果两种相关现象之间如果两种相关现象之间,并不并不表现为直线的关系表现为直线的关系,而是近似于某种曲线关而是近似于某种曲线关系,则这种关系称为非线性相关。系,则这种关系称为非线性相关。散点图散点图第24页,本讲稿共58页单相关:一个变量对另一个变量的相关关系,一个变量对另一个变量的相关关系,称为单相关。
15、称为单相关。复相关:当所研究的是一个变量对两个或两个以当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。上其他变量的相关关系时,称为复相关。如某种商如某种商品的需求与其价格水平及人们收入水平之间的相关关系就是一品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关。种复相关。偏相关:在某一变量与多种变量相关的场合,当假在某一变量与多种变量相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为定其他变量不变时,其中两个变量的相关关系称为偏相关。偏相关。按变量多少划分按变量多少划分第25页,本讲稿共58页 真实相关:真实相关:当两种现象之间的相关确实当两种现象之间
16、的相关确实具有内在的联系时,称之为具有内在的联系时,称之为“真实相关真实相关”。虚假相关:虚假相关:当两种现象之间的相关只当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,是表面存在,实质上并没有内在的联系时,称之为称之为“虚假相关虚假相关”。按相关性质划分按相关性质划分第26页,本讲稿共58页散点图散点图:又称相关图,它是以直角坐标系的横轴又称相关图,它是以直角坐标系的横轴代表变量代表变量X X,纵轴代表变量,纵轴代表变量Y Y,将两个变量相对应,将两个变量相对应的数值用坐标点的形式描述出来,用来反映两变的数值用坐标点的形式描述出来,用来反映两变量之间相关关系的图形。量之间相关关系
17、的图形。散点图第27页,本讲稿共58页相关图相关图第28页,本讲稿共58页数据数据散点图散点图第29页,本讲稿共58页散点图散点图第30页,本讲稿共58页设计思想设计思想第31页,本讲稿共58页总体相关系数总体相关系数二维随机变量总体二维随机变量总体(X,Y),随机变量随机变量X和和Y的的总体相关系数总体相关系数:(数)(数)性质:性质:(1)(2)的充分必要条件是存在常数 和 使得 以概率1成立。协方差协方差第32页,本讲稿共58页第33页,本讲稿共58页(随机变量随机变量)(数数)样本相关系数样本相关系数例例9.29.2Pearson相关系数,样本相关系数相关系数,样本相关系数第34页,本
18、讲稿共58页例子例子EXCEL:pearson()correl()第35页,本讲稿共58页图图9.5 9.5 从二元总体中抽取的一个随机样本从二元总体中抽取的一个随机样本为什么要检验?为什么要检验?第36页,本讲稿共58页相关系数检验相关系数检验1.要检验的假设:或2.检验方法一t检验 检验统计量检验统计量 (原假设成立时原假设成立时)例例9.39.3第37页,本讲稿共58页3.检验方法二直接利用R的分布 总体相关系数检验总体相关系数检验更简单的方法更简单的方法:直接查直接查 R 分布的临界值表,即相分布的临界值表,即相关系数临界值表关系数临界值表(附表九附表九).).例例9.39.3第38页
19、,本讲稿共58页例例 9.3法一:t t统计量统计量显著性水平显著性水平0.050.05,查表得到临界值:,查表得到临界值:由于由于 ,所以否定原假设,接受备择假设,表,所以否定原假设,接受备择假设,表明总体相关系数显著不为零,即人均国内生产总值与人均销售明总体相关系数显著不为零,即人均国内生产总值与人均销售金额之间确实存在着线性相关关系。金额之间确实存在着线性相关关系。方法二:第39页,本讲稿共58页普通最小二乘估计普通最小二乘估计正规方程组:正规方程组:求解正规方程组得:求解正规方程组得:例子例子第40页,本讲稿共58页例子例子回归方程:回归方程:Excel:Slope();interce
20、pt();steyx()第41页,本讲稿共58页可决系数可决系数第42页,本讲稿共58页估计标准误差估计标准误差例子例子第43页,本讲稿共58页例例 子子newExcel函数函数:Steyx()Excel函数函数:RSQ()第44页,本讲稿共58页显著性检验显著性检验1例子例子第45页,本讲稿共58页显著性检验显著性检验2第46页,本讲稿共58页例例 子子第47页,本讲稿共58页相关分析相关分析 函数关系与相关关系函数关系与相关关系 相关关系的分类相关关系的分类 完全、不完全、不相关完全、不完全、不相关;正相关、负相关正相关、负相关;线性相关、非线性相关线性相关、非线性相关;单相关、复相关、偏
21、相关单相关、复相关、偏相关 线性相关的识别线性相关的识别 散点图散点图 (如何用如何用EXCEL画?画?)相关系数及其检验相关系数及其检验 总体相关系数总体相关系数 (数数)样本相关系数样本相关系数(Pearson)第48页,本讲稿共58页相关分析相关分析(续续)(随机变量随机变量)(数数)或者直接查或者直接查 R 的分布的临界值表,即相关系数临界值表的分布的临界值表,即相关系数临界值表(附附表九表九).).第49页,本讲稿共58页 总体模型总体模型 样本模型样本模型 模型的两部分;自变量模型的两部分;自变量(解释变量解释变量),因变量,因变量(被解释变量被解释变量)回归系数;回归系数的意义回
22、归系数;回归系数的意义 假设条件:假设条件:独立同分布独立同分布,均值为均值为0,方差为方差为 一元线性回归方程一元线性回归方程(直线直线)一元线性经验回归方程一元线性经验回归方程 几何解释:截距和斜率几何解释:截距和斜率一元线性回归分析一元线性回归分析概念概念 第50页,本讲稿共58页普通最小二乘估计普通最小二乘估计(OLS)实际值实际值 与相应点的估计值与相应点的估计值(拟合值拟合值)残差残差 ;残差平方和;残差平方和 的无偏估计的无偏估计 斜率和斜率和Pearson相关系数的关系相关系数的关系一元线性回归一元线性回归估计方法估计方法OLS 无偏估计无偏估计例子例子第51页,本讲稿共58页
23、一元线性回归模型评价一元线性回归模型评价 一元线性回归模型的拟合优度一元线性回归模型的拟合优度 可绝系数可绝系数(判定判定)正确认识其作用;正确认识其作用;拟合程度拟合程度,解释力度解释力度 与与PearsonPearson相关系数的关系相关系数的关系 一元线性回归模型回归系数的显著性检验一元线性回归模型回归系数的显著性检验(正确认识正确认识)假设假设 独立同分布独立同分布 整个回归方程的检验整个回归方程的检验 方差分析方差分析(F(F检验检验)回归系数的显著性检验回归系数的显著性检验 t t 检验检验注意:注意:当常数项当常数项 时,上述估计和检验不再成立!时,上述估计和检验不再成立!例子例
24、子例例9.5 综合综合最常用指标最常用指标第52页,本讲稿共58页一元线性回归模型预测一元线性回归模型预测 点预测点预测 Excel:Excel:trend(),forecast()trend(),forecast()区间预测区间预测 Y 的均值的均值 的区间估计的区间估计 Y 的个别值的个别值 的区间估计的区间估计(预测区间预测区间)注:注:条件是条件是 独立同正态分布,独立同正态分布,P230-231三点结论三点结论.第53页,本讲稿共58页多元线性回归分析多元线性回归分析 总体模型总体模型 样本模型样本模型 (独立同分布独立同分布,均值为均值为0)普通最小二乘估计普通最小二乘估计(OLS
25、)的无偏估计:的无偏估计:无偏估计无偏估计方差为方差为第54页,本讲稿共58页多元线性回归模型评价多元线性回归模型评价 多元线性回归模型的拟合优度多元线性回归模型的拟合优度 可绝系数可绝系数(判定判定)正确认识其作用正确认识其作用 多元线性回归模型回归系数的显著性检验多元线性回归模型回归系数的显著性检验(正确认识正确认识)假设假设 独立同分布独立同分布 整个回归方程的检验整个回归方程的检验 方差分析方差分析(F(F检验检验)回归系数的显著性检验回归系数的显著性检验 t t 检验检验注意:注意:当常数项当常数项 时,上述估计和检验不再成立!时,上述估计和检验不再成立!例例9.7例例9.8第55页
26、,本讲稿共58页非线性回归模型非线性回归模型 参数线性和变量线性参数线性和变量线性 非线性回归模型非线性回归模型 柯布柯布道格拉斯生产函数道格拉斯生产函数 非线性转换成线性模型的常用方法非线性转换成线性模型的常用方法 直接代换法直接代换法 间接代换法间接代换法 第56页,本讲稿共58页例例 子子 EXCELEXCEL演示演示第57页,本讲稿共58页例例 子子【例【例9.29.2】数据集】数据集UNUN中保存的是中保存的是193193个国家或地区个国家或地区(大多是联合国成员国大多是联合国成员国)2001)2001的数据。的数据。ln(Fertility)和和ln(PPgdp)分别是分别是是出生率是出生率(每千人每千人)的对数和人均的对数和人均GDPGDP的对数,的对数,Purban是城镇人口比率,试以是城镇人口比率,试以ln(Fertility)为因变量做回归分析。为因变量做回归分析。EXCELEXCEL演示演示第58页,本讲稿共58页