《第十章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第十章相关与回归分析.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、实践中的统计实践中的统计n n19471947年,宝丽来公司创始人年,宝丽来公司创始人年,宝丽来公司创始人年,宝丽来公司创始人Dr.Edwin LandDr.Edwin Land宣布,他们在研究即时显像的技术方面迈宣布,他们在研究即时显像的技术方面迈宣布,他们在研究即时显像的技术方面迈宣布,他们在研究即时显像的技术方面迈出了新的一步,这使得一分钟成像成为可能。紧接着,公司开始拓展用于大众摄影出了新的一步,这使得一分钟成像成为可能。紧接着,公司开始拓展用于大众摄影出了新的一步,这使得一分钟成像成为可能。紧接着,公司开始拓展用于大众摄影出了新的一步,这使得一分钟成像成为可能。紧接着,公司开始拓展用
2、于大众摄影的业务。宝丽来的第一台相机和第一卷胶卷诞生于的业务。宝丽来的第一台相机和第一卷胶卷诞生于的业务。宝丽来的第一台相机和第一卷胶卷诞生于的业务。宝丽来的第一台相机和第一卷胶卷诞生于19491949年。在那之后,他们不断地年。在那之后,他们不断地年。在那之后,他们不断地年。在那之后,他们不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影
3、系统。更为便利的摄影系统。更为便利的摄影系统。更为便利的摄影系统。n n宝丽来公司的另一项主要业务是为技术和工业提供产品,目前,它正致力于使即时宝丽来公司的另一项主要业务是为技术和工业提供产品,目前,它正致力于使即时宝丽来公司的另一项主要业务是为技术和工业提供产品,目前,它正致力于使即时宝丽来公司的另一项主要业务是为技术和工业提供产品,目前,它正致力于使即时显像技术在现代可视的通信环境下,成为日益增长的成像系统中的关键部分。为此,显像技术在现代可视的通信环境下,成为日益增长的成像系统中的关键部分。为此,显像技术在现代可视的通信环境下,成为日益增长的成像系统中的关键部分。为此,显像技术在现代可视
4、的通信环境下,成为日益增长的成像系统中的关键部分。为此,该公司推出了多种可进行即时显像的产品,以供专业摄影、工业、科学和医学之用。该公司推出了多种可进行即时显像的产品,以供专业摄影、工业、科学和医学之用。该公司推出了多种可进行即时显像的产品,以供专业摄影、工业、科学和医学之用。该公司推出了多种可进行即时显像的产品,以供专业摄影、工业、科学和医学之用。除此之外,公司还在磁学、太阳镜、工业偏振镜、化工、传统涂料和全息摄影的研除此之外,公司还在磁学、太阳镜、工业偏振镜、化工、传统涂料和全息摄影的研除此之外,公司还在磁学、太阳镜、工业偏振镜、化工、传统涂料和全息摄影的研除此之外,公司还在磁学、太阳镜、
5、工业偏振镜、化工、传统涂料和全息摄影的研制和生产方面有自己的业务。制和生产方面有自己的业务。制和生产方面有自己的业务。制和生产方面有自己的业务。n n用于衡量摄影材料感光度的测光计,可以提供许多有关于胶片特性的信息,比如它用于衡量摄影材料感光度的测光计,可以提供许多有关于胶片特性的信息,比如它用于衡量摄影材料感光度的测光计,可以提供许多有关于胶片特性的信息,比如它用于衡量摄影材料感光度的测光计,可以提供许多有关于胶片特性的信息,比如它的曝光时间范围。在宝丽来中心感光实验室中,科学家们把即时显像胶片置于一定的曝光时间范围。在宝丽来中心感光实验室中,科学家们把即时显像胶片置于一定的曝光时间范围。在
6、宝丽来中心感光实验室中,科学家们把即时显像胶片置于一定的曝光时间范围。在宝丽来中心感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统地抽的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统地抽的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统地抽的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统地抽样检验和分析。他们选择专业彩色摄影胶卷,抽取了分别已保存样检验和分析。他们选择专业彩色摄影胶卷,抽取了分别已保存样检验和分析。他们选择专业彩色摄影胶卷,抽取了分别已保存样检验和分析。他们
7、选择专业彩色摄影胶卷,抽取了分别已保存113113个月不等的胶个月不等的胶个月不等的胶个月不等的胶卷,以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时卷,以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时卷,以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时卷,以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降,它们之间相应变动的关系可用一条直线或线性关系近似表示出。间的延长而下降,它们之间相应变动的关系可用一条直线或线性关系近似表示出。间的延长而下降,它们之间相应变动的关系可用一条直线或线性关系近似表示出
8、。间的延长而下降,它们之间相应变动的关系可用一条直线或线性关系近似表示出。n n运用回归分析,宝丽来公司建立起一个方程式,它能反映出胶卷保存时间长短对感运用回归分析,宝丽来公司建立起一个方程式,它能反映出胶卷保存时间长短对感运用回归分析,宝丽来公司建立起一个方程式,它能反映出胶卷保存时间长短对感运用回归分析,宝丽来公司建立起一个方程式,它能反映出胶卷保存时间长短对感光速率的影响。光速率的影响。光速率的影响。光速率的影响。n nY=-19.8Y=-19.87.6x 7.6x 式中式中式中式中y y表示胶卷感光率的变动,表示胶卷感光率的变动,表示胶卷感光率的变动,表示胶卷感光率的变动,x x为胶卷
9、保存时间(月)为胶卷保存时间(月)为胶卷保存时间(月)为胶卷保存时间(月)n n从这一方程式可以看出,胶卷的感光速率平均每月下降从这一方程式可以看出,胶卷的感光速率平均每月下降从这一方程式可以看出,胶卷的感光速率平均每月下降从这一方程式可以看出,胶卷的感光速率平均每月下降7.67.6个单位。通过此分析得到个单位。通过此分析得到个单位。通过此分析得到个单位。通过此分析得到的信息,有助于宝丽来公司把消费者的购买和使用结合起来考虑,调整生产,提供的信息,有助于宝丽来公司把消费者的购买和使用结合起来考虑,调整生产,提供的信息,有助于宝丽来公司把消费者的购买和使用结合起来考虑,调整生产,提供的信息,有助
10、于宝丽来公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。顾客需要的胶卷。顾客需要的胶卷。顾客需要的胶卷。事物之间的数量关系举例事物之间的数量关系举例n n某种商品的销售额某种商品的销售额(y)与销售量与销售量(x)之间的关系可之间的关系可表示为:表示为:销售额销售额=销售量销售量销售价格销售价格(p)用符号表示,即:用符号表示,即:y=p xn n圆的面积圆的面积(S)与半径之间的关系可表示为:与半径之间的关系可表示为:S=R2n n企业的原材料消耗额企业的原材料消耗额(y)与产量与产量(x1)、单位产量、单位产量消耗消耗(x2)、原材料价格、原材料价格(x3)之间的关系可
11、表示为:之间的关系可表示为:y=x1 x2 x3事物之间的数量关系举例事物之间的数量关系举例你怎么这你怎么这么高?么高?因为我爸爸因为我爸爸妈妈高。妈妈高。变量间的关系变量间的关系n n函数关系函数关系n n是一一对应的确定关系是一一对应的确定关系是一一对应的确定关系是一一对应的确定关系n n设有两个变量设有两个变量设有两个变量设有两个变量 x x 和和和和 y y,变量变量变量变量 y y 随随随随变量变量变量变量 x x 一起变化,并完全依赖于一起变化,并完全依赖于一起变化,并完全依赖于一起变化,并完全依赖于 x x,当变量当变量当变量当变量 x x 取某个数值时,取某个数值时,取某个数值
12、时,取某个数值时,y y 依确定的关系取相应的值,则称依确定的关系取相应的值,则称依确定的关系取相应的值,则称依确定的关系取相应的值,则称 y y 是是是是 x x 的函数,记为的函数,记为的函数,记为的函数,记为 y y=f f(x x),其其其其中中中中 x x 称为自变量,称为自变量,称为自变量,称为自变量,y y 称为因变量称为因变量称为因变量称为因变量n n以线性函数关系为例,各观测点以线性函数关系为例,各观测点以线性函数关系为例,各观测点以线性函数关系为例,各观测点落在一条线上落在一条线上落在一条线上落在一条线上 x xy y变量间的关系变量间的关系周周周周商业广告数商业广告数商业
13、广告数商业广告数销售额销售额销售额销售额1 1 1 12 2 2 2505050502 2 2 25 5 5 5575757573 3 3 31 1 1 1414141414 4 4 43 3 3 3545454545 5 5 54 4 4 4545454546 6 6 61 1 1 1383838387 7 7 75 5 5 5636363638 8 8 83 3 3 3484848489 9 9 94 4 4 459595959101010102 2 2 246464646某音像设备商店在过去的某音像设备商店在过去的3 3个月有个月有1010周周,利用周末电视广告进行促销利用周末电视广告进
14、行促销.管理管理人员想调查是否可以证实在广告展示次数和下一周期间的商店销售额间人员想调查是否可以证实在广告展示次数和下一周期间的商店销售额间有关系有关系,以百万元计的销售额的以百万元计的销售额的1010周的样本数据如下表周的样本数据如下表:n n相关关系相关关系相关关系相关关系n n变量间关系不能用函数关系变量间关系不能用函数关系变量间关系不能用函数关系变量间关系不能用函数关系精确表达精确表达精确表达精确表达n n一个变量的取值不能由另一一个变量的取值不能由另一一个变量的取值不能由另一一个变量的取值不能由另一个变量唯一确定个变量唯一确定个变量唯一确定个变量唯一确定n n当变量当变量当变量当变量
15、 x x 取某个值时,变量取某个值时,变量取某个值时,变量取某个值时,变量 y y 的取值可能有几个的取值可能有几个的取值可能有几个的取值可能有几个n n以线性相关关系为例,各观以线性相关关系为例,各观以线性相关关系为例,各观以线性相关关系为例,各观测点分布在直线周围测点分布在直线周围测点分布在直线周围测点分布在直线周围 周周周周商业广告数商业广告数商业广告数商业广告数销售额销售额销售额销售额6 6 6 61 1 1 1383838383 3 3 31 1 1 141414141101010102 2 2 2464646461 1 1 12 2 2 2505050508 8 8 83 3 3
16、3484848484 4 4 43 3 3 3545454545 5 5 54 4 4 4545454549 9 9 94 4 4 4595959592 2 2 25 5 5 5575757577 7 7 75 5 5 563636363变量间的关系变量间的关系n n1010名名名名2020多岁的女性一季的多岁的女性一季的多岁的女性一季的多岁的女性一季的“化妆品费化妆品费化妆品费化妆品费”和和和和“置装费置装费置装费置装费”如如如如下:下:下:下:化妆品费(元)化妆品费(元)化妆品费(元)化妆品费(元)置装费(元)置装费(元)置装费(元)置装费(元)A A 3000 3000 7000 700
17、0B B 5000 5000 8000 8000C C12000120002500025000D D 2000 2000 5000 5000E E 7000 70001200012000F F15000150003000030000GG 5000 50001000010000HH 6000 60001500015000I I 8000 80002000020000J J10000100001800018000n n“年龄年龄年龄年龄”和和和和“喜欢的品牌喜欢的品牌喜欢的品牌喜欢的品牌”有关系吗?有关系吗?有关系吗?有关系吗?第十章第十章 相关与回归分析相关与回归分析p253p253p253p2
18、53学习目标学习目标 Learning Objectivesn n1.理解相关系数理解相关系数n n2.描述线性回归模型描述线性回归模型n n3.解释最小二乘法解释最小二乘法n n4.评价模型评价模型01234012345销售销售广告广告讨讨论论内内容容简单线性简单线性相关分析相关分析简单线性简单线性回归分析回归分析相关关系及其类型相关关系及其类型P253相关分析要解决的问题相关分析要解决的问题相关与回归分析的步骤相关与回归分析的步骤Excel的相应应用的相应应用线性相关关系的量度线性相关关系的量度回归分析回归分析P262P262简单线性回归模型及其建立简单线性回归模型及其建立简单线性回归模型
19、的评价简单线性回归模型的评价利用回归方程进行预测利用回归方程进行预测应用相关与回归分析的注意事项应用相关与回归分析的注意事项相关关系及其类型p255p255n n相关关系相关关系现象之间存在的非确定性的数现象之间存在的非确定性的数量依存关系称为相关关系。量依存关系称为相关关系。完全相关完全相关不相关不相关不完全相关不完全相关相关关系的类型相关关系的类型 链接相关关系的类型p255p255正相关正相关负相关负相关直线相关直线相关曲线相关曲线相关相关关系的类型相关关系的类型n n单相关单相关单相关单相关l复相关复相关相关关系的类型相关关系相关关系非线性非线性相关相关线性线性线性线性相关相关相关相关
20、单单单单相相相相关关关关正正相相关关负负相相关关复复相相关关完全完全相关相关不不 相关相关按相关形式按相关形式按相关程度按相关程度按相关因素多少按相关因素多少不完全不完全不完全不完全相关相关相关相关相关分析要解决的问题相关分析要解决的问题n n变量之间是否存在关系?变量之间是否存在关系?n n如如果果存存在在关关系系,它它们们之之间间是是什什么么样的关系?样的关系?n n变量之间的关系强度如何?变量之间的关系强度如何?n n样样本本所所反反映映的的变变量量之之间间的的关关系系能能否代表总体变量之间的关系?否代表总体变量之间的关系?相关与回归分析的步骤相关与回归分析的步骤定性分析定性分析有无终止
21、终止初步判断初步判断(确定表现形式及方向)(确定表现形式及方向)定量分析定量分析(计算相关系数)(计算相关系数)建建 模模(数学模型表现相关关系)(数学模型表现相关关系)检检 验验(可信度及显著性检验)(可信度及显著性检验)运运 用用(分析、预测或模拟控制)(分析、预测或模拟控制)检检 验验(相关系数显著性检验)(相关系数显著性检验)变量线性相关关系的测度变量线性相关关系的测度p257p257n n相关表相关表相关表相关表将一变量的变量值按顺序排列,与之对应的另一变量将一变量的变量值按顺序排列,与之对应的另一变量将一变量的变量值按顺序排列,与之对应的另一变量将一变量的变量值按顺序排列,与之对应
22、的另一变量或多个变量的变量值依次排列形成的统计表或多个变量的变量值依次排列形成的统计表或多个变量的变量值依次排列形成的统计表或多个变量的变量值依次排列形成的统计表n n相相相相关图关图关图关图(散点图散点图散点图散点图)将两个变量间相对应的变量值用坐标点的将两个变量间相对应的变量值用坐标点的将两个变量间相对应的变量值用坐标点的将两个变量间相对应的变量值用坐标点的形式描绘出来。形式描绘出来。形式描绘出来。形式描绘出来。大致判断两个变量间的相关形态、方向及程度。大致判断两个变量间的相关形态、方向及程度。大致判断两个变量间的相关形态、方向及程度。大致判断两个变量间的相关形态、方向及程度。n n相关系
23、数相关系数相关系数相关系数度量变量之间线性相关关系密切程度的指标度量变量之间线性相关关系密切程度的指标度量变量之间线性相关关系密切程度的指标度量变量之间线性相关关系密切程度的指标n n简单相关系数简单相关系数简单相关系数简单相关系数与复相关系数与复相关系数与复相关系数与复相关系数前者:前者:前者:前者:测定直线相关条件下两测定直线相关条件下两测定直线相关条件下两测定直线相关条件下两个变量之间相关关系密切程度和方向;后者:个变量之间相关关系密切程度和方向;后者:个变量之间相关关系密切程度和方向;后者:个变量之间相关关系密切程度和方向;后者:反映多个变量反映多个变量反映多个变量反映多个变量 之之之
24、之间线性相关关系间线性相关关系间线性相关关系间线性相关关系n n样本相关系数样本相关系数样本相关系数样本相关系数与总体相关系数与总体相关系数与总体相关系数与总体相关系数前者:根据样本数据计算的,前者:根据样本数据计算的,前者:根据样本数据计算的,前者:根据样本数据计算的,记为记为记为记为r r;后者:根据总体全部数据计算的,记为;后者:根据总体全部数据计算的,记为;后者:根据总体全部数据计算的,记为;后者:根据总体全部数据计算的,记为 两变量线性相关关系的测度两变量线性相关关系的测度(简单)相关系数的理解(简单)相关系数的理解n n协方差协方差相关系数实质上是通过协方差相关系数实质上是通过协方
25、差来说明相关关系的密切程度的。对于一个来说明相关关系的密切程度的。对于一个含有含有 n个个体个个体,每个个体含有两个数据每个个体含有两个数据(x1,y1),(x2,y2),协方差定义如下:,协方差定义如下:两变量线性相关关系的测度两变量线性相关关系的测度(简单)相关系数的理解(简单)相关系数的理解n n协方差的理解协方差的理解协方差的理解协方差的理解以音像商店例子为例。散点以音像商店例子为例。散点以音像商店例子为例。散点以音像商店例子为例。散点图中加了一条垂直线(即图中加了一条垂直线(即图中加了一条垂直线(即图中加了一条垂直线(即x x的的的的平均值)和一条水平线(即平均值)和一条水平线(即平
26、均值)和一条水平线(即平均值)和一条水平线(即y y的平均值)。以此将图划分的平均值)。以此将图划分的平均值)。以此将图划分的平均值)。以此将图划分为四个象限。第一象限的点为四个象限。第一象限的点为四个象限。第一象限的点为四个象限。第一象限的点对应于对应于对应于对应于x xi i值大于其平均值且值大于其平均值且值大于其平均值且值大于其平均值且y yi i值大于其平均值。以此类推。值大于其平均值。以此类推。值大于其平均值。以此类推。值大于其平均值。以此类推。的值,在第一、第三象限为的值,在第一、第三象限为正,在第二、第四象限为负。正,在第二、第四象限为负。会有几种情况:会有几种情况:所有点全在第
27、一、三象限,则加总结果所有点全在第一、三象限,则加总结果为正数。说明为正数。说明x的值增加则的值增加则y的值也增加,的值也增加,两个现象属于正两个现象属于正线性线性相关;相关;所有点全在所有点全在第二、四象限,则加总结果为负数,说明第二、四象限,则加总结果为负数,说明x的值增加则的值增加则y的值减少,的值减少,两个现象属于负两个现象属于负线性相关;线性相关;所有象限都有点,加总时正所有象限都有点,加总时正数和负数会发生抵消,抵消的结果如为正数和负数会发生抵消,抵消的结果如为正数则是正相关,为负数则是负相关。数值数则是正相关,为负数则是负相关。数值大表示关系强,数值小表示关系弱。若全大表示关系强
28、,数值小表示关系弱。若全部抵消掉了,结果为部抵消掉了,结果为0,则表示是零相关。,则表示是零相关。所以,根据离差乘积总和的结果可以判断所以,根据离差乘积总和的结果可以判断两个现象属于哪一种相关,以及相关关系两个现象属于哪一种相关,以及相关关系是否密切。是否密切。但是很显然,离差乘积总和受项数多少的但是很显然,离差乘积总和受项数多少的影响。因此从离差的总和还不能准确说明影响。因此从离差的总和还不能准确说明相关关系是否密切。将这个总和除以项数相关关系是否密切。将这个总和除以项数就可以消除项数多少的影响,即得出平均就可以消除项数多少的影响,即得出平均每一项的离差乘积,这就是协方差。每一项的离差乘积,
29、这就是协方差。两变量线性相关关系的测度两变量线性相关关系的测度(简单)相关系数的理解(简单)相关系数的理解n n从上面的讨论中看出,似乎协方差是一个大的正值就表从上面的讨论中看出,似乎协方差是一个大的正值就表从上面的讨论中看出,似乎协方差是一个大的正值就表从上面的讨论中看出,似乎协方差是一个大的正值就表示强的正线性相关关系,若是一个大的负数就表示强的示强的正线性相关关系,若是一个大的负数就表示强的示强的正线性相关关系,若是一个大的负数就表示强的示强的正线性相关关系,若是一个大的负数就表示强的负线性相关关系。但是运用协方差的一个问题在于其值负线性相关关系。但是运用协方差的一个问题在于其值负线性相
30、关关系。但是运用协方差的一个问题在于其值负线性相关关系。但是运用协方差的一个问题在于其值的大小取决于的大小取决于的大小取决于的大小取决于x x和和和和y y本身数值的大小,和它们采用的度量本身数值的大小,和它们采用的度量本身数值的大小,和它们采用的度量本身数值的大小,和它们采用的度量单位也有关系。比如,假设要研究人的身高与体重的关单位也有关系。比如,假设要研究人的身高与体重的关单位也有关系。比如,假设要研究人的身高与体重的关单位也有关系。比如,假设要研究人的身高与体重的关系,无论用厘米还是用米来度量身高,它与体重的关系系,无论用厘米还是用米来度量身高,它与体重的关系系,无论用厘米还是用米来度量
31、身高,它与体重的关系系,无论用厘米还是用米来度量身高,它与体重的关系都不会改变。但是,如果用厘米来度量身高的话,计算都不会改变。但是,如果用厘米来度量身高的话,计算都不会改变。但是,如果用厘米来度量身高的话,计算都不会改变。但是,如果用厘米来度量身高的话,计算出的出的出的出的x x的离差将比以米的大,从而协方差也大的离差将比以米的大,从而协方差也大的离差将比以米的大,从而协方差也大的离差将比以米的大,从而协方差也大而事而事而事而事实上相关关系并无变化。为了避免这种情况即消除变量实上相关关系并无变化。为了避免这种情况即消除变量实上相关关系并无变化。为了避免这种情况即消除变量实上相关关系并无变化。
32、为了避免这种情况即消除变量值大小和离差大小的影响,将协方差和值大小和离差大小的影响,将协方差和值大小和离差大小的影响,将协方差和值大小和离差大小的影响,将协方差和 x x y y的乘积相比的乘积相比的乘积相比的乘积相比较,使协方差变为相对数。这就称为相关系数。较,使协方差变为相对数。这就称为相关系数。较,使协方差变为相对数。这就称为相关系数。较,使协方差变为相对数。这就称为相关系数。两变量线性相关关系的测度两变量线性相关关系的测度 (简单)相关系数的理解(简单)相关系数的理解取值范围在取值范围在-1与与+1之间。为负表示负相关,为正称为正相关。之间。为负表示负相关,为正称为正相关。数值越接近于
33、数值越接近于1表示相关关系越强,反之则越弱。表示相关关系越强,反之则越弱。皮尔逊乘积矩相关系数:皮尔逊乘积矩相关系数:相关系数的计算相关系数的计算简捷法简捷法相关关系密切程度的判断(绝对值):相关关系密切程度的判断(绝对值):00.3之间为弱(微)相关(不相关);之间为弱(微)相关(不相关);0.30.5之间为低度相关;之间为低度相关;0.50.8之间为显著相关;之间为显著相关;0.81之间为高度相关。之间为高度相关。注:按此标准计算相关系数,原始数据要比较多,结果才可信;若注:按此标准计算相关系数,原始数据要比较多,结果才可信;若数据太少,可信度会降低,此时一般不能以数据太少,可信度会降低,
34、此时一般不能以0.3为起点,要查为起点,要查“相关相关系数检验表系数检验表”,该表中列有不同条件下判断相关关系密切程度的起,该表中列有不同条件下判断相关关系密切程度的起点值。点值。用用excel计算:计算:函数:函数:pearson和和correl数据分析工具:相关系数据分析工具:相关系数和回归数和回归相关关系的测度相关关系的测度-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加
35、相关系数的计算举例相关系数的计算举例n n在研究我国人均消费水平的问题中,把全国人均消费额记为在研究我国人均消费水平的问题中,把全国人均消费额记为在研究我国人均消费水平的问题中,把全国人均消费额记为在研究我国人均消费水平的问题中,把全国人均消费额记为y y,把人,把人,把人,把人均国民收入记为均国民收入记为均国民收入记为均国民收入记为x x。我们收集到以下样本数据。我们收集到以下样本数据。我们收集到以下样本数据。我们收集到以下样本数据(x xi i ,y yi i),i i=1,2,=1,2,,1313,数据见表,计算相关系数。,数据见表,计算相关系数。,数据见表,计算相关系数。,数据见表,计
36、算相关系数。我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位单位单位:元元元元年份年份年份年份人均人均人均人均国民收入国民收入国民收入国民收入人均人均人均人均消费金额消费金额消费金额消费金额年份年份年份年份人均人均人均人均国民收入国民收入国民收入国民收入人均人均人均人均消费金额消费金额消费金额消费金额第第第第1 1年年年年第第第第2 2年年年年第第第第3 3年年年年第第第第4 4年年年年第第第第5 5年年年年第第第第6 6年年年年第第第第7 7年年年年393.8393.8419.14419.144
37、60.86460.86544.11544.11668.29668.29737.73737.73859.97859.97249249267267289289329329406406451451513513第第第第8 8年年年年第第第第9 9年年年年第第第第1 10 0年年年年第第第第1 11 1年年年年第第第第1212年年年年第第第第1313年年年年1068.81068.81169.21169.21250.71250.71429.51429.51725.91725.92099.52099.564364369069071371380380394794711481148相关系数的计算举例相关系数的计
38、算举例解:解:根据样本相关系数的计算公式有根据样本相关系数的计算公式有人人均均国国民民收收入入与与人人均均消消费费金金额额之之间间的的相相关关系系数数为为 0.9987利用利用Excel计算计算相关系数相关系数相关分析注意事项相关分析注意事项P261P261P261P261n n因果关系问题因果关系问题n n使用范围问题使用范围问题n n虚假相关问题虚假相关问题ABCABC伪相关伪相关伪相关伪相关中介相关中介相关中介相关中介相关相关系数的显著性检验相关系数的显著性检验P261P261P261P261n检验总体两变量间线性相关性是否显著。即样检验总体两变量间线性相关性是否显著。即样本相关系数是否
39、会来自一个无线性关系的总体。本相关系数是否会来自一个无线性关系的总体。n检验依据:如果变量检验依据:如果变量X和和Y都服从正态分布,在都服从正态分布,在总体相关系数总体相关系数=0的假设下,与样本相关系数的假设下,与样本相关系数 r 有关的有关的 t统计量服从自由度为统计量服从自由度为n-2的的 t 分布:分布:相关系数的显著性检验步骤相关系数的显著性检验步骤n n提出假设。提出假设。H0:0;H1:0n n规定显著性水平,并依据自由度(规定显著性水平,并依据自由度(n-2)查)查阅阅t分布表得到临界值分布表得到临界值t/2n n计算检验统计量计算检验统计量n n将检验统计量与临界值对比,作出
40、决策。将检验统计量与临界值对比,作出决策。若若|t|t/2(n-2),则拒绝原假设,则拒绝原假设若若|t|t/2(n-2),则接受原假设,则接受原假设举例:P262回归分析回归分析p262p262n n管理决策,经常取决于对两个或更多个变量的分析。管理决策,经常取决于对两个或更多个变量的分析。管理决策,经常取决于对两个或更多个变量的分析。管理决策,经常取决于对两个或更多个变量的分析。如一位销售部经理在考虑了广告费和销售收入之间的如一位销售部经理在考虑了广告费和销售收入之间的如一位销售部经理在考虑了广告费和销售收入之间的如一位销售部经理在考虑了广告费和销售收入之间的关系后,才能尝试去预测一定水平
41、的广告费可能带来关系后,才能尝试去预测一定水平的广告费可能带来关系后,才能尝试去预测一定水平的广告费可能带来关系后,才能尝试去预测一定水平的广告费可能带来多少销售收入。又如一家公用事业公司可以先分析出多少销售收入。又如一家公用事业公司可以先分析出多少销售收入。又如一家公用事业公司可以先分析出多少销售收入。又如一家公用事业公司可以先分析出白天最高气温与用电量之间的关系,再根据下个月白白天最高气温与用电量之间的关系,再根据下个月白白天最高气温与用电量之间的关系,再根据下个月白白天最高气温与用电量之间的关系,再根据下个月白天紧高气温的预报,才能预测出下个月的用电量。通天紧高气温的预报,才能预测出下个
42、月的用电量。通天紧高气温的预报,才能预测出下个月的用电量。通天紧高气温的预报,才能预测出下个月的用电量。通常管理人员要依靠直觉去判断两个变量的关系。但是,常管理人员要依靠直觉去判断两个变量的关系。但是,常管理人员要依靠直觉去判断两个变量的关系。但是,常管理人员要依靠直觉去判断两个变量的关系。但是,如果能取得数据,就能利用统计方法去建立一个表示如果能取得数据,就能利用统计方法去建立一个表示如果能取得数据,就能利用统计方法去建立一个表示如果能取得数据,就能利用统计方法去建立一个表示变量间相互关系的方程,这一统计方法称为回归分析。变量间相互关系的方程,这一统计方法称为回归分析。变量间相互关系的方程,
43、这一统计方法称为回归分析。变量间相互关系的方程,这一统计方法称为回归分析。也也也也就是通过一个变量或一些变量的变化解释另一变量就是通过一个变量或一些变量的变化解释另一变量就是通过一个变量或一些变量的变化解释另一变量就是通过一个变量或一些变量的变化解释另一变量的变化。的变化。的变化。的变化。回归分析的内容回归分析的内容1.1.从从一一组组样样本本数数据据出出发发,确确定定变变量量之之间间的的数数学学关关系式系式2.2.对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量中中找找出出哪哪些些变量的影响显著,哪些不
44、显著变量的影响显著,哪些不显著3.3.利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并并给给出这种预测或控制的精确程度出这种预测或控制的精确程度回归分析与相关分析的区别回归分析与相关分析的区别1.1.相相关关分分析析中中,变变量量 x 变变量量 y 处处于于平平等等的的地地位位;回回归归分分析析中中,变变量量 y 称称为为因因变变量量,处处在在被被解解释释的的地地位位,x 称称为自变量,用于预测因变量的变化为自变量,用于预测因变量的变化2.2.相相关关分分析析中中所所涉涉及及的的变变量量 x
45、和和 y 都都是是随随机机变变量量;回回归归分分析析中中,因因变变量量 y 是是随随机机变变量量,自自变变量量 x 可可以以是是随随机机变量,也可以是非随机的确定变量变量,也可以是非随机的确定变量3.3.相相关关分分析析主主要要是是描描述述两两个个变变量量之之间间线线性性关关系系的的密密切切程程度度;回回归归分分析析不不仅仅可可以以揭揭示示变变量量 x 对对变变量量 y 的的影影响响大大小,还可以由回归方程进行预测和控制小,还可以由回归方程进行预测和控制回归模型的类型回归模型的类型一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上
46、自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性 回归回归非线性非线性回归回归线性线性 回归回归非线性非线性回归回归简单(一元)线性回归模型简单(一元)线性回归模型n n当只涉及一个自变量时称为当只涉及一个自变量时称为一元回归一元回归,若因变量,若因变量 y 与自变量与自变量 x 之间为线性关系时称为一元线性回之间为线性关系时称为一元线性回归归n n对于具有线性关系的两个变量,可以用一个线性对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系方程来表示它们之间的关系n n描述因变量描述因变量 y 如何依赖于自变量如何依赖于自变量 x 和误差项和误差项 的的方程称为方
47、程称为回归模型回归模型简单(一元)线性回归模型简单(一元)线性回归模型yi=0+1 xi+i只涉及一个自变量的简单线性回归模型可表示为:只涉及一个自变量的简单线性回归模型可表示为:因变量因变量/被解释变量被解释变量自变量自变量/解释变量解释变量斜率斜率Y轴上的截距轴上的截距随机误差随机误差n n模型中,模型中,模型中,模型中,y y 是是是是 x x 的线性函数的线性函数的线性函数的线性函数(部分部分部分部分)加上误差项加上误差项加上误差项加上误差项n n线性部分反映了由于线性部分反映了由于线性部分反映了由于线性部分反映了由于 x x 的变化而引起的的变化而引起的的变化而引起的的变化而引起的
48、y y 的变化的变化的变化的变化n n误差项误差项误差项误差项 是随机变量是随机变量是随机变量是随机变量n n反映了除反映了除反映了除反映了除 x x 和和和和 y y 之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对之间的线性关系之外的随机因素对 y y 的影响的影响的影响的影响n n是不能由是不能由是不能由是不能由 x x 和和和和 y y 之间的线性关系所解释的变异之间的线性关系所解释的变异之间的线性关系所解释的变异之间的线性关系所解释的变异n n 0 0和和和和 1 1 称为模型的参数称为模型的参数称为模型的参数称为模型的参数简单线性回归假设简
49、单线性回归假设n n正态性:正态性:误差项误差项误差项误差项是一个服从正态分布的随机变量,是一个服从正态分布的随机变量,是一个服从正态分布的随机变量,是一个服从正态分布的随机变量,且相互独立。即且相互独立。即且相互独立。即且相互独立。即服从服从服从服从N N N N(0,(0,(0,(0,2 2 2 2)n n线性:线性:误差项误差项误差项误差项是一个期望值为是一个期望值为是一个期望值为是一个期望值为0 0 0 0的随机变量,即的随机变量,即的随机变量,即的随机变量,即E E E E()=0)=0)=0)=0。对于一个给定的。对于一个给定的。对于一个给定的。对于一个给定的X X X X值,值,
50、值,值,Y Y Y Y的期望值为的期望值为的期望值为的期望值为 0 0+1 1 x x 换言之,换言之,换言之,换言之,y y y y的平均值是的平均值是的平均值是的平均值是x x x x的线性函数。的线性函数。的线性函数。的线性函数。n n同方差性:同方差性:对于所有的对于所有的对于所有的对于所有的X X X X值,值,值,值,的方差的方差的方差的方差2 2 2 2都相同都相同都相同都相同n n独立性:独立性:对于一个特定的对于一个特定的对于一个特定的对于一个特定的X X X X值,它所对应的值,它所对应的值,它所对应的值,它所对应的与其他与其他与其他与其他X X X X值所对应的值所对应的