《简单线性回归模型.pptx》由会员分享,可在线阅读,更多相关《简单线性回归模型.pptx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十讲第十讲简单线性回归模型简单线性回归模型1n建立两个变量X和Y间的关系模型,推断变量Y如何依赖于变量X,从而可以用X预测Y.n例:n广告费用和销售量n公司的市值与CEO的年薪n原始股的销售数量和期望价格n证券市场收益率与某只股票的收益率n商品价格和销售量n装配线的速度和次品数量n年收入与信用卡消费金额n年龄与手机话费n连锁店附近的人流与店的利润n气温与滑雪场门票销量n2阿姆德阿姆德比萨饼连锁店的问题比萨饼连锁店的问题 阿姆得阿姆得(Armand)比萨饼连锁店坐落在美国的比萨饼连锁店坐落在美国的5个个州内,它们通常的位置是在大学旁边,而且管理人员州内,它们通常的位置是在大学旁边,而且管理人员
2、相信附近大学的人数与这些连锁店的季度销售额是有相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是关系的。下面是10家连锁店附近大学的学生人数和季家连锁店附近大学的学生人数和季度销售收入的数据:度销售收入的数据:根据以上数据,你能否判断学生人数根据以上数据,你能否判断学生人数(x)如何影如何影响到销售收入响到销售收入(y)?根据一家连锁店附近大学的人数,?根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?你能够预测该家连锁店的季度销售收入吗?3描述学生人数和销售收入之间的关系描述学生人数和销售收入之间的关系n协方差协方差(315.56)和相关系数和相关系数(0.95)
3、,散点图;,散点图;n根据这些你可以得到什么结论?根据这些你可以得到什么结论?4Types of Regression Models Positive Linear RelationshipNegative Linear RelationshipRelationship NOT LinearNo Relationship5模型的引入模型的引入n对于给定的学生人数,销售收入是唯一确定的对于给定的学生人数,销售收入是唯一确定的一个数,还是一个随机变量?一个数,还是一个随机变量?n学生人数的变化如何影响到销售收入?学生人数的变化如何影响到销售收入?n使用的模型使用的模型 6简单线性回归模型 Y 的截
4、距斜率 随机误差因变量(响应变量,被预测变量)自变量(解释变量,预测变量)7i=随机误差YX观测值观测值YX01YXiii018 模型的假定模型的假定n1)E()=0;(E(y)=x)n2)对于所有的x,Var()=.n3)是服从正态分布N(0,)的.n4)对于不同的x,是相互独立的.n这些假定意味着什么?9X1X2XY fy 服从在回归直线附近的正态分布服从在回归直线附近的正态分布对每个对每个 x 值,值,y分布的方差相同分布的方差相同.回归直线回归直线10估计的回归方程估计的回归方程n如何估计参数如何估计参数 和和?n最小二乘准则最小二乘准则 11阿姆德阿姆德连锁店的回归直线连锁店的回归直
5、线n估计参数估计参数 b1=5 b0=60n回归直线回归直线n你对系数的含义怎么你对系数的含义怎么理解?理解?12回归方程的判定系数回归方程的判定系数ny的总变差的分解n定义判定系数R2=SSR/SST.n判定系数的含义是什么?判定系数的含义是什么?n阿姆德比萨饼连锁店的例子:R2=0.9027.n判定系数和相关系数的关系。13Coefficients of Determination(r2)and Correlation(r)r2=1,r2=1,r2=.8,r2=0,YXY XY YXr=+1r=-1r=+0.9r=0X14 的估计的估计n理解误差平方和n的一个无偏估计 s2=MSE=SSE
6、/(n-2)15关于回归系数的假设检验关于回归系数的假设检验n检验统计量检验统计量n给定显著水平给定显著水平 时,选择时,选择拒绝域拒绝域 16关于回归方程整体的检验关于回归方程整体的检验n变量x的确对y有解释作用吗?(H0:=0)n检验统计量 F=MSR/MSE 其中MSR=SSR/自变量的个数n拒绝域 FF(1,n-2)17回归方程的方差分析表回归方程的方差分析表18阿姆德阿姆德连锁店的情形连锁店的情形 使用EXCEL对阿姆德连锁店的数据建立模型,并进行分析,基于EXCEL的输出结果,你对该模型有些什么认识?19使用你建立的模型(一)使用你建立的模型(一)n问题一:对于那些附近学校人数是1
7、万的连锁店,他们的季度销售收入一定是一样吗?这种连锁店平均的季度销售收入平均的季度销售收入是多少?你能够给出一个估计吗?n问题二:某家连锁店附近学生总数约1万人,你能够给出它的季度销售收入的一个估计值吗?n点估计:11020使用你建立的模型(二)使用你建立的模型(二)n对于问题一,如何得到这种连锁店平均销售收入的一个95%的置信区间?(98.58,121.42)21使用你建立的模型(三)使用你建立的模型(三)n对于问题二,如何给出一个预测区间,使得这家连锁店的季度销售收入落在该区间里面的概率是1-?(76.13,143.87)22两种区间的关系两种区间的关系xp预测区间边界均值的置信区间23对
8、模型作进一步的探讨对模型作进一步的探讨n回忆我们使用的模型;n对模型作了什么假定?n逻辑问题:如何判断我们的问题符合这些假定?n分析的方案:残差分析 24通过残差你能够了解什么?通过残差你能够了解什么?n对误差项作的假定适合吗?1)等方差;2)相互独立;3)正态分布;n哪些数据属于异常值?n哪些观测属于对回归模型有很大影响的?25残差图残差图n关于自变量的残差图;n关于因变量的预测值的残差图;n学生化的标准残差图:26如何分析残差图如何分析残差图n如果模型是符合的,那么残差图上的散点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。n使用EXCEL对阿姆德连锁店的数据产生残差
9、图。你能得到什么结论?27非线性非线性线性线性X X28方差不等方差相等XX29不独立不独立独立独立XX30一个残差不独立的例子一个残差不独立的例子31异常值的检测异常值的检测n异常值是与其它点显示的趋势不合的点。检查它是否可能是被错误输入的数据。n检测异常值的方法:散点图;利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。32带有异常值的散点图示例33检测有影响的观测值检测有影响的观测值n什么是有影响的观测?什么是有影响的观测?n观测的杠杆率:观测的杠杆率:n高杠杆率的点意味着它的自变量距离别的自变高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。量的值距离较大的点。n识别影响的观测识别影响的观测:杠杆率杠杆率6/n的观测的观测.34对于建立简单线性回归模型,对于建立简单线性回归模型,你知道了些什么?你知道了些什么?n什么情况下需要建立简单线性回归模型?n对模型的假定有哪些?n如何估计模型的参数?n如何检验模型及其参数的显著性?n如何使用你建立的模型进行预测?n如何分析你的问题符合对模型做的假定?35