《【高中数学】一元线性回归模型参数的最小二乘估计第2课时 高二数学人教A版2019选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《【高中数学】一元线性回归模型参数的最小二乘估计第2课时 高二数学人教A版2019选择性必修第三册.pptx(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1人教人教A A版版20192019选择性必修第三册选择性必修第三册1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.学习目标例 经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高,在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程编号编号123456胸径胸径/cm18.120.122.224.426.028.3树高树高/m18.819.221.021.0
2、22.122.1编号编号789101112胸径胸径/cm29.632.433.735.738.340.2树高树高/m22.422.623.024.323.924.7环节一:创设情境,引入课题胸径/cm树高/m图8.2-9解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.胸径/cm树高/m图8.2-10根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示编号编号胸径胸径/cm
3、树高观测值树高观测值/m树高预测值树高预测值/m残差残差/m118.118.819.35-0.6220.119.219.85-0.7322.221.020.370.6424.421.020.920.1526.022.121.320.8628.322.121.900.2729.622.422.220.2832.422.622.92-0.3933.723.023.24-0.21035.724.323.740.61138.323.924.39-0.51240.224.724.86-0.2胸径/cm残差/m图8.2-11以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.观察残差表和残差图,可
4、以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高问题 人们常将男子短跑100 m的高水平运动员称为“百米飞人”表8.2-5给出了1968年之前男子短跑100 m世界纪录产生的年份和世界纪录的数据,试依据这些成对数据,建立男子短跑100 m世界纪录关于纪录产生年份的经验回归方程表8.2-5编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95环节二:观察分析
5、,感知概念纪录/s年份图8.2-12以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图8.2-12 在图8.2-12中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程用Y表示男子短跑100 m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系根据最小二乘法,由表中的数据得到经验回归方程为tY/s图8.2-13将经验回归直线叠加到散点图,得到图8.2-13tY/s观察:从图8.2-13中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?以经验回归直线为参照,
6、可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征,例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方,这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征环节三:抽象概括,形成概念你能对模型进行修改,以使其更好地反映散点的分布特征吗?表8.2-6编号12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95如果表8.
7、2-6对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数c1和c2作出估计,进而可以得到Y关于t的非线性经验回归方程xY/s图8.2-14在直角坐标系中画出表8.2-6中成对数据的散点图,如图8.2-14所示,散点的分布呈现出很强的线性相关特征xY/s图8.2-15再在图8.2-14中画出(*)式所对应的经验回归直线,得到图8.2-15图8.2-15表明,经验回归方程(*)对于表8.2-6中的成对数据具有非常好的拟合精度将图8.2-15习图82-13进行对比,可以发现和之间的线性相关程度比原始样本数据的线性相关程度强得多在同一坐标系中画出成对数据散点图、
8、非线性经验回归方程的图象(蓝色)以及经验回归方程的图象(红色),表明非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程环节四:辨析理解,深化概念两个经验回归方程的残差(精确到0.001)如表8.2-7所示观察各项残差的绝对值,发现经验回归方程远远小于,即经验回归方程的合效果要远远好于编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022表8.2-7在一般情说下,直接比较两个模型
9、的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反可以通过比较残差的平方和来比较两个模型的效果 由表8.2-7容易算出经验回归方程和的R2分别约为0.7325和0.9983,因此经验回归方程的刻画效果比经验回归方程的好很多另外,我们还可以用新的观测数据来检验模型的拟合效果事实上,我们还有1968年之后的男子短跑100 m世界记录数据,如表8.2-8所示表8.2-8 编号9101112131415年份1983198819911991199419961999记录/s9.939.929.909.869.859.849.79编号161718192021年份
10、200220052007200820081009记录/s9.789.779.749.729.699.58在散点图8.2-12中,绘制表8.2-8中的散点(绿色),再添加经验回归方程所对应的经验回归直线(红色),以及经验回归方程所对应的经验回归曲线(蓝色),得到图8.2-17显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程对于新数据的预报效果远远好于思考:在上述问题情境中,男子短跑100 m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体
11、例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系(2)经验回归方程一般都有时效性例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差(4)不能期望经验回归方程得到的预报值就是响应变量的精确值事实上,它是响应变量的可能取值的
12、平均值环节五:课堂练习,巩固运用(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量(2)画出解释变量与响应变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3)由经验确定回归方程的类型(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.残差平方和越小,模型的拟合效果越好.决定系数R2取值越大,说明模型的拟合效果越好.注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.建立线性回归模型的基本步骤2.残差平方和:3.最小二乘法将称为Y关于x的经验回归方程,4.判断模型拟合的效果:残差分析R2越大,表示残差平方和越小
13、,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型ybxae含有随机误差e,其中x为解释变量,y响应变量环节六:归纳总结,反思提升环节七:目标检测,作业布置完成教材:第121页习题8.2第4题.练习 第120页1在回归分析中,分析残差能够帮助我们解决哪些问题?分析残差可以帮助我们解决以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路21997-2006年我国的国内生产总值(GDP)的数据如下:年份年份GDP/亿元亿元年份年份GD
14、P/亿元亿元199779 715.02002121 717.4199885 195.52003.137 422.0199990 564.42004161 840.22000100 280.12005187 318.92001110 863.12006219 438.5(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;(1)画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画年份GDP/亿元(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;ty残差的计算结果见下表
15、年份年份19971998199920002001残差残差17 1267 752-1 734-6 873-11 145年份年份20022003200420052006残差残差-15 145-14 296-4 7325 89223 157(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由ty(4)上面建立的回归方程的R2=0.9213,说明在1997-2006年内,
16、该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据(5)随着时间的发展,又收集到20072016年的GDP数据如下:建立年份(1997-2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?年份年份19971998199920002001残差残差17 1267 752-1 734-6 873-11 145年份年份20022003200420052006残差残差-15 145-14 296-4 7325
17、 89223 157利用上述模型,预测2017年的GDP值为704025亿元,而2017年GDP的实际值820754亿元,预测值比实际值少116729亿元 通过两个模型预测2017年的GDP值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差习题8.2(第120页)1如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:(1)解释变量和响应变量的关系是什么?(2)R2是多少?(1)解释变量和响应变量是线性函数关系 2一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示零
18、件数零件数/个个102030405060708090100加工时间加工时间/min626875818995102108115122(1)画出散点图;(2)建立加工时间关于零件数的一元线性回归模型;(3)关于加工零件的个数与加工时间,你能得出什么结论?3根据8.1.2节例2中某城市居民年收入与A商品销售额的数据:(1)建立A商品销售额关于居民年收入的一元线性回归模型;(2)如果这座城市居民的年收入达到40亿元,估计A商品的销售额是多少第第n年年12345678910居民年收入居民年收入/亿元亿元32.231.132.935.837.138.039.043.044.646.0A商品销售额商品销售额
19、/万元万元 25.030.034.037.039.041.042.044.048.051.0A商品销售额/万元年份年份总人口总人口 /万人万人年份年份总人口总人口 /万人万人年份年份总人口总人口 /万人万人年份年份总人口总人口 /万人万人年份年份总人口总人口 /万人万人1949 54167 1976 93717 1988 111026 2000 126743 2012 135404 1950 55196 1977 94974 1989 112704 2001 127627 2013 136072 1951 56300 1978 96259 1990 114333 2002 128453 201
20、4 136782 1955 61465 1979 97542 1991 115823 2003 129227 2015 137462 1960 66207 1980 98705 1992 117171 2004 129988 2016 138271 1965 72538 1981 100072 1993 118517 2005 130756 1970 82992 1982 101654 1994 119850 2006 131448 1971 85229 1983 103008 1995 121121 2007 132129 1972 87177 1984 104357 1996 122389
21、 2008 132802 1973 89211 1985 105851 1997 123626 2009 133450 1974 90859 1986 107507 1998 124761 2010 134091 1975 92420 1987 109300 1999 125786 2011 134735 4人口问题是关乎国计民生的大问题下表是19492016年我国的人口总数(摘自中国统计年鉴2017)(1)画出散点图;(2)建立总人口数关于年份的一元线性回归模型;(3)直接用上面建立的回归模型预测2020年的我国人口总数,得到的结果合理吗?为什么?年份总人口/万人(1)画人口总数与年份的散点
22、图,如图所示 年份总人口/万人(3)利用经验回归方程得到2020年我国人口总数的预测值为149850万人得到的这个预测结果不合理将拟合直线画在散点图上,可以看到,2000年以后,我国人口总数的增长速度逐渐平稳且呈下降趋势,因此运用上述经验回归模型预测2020年我国的人口总数会出现高估也可以通过观察残差图,看到残差具有中间为正,两边为负的特点可以考虑用其他统计模型拟合数据5在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:震级x3.0 3.2 3.4 3.6 3.8 3.8 4.0 4.0 4.2 地震数N28381203801479510695764155023842震级x4.
23、4 4.6 4.8 5.0 5.2 5.4 5.6 地震数N269819191356973746604435震级x5.8 6.0 6.2 6.4 6.6 6.8 7.0 地震数N27420614898574125试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?震级地震数先画地震数与震级的散点图,如图(1)所示 震级x33.23.43.63.84.0 4.24.2y4.4534.3094.174.0293.8833.7413.585震级x4.44.64.855.25.45.6y3.4313.2833.1322.9882.8732.7812.638震级x5.866.26.46.66
24、.87y2.4382.3142.171.9911.7561.6131.398震级xx和y的散点图如图(2)所示从这个散点图中可以看出x和y之间有很强的线性相关性,因此可以用一元线性回归模型拟合它们之间的关系该模型不能直接用于预报地震,因为它不能预报何时发生地震,震级是多少6生活中有许多变量之间的关系是值得我们去研究的例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系如果它们之间有关系,请建立统计模型进行分析回归与相关回归分析法和相关分析法是统计学中的两种重要方法
25、,前者用于由一个变量的变化去推测另一个变量的变化,后者研究随机变量间的相关关系,它们是由英国科学家高尔顿创立的高尔顿的科研兴趣十分广泛,在地理学、气象学、统计学、心理学、人类学等众多领域都有建树他在遗传学的研究中发现了一个令人困惑的问题,通常,高个子的人会和高个子的人结婚,矮个子的人会和矮个子的人结婚,而人类的遗传是把上一代的优势性状传递给下一代这样,在人群中,高个子、矮个子的比例都应逐渐增多,而中等个子的比例应逐渐下降但事实并非如此,为什么呢?这个问题一直萦绕在他的心头1875年,为了确定豌豆尺寸的遗传规律,他将自己精心挑选的490粒甜豌豆按照尺寸大小分成7组,在7个不同地区各种植70粒(每
26、组10粒)豌豆成熟后,他仔细测量了新豌豆(子代)的尺寸,并与豌豆种子(母代)的尺寸进行比较数据分析发现,母代尺寸大的子代尺寸较大,母代尺寸小的子代尺寸也较小但无论尺寸大小,都有子代向母代的平均值(7种尺寸豌豆的平均值)收缩的趋势这一结论在遗传学上是否具有普遍性呢?能否用它来解释人的个子高矮的遗传现象呢?为此,在1885年,高尔顿随机选取了205对夫妇及其928个成年子女的身高数据进行研究由于男女身高存在差异,他采用女子身高乘1.08的方法将女子身高换算成男子身高他将父母的平均身高称为“中亲身高”,用进行计算,其中a为母亲身高,b为父亲身高记中亲身高为X(母代变量),子女身高为Y(子代变量),分
27、析X和Y的数据,他惊奇地发现,X和Y的平均值均为173.4cm在此基础上,他还发现当中亲身高大于平均值时,他们的子女相对较高,但与父母相比还是矮一些,例如,当中亲身高为181.6cm时,他们子女的平均身高仅为177.5cm;当中亲身高小于平均值时,他们的子女相对较矮,但比父母又要高一些,例如,当中亲身高为166.4cm时,他们子女的平均身高为169.4cm这表明,子女身高有向平均值“回归”的倾向1886年,高尔顿将这一研究成果写成了论文遗传身高向平均身高的回归,文中正式引入了“回归”这个概念,1888年,高尔顿发表了统计史上第一篇有关相关系数值的论文,文中用到了一种用图形估计相关系数值的方法高
28、尔顿提出的回归和相关思想是开创性的,但他的工作做得还不够彻底后来,埃奇沃思(FYEdgeworth,1845126)和皮尔逊(KPearson,18571936)等一批学者加入到研究中来,使回归和相关理论得到了完善与发展埃奇沃思不仅给出了常见的样本相关系数的公式,还赋予“回归”以纯数学的意义,为这一方法的广泛应用奠定了基础皮尔逊则系统整理和完善了当时的已有成果,用极大似然法对相关系数的估计问题做了改进,并把相关回归方法运用到生物测量数据,推动了这一方法在生物领域的应用回归与相关的发现,为统计方法增添了重要的工具,推动了统计学的应用和发展,标志着统计学描述时代的结束和推断时代的开始,随着时代的发展,“回归”一词的内涵得到了极大扩展,它可以泛指在任何情况下自变量与因变量之间的统计关系;回归分析、相关分析也在科学研究的各个方面得到广泛应用,成为探索变量之间关系的重要方法请你进一步查阅资料,了解回归与相关的发展和应用