《线性回归方程分析.doc》由会员分享,可在线阅读,更多相关《线性回归方程分析.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除环球雅思学科教师辅导讲义讲义编号: 组长签字: 签字日期: 学员编号: 年 级: 高二 课时数:3学员姓名: 辅导科目: 数学 学科教师:闫建斌课 题线性回归方程授课日期及时段2014-2-11 18:00-20:00教学目标线性回归方程基础重点、难点教 学 内 容1、本周错题讲解2、知识点梳理1线性回归方程变量之间的两类关系:函数关系与相关关系制作散点图,判断线性相关关系线性回归方程:(最小二乘法)最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法 注意:线性回归直线经过定点2相关系数(判定两个变量线性相关性):注:0时,变量正
2、相关; 0时,变量负相关; 越接近于1,两个变量的线性相关性越强; 接近于0时,两个变量之间几乎不存在线性相关关系。3线形回归模型:随机误差:我们把线性回归模型,其中为模型的未知参数,称为随机误差。 随机误差残差:我们用回归方程中的估计,随机误差,所以是的估计量,故,称为相应于点的残差。回归效果判定-相关指数(解释变量对于预报变量的贡献率) (的表达式中确定)注:得知越大,说明残差平方和越小,则模型拟合效果越好;越接近于1,则回归效果越好。4独立性检验(分类变量关系):(1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。(2)列联表:列出两个分类变量的频数表,称为列联表。(3)对
3、于列联表:的观测值。(4)临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.828如果,就推断“有关系”,这种推断犯错误的概率不超过;否则,在样本数据中没有发现足够证据支持结论“有关系”。(5)反证法与独立性检验原理的比较:反证法原理在假设下,如果推出矛盾,就证明了不成立。独立性检验原理在假设下,如果出现一个与相矛盾的小概率事件,就推断不成立,且该推断犯错误的概率不超过这个小概率。典型例题1(2011山东)某产品的广告费用x与销售额y的统计数据如下表:
4、广告费用x/万元4235销售额y/万元49263954根据上表可得回归方程x中的为9.4,据此模型预报广告费用为6万元时销售额为 ()A63.6万元 B65.5万元C67.7万元 D72.0万元解析,42,又x必过(,),429.4,9.1.线性回归方程为9.4x9.1.当x6时,9.469.165.5(万元)答案B2(2011江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x/cm174176176176178儿子身高y/cm175175176177177则y对x的线性回归方程为 ()A.x1 B.x1C.88x D.176解析因为176,176,又y对x的线
5、性回归方程表示的直线恒过点(,),所以将(176,176)代入A、B、C、D中检验知选C.答案C3(2011陕西)设(x1,y1),(x2,y2),(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()Ax和y的相关系数为直线l的斜率Bx和y的相关系数在0到1之间C当n为偶数时,分布在l两侧的样本点的个数一定相同D直线l过点(,)解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误根据回归直线
6、方程一定经过样本中心点可知D正确,所以选D.答案D4(2011广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x12345命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为_;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为_解析小李这5天的平均投篮命中率0.5,可求得小李这5天的平均打篮球时间3.根据表中数据可求得0.01,0.47,故回归直线方程为0.470.01x,将x6代入得6号打6小时篮球的投篮命中率约为0.53.答案0.50.535(2011辽宁
7、)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:0.254x0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元解析由题意知0.254(x1)0.321(0.254x0.321)0.254.答案0.2546(2011安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程x;(2)利用(1)中所求出的直线方程预测该
8、地2012年的粮食需求量解(1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程为此对数据预处理如下:年份200642024需求量257211101929对预处理后的数据,容易算得0,3.2.6.5,b3.由上述计算结果,知所求回归直线方程为257(x2 006)6.5(x2 006)3.2,即6.5(x2 006)260.2.(2)利用直线方程,可预测2012年的粮食需求量为65(20122006)260.26.56260.2299.2(万吨)课堂练习1实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为()A.x1B
9、.x2 C.2x1 D.x12在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是()A甲 B乙 C甲、乙相同 D不确定3某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得xi52,yi228,x478,xiyi1849,则其线性回归方程为()A.11.472.62x B.11.472.62xC.2.6211.47x D.11.472.62x4下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线
10、性回归直线方程是0.7xa,则a等于_5某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程bxa,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?课后练习一、选择题1实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为()A.x1B.x2C.2x1 D.x1答案A解析画出散点图,四点都在直线x1.2下列有关样本相关系数的说法不正确的是()A相关系数用来
11、衡量变量x与y之间的线性相关程度B|r|1,且|r|越接近于1,相关程度越大C|r|1,且|r|越接近0,相关程度越小D|r|1,且|r|越接近1,相关程度越小答案D3由一组样本(x1,y1),(x2,y2),(xn,yn)得到的回归直线方程abx,下面有四种关于回归直线方程的论述:(1)直线abx至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点;(2)直线abx的斜率是;(3)直线abx必过(,)点;(4)直线abx和各点(x1,y1),(x2,y2),(xn,yn)的偏差 (yiabxi)2是该坐标平面上所有的直线与这些点的偏差中最小的直线其中正确的论述有()A0个 B1
12、个C2个 D3个答案D解析线性回归直线不一定过点(x1,y1),(x2,y2),(xn,yn)中的任何一点;b就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(,);线性回归直线是平面上所有直线中偏差 (yiabxi)2取得最小的那一条故有三种论述是正确的,选D.4设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有()Ab与r的符号相同 Ba与r的符号相同Cb与r的符号相反 Da与r的符号相反答案A5在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是()A甲 B乙C甲、乙
13、相同 D不确定答案A6某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得xi52,yi228,x478,xiyi1849,则其线性回归方程为()A.11.472.62x B.11.472.62xC.2.6211.47x D.11.472.62x答案A解析利用回归系数公式计算可得a11.47,b2.62,故11.472.62x.二、填空题7下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是0.7xa,则a等于_解析2.5,3.5,回归
14、直线方程过定点(,),3.50.72.5a.a5.25.8某服装商场为了了解毛衣的月销售量y(件)与月平均气温x()之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温x()171382月销售量y(件)24334055由表中数据算出线性回归方程bxa中的b2,气象部门预测下个月的平均气温约为6,据此估计,该商场下个月毛衣的销售量约为_件(参考公式:b,ab )答案46解析由所提供数据可计算得出10,38,又b2代入公式ab 可得a58,即线性回归方程2x58,将x6代入可得9对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他
15、们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392试根据上述数据计算K2_.比较这两种手术对病人又发作心脏病的影响有没有差别_.答案1.78不能作出这两种手术对病人又发作心脏病的影响有差别的结论解析提出假设H0:两种手术对病人又发作心脏病的影响没有差别根据列联表中的数据,可以求得K21.78.当H0成立时K21.78,而K22.072的概率为0.85.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论三、解答题10某农科所对冬季昼夜温差大小与某反季大豆新品种发芽
16、多少之间的关系进行分析研究,他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下表:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽数y(颗)2325302616该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)求选取的2组数据恰好是不相邻的2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程bxa;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均
17、不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?解析(1)设抽到不相邻的两组数据为事件A,因为从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)其中数据为12月份的日期数每种情况都是可能出现的,事件A包括的基本事件有6种:所以P(A).所以选取的2组数据恰好是不相邻2天数据的概率是.(2)由数据,求得12,27.由公式,求得b,ab 3.所以y关于x的线性回归方程为x3.(3)当x10,10322,|2223|2;同样,当x8时,8317,|171
18、6|2;所以,该研究所得到的回归方程是可靠的11某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程bxa,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?(注:b,ab )解析(1)散点图如图(2)由表中数据得:xiyi52.5,3.5,3.5,x54,b0.7,a1.05,0.7x1.05.回归直线如图所示(3)将x10代入回归直线方程,得0.7101.058.05(小时 )预测加工10个零件需要8.
19、05小时12(2010辽宁卷)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和B后的试验结果(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)80,85)频数1025203015()完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;()完成下面22列联表,
20、并回答能否有99.9% 的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”表3:疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aab注射药物Bcd合计n附:K2解析()可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数()表3:疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aa70b30100注射药物Bc35d65100合计10595n200K224.56.由于K210.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”【精品文档】第 11 页