《回归分析的基本思想及其初步应用(共19页).docx》由会员分享,可在线阅读,更多相关《回归分析的基本思想及其初步应用(共19页).docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上第一章:统计案例回归分析的基本思想及其初步应用实例 从某大学中随机选取8名女大学生,其身高/cm和体重/kg数据如下表所示:编号12345678身高165165157170175165155170体重4857505464614359问题:画出散点图,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此 选 自变量x, 为因变量.(1)做散点图:从散点图可以看出 和 有比较好的 相关关系.(2) = =所以于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为
2、新知:用相关系数r可衡量两个变量之间 关系.计算公式为 r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系 ,它们的散点图越接近 ; ,两个变量有 关系.例1某班5名学生的数学和物理成绩如下表: 学生学科ABCDE数学成绩(x)8876756462物理成绩(y)7865706260(1) 画散点图;(2) 求物理成绩y对数学成绩x的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(
3、2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)当堂检测1. 下列两个变量具有相关关系的是( )A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重 D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的( )A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上 D. 可选择两个变量中任意一个变量在
4、 y 轴上3. 回归直线必过( )A. B. C. D. 4.越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程,则时,y的估计值为 .6、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:转速x (转/秒)1614128有缺点零件数 y (件)11985(1)画散点图;(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?相关指数:表示 对 的贡献,公式为: 的值越大,说明残差平方和 ,说明模型拟
5、合效果 .残差分析:通过 来判断拟合效果.通常借助 图实现.残差图:横坐标表示 ,纵坐标表示 .残差点比较均匀地落在 的区的区域中,说明选用的模型 ,带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越 例1关于与y有如下数据:245683040605070为了对、y两个变量进行统计分析,现有以下两种线性模型:,试比较哪一个模型拟合的效果更好?例2 假定小麦基本苗数x与成熟期有效苗穗y之间存在相关关系,今测得5组数据如下: 15.025.830.036.644.439.442.9 42.943.149.2 (1)画散点图;(2)求回归方程并对于基本苗数56.7预报期有效穗数;(3)求,并
6、说明残差变量对有效穗数的影响占百分之几. (参考数据:, )练1. 某班5名学生的数学和物理成绩如下表: 学生学科ABCDE数学成绩(x)8876756462物理成绩(y)7865706260(4)求学生A,B,C,D,E的物理成绩的实际成绩和回归直线方程预报成绩的差.并作出残差图评价拟合效果.练习:1. 两个变量 y与x的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数为 0.98 B. 模型 2 的相关指数为 0.80C. 模型 3 的相关指数为 0.50D. 模型 4 的相关指数为 0.252. 在回归分析中,残差
7、图中纵坐标为( ).A. 残差 B. 样本编号 C. x D. 3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析 B.独立性检验分析C.残差分析 D. 散点图分析4.越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数 ,可以叙述为“身高解释了的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回
8、归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)(4)求相关指数评价模型.实例一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与之间的回归方程.温度21232527293235产卵数个711212466115325(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个 区域,因此两变量之间不呈 关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线的周围(为待定系数).对上式两边去对数,得令,则变换后样本点应该分布在直线 的周围
9、.这样,就利用 模型来建立y和x的非线性回归方程.x21232527293235y711212466115325作散点图(描点)由上表中的数据得到回归直线方程因此红铃虫的产卵数和温度的非线性回归方程为例1一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,温度21232527293235产卵数个711212466115325(散点图如由图,可以认为样本点集中于某二次曲线的附近,其中为待定参数)试建立与之间的回归方程.练习:1. 两个变量 y与x的回归模型中,求得回归方程为,当预报变量时( ).A. 解释变量 B. 解释变量大于C. 解释变量小于 D. 解释变量在左右2. 在回归分析中
10、,求得相关指数,则( ).A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是D. 随机误差的贡献是3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).A回归分析 B独立性检验分析C残差分析 D. 散点图分析4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围,令,求得回归直线方程为,则该模型的回归方程为 .5. 已知回归方程,则时,y的估计值为 .独立性检验的基本思想及其初步应用新知2:统计量吸烟与患肺癌列联表假设:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此,
11、 越小,说明吸烟与患肺癌之间关系 ;反之, .=例1 吸烟与患肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965求.练1. 性别与喜欢数学课程列联表:喜欢数学不喜欢数学总计男3785122女35143178总计72228300求.2. 独立性检验的步骤(略)及原理(与反证法类似):反证法假设检验要证明结论A备择假设H在A不成立的前提下进行推理在H不成立的条件下,即H成立的条件下进行推理推出矛盾,意味着结论A成立推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性(可能性为(1)很大没有找到矛盾,不能对A下任何结论,即反证
12、法不成功推出有利于H成立的小概率事件不发生,接受原假设某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:不健康健康总计不优秀41626667优秀37296333总计789221000求.独立性检验的基本思想及其初步应用探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题H:第二步:根据公式求观测值 k=(它越小,原假设“H:吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H: ” 成立的可能性越大.)第三步:查表得出结论P(k2>k)0.500.400.250.150.100.050.0250.0100.0050.001 k0.4550.7081
13、.3232.0722.7063.845.0246.6357.87910.83 典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?小结:用独立性检验的思想解决问题:第一步:第二步:第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学总计男3785122女35143178总计72228300由表中数据计算得到的观察值. 在多大程
14、度上可以认为高中生的性别与是否数学课程之间有关系?为什么?练1. 某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:不健康健康总计不优秀41626667优秀37296333总计789221000请问有多大把握认为“高中生学习状况与生理健康有关”?练习:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为
15、吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个列联表不健康健康总计不优秀a2173优秀22527总计b46100则表中a,b的之分别是( )A. 94,96 B. 52,50 C. 52,54 D. 54,523.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计玩游戏18927不玩游戏81523总计262450则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99% B. 95% C. 90% D.无充分依据4. 在独立性检验中,当统计量满足 时,我们有99%的把握认为这两个分类变量有关系.统计案
16、例检测题一、 选择题(本大题共12小题,每题4分)1、散点图在回归分析中的作用是 ( )A查找个体数目 B比较个体数据关系C探究个体分类D粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( )Ar>0表明两个变量相关Br<0表明两个变量无关C越接近1,表明两个变量线性相关性越强Dr越小,表明两个变量线性相关性越弱3、预报变量的值与下列哪些因素有关 ( )A受解释变量影响与随机误差无关B受随机误差影响与解释变量无关C与总偏差平方和有关与残差无关D与解释变量和随机误差的总效应有关4、下列说法正确的是 ( )A任何两个变量都具有相关系B球的体积与球的半径具有相关关系C农作物的
17、产量与施肥量是一种确定性关系D某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的 ( )A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上 D. 可以选择两个变量中任意一个变量在 y 轴上6、回归直线必过 ( )A B C D7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( )A和 B差 C积 D商8、两个变量 y与x的回归模型中,求得回归方程为,当预报变量 ( )A. 解释变量 B. 解释变量大于C. 解释变量小于 D.
18、解释变量在左右9、在回归分析中,求得相关指数,则( )A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是C. 随机误差的贡献是10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D以上三种说法都不对.11、通过来判断模拟型拟合的效果,判断原始数据中是否存
19、在可疑数据,这种分析称为 ( )A回归分析 B独立性检验分析C残差分析 D. 散点图分析12、在独立性检验时计算的的观测值=3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A90% B95%C99% D以上都不对二、填空题(本大题共4小题,每题4分)13、已知回归直线方程,则时,y的估计值为 .14、如下表所示:不健康健康总计不优秀41626667优秀37296333总计789221000计算= .15、下列关系中:(1)玉米产量与施肥量的关系;(2)等边三角形的边长和周长;(3)电脑的销售量和利润的关系;(4)日光灯的产量和单位生产成本的关系.不是函数关系的是 .16、在一项打
20、鼾与患心脏病的调查中,共调查1768人,经计算的=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”“无关”)三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表患 病未患病总 计用 药41626667不用药37296333总计789221000能以97.5%的把握认为药物有效吗?为什么?18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前
21、100吨甲产品的生产能耗为90吨标准煤试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)作业:一、选择题:本大题共道小题,每小题分,共分,在每小题给出的四个选项中,只有一项符合题目要求1、对于散点图下列说法中正确一个是( )(A)通过散点图一定可以看出变量之间的变化规律(B)通过散点图一定不可以看出变量之间的变化规律(C)通过散点图可以看出正相关与负相关有明显区别(D)通过散点图看不出正相关与负相关有什么区别2、在画两个变量的散点图时,下面叙述正确的是( ) (A)预报变量在轴上,解释变量在轴上 (B)解释变量在轴上,预报变量在轴上(C)可
22、以选择两个变量中的任意一个变量在轴上(D)可以选择两个变量中的任意一个变量在轴上3、如果根据性别与是否爱好运动的列联表,得到,所以判断性别与运动有关,那么这种判断出错的可能性为( )(A) (B) (C) (D)4、下列关于线性回归的说法,不正确的是( )(A)变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;(B)在平面直角坐标系中用描点法的方法得到表示具有相关关系的两个变量的一组数据的图形叫散点图;(C)线性回归直线方程最能代表观测值之间的关系;(D)任何一组观测值都能得到具有代表意义的回归直线方程;5、在两个变量与的回归模型中,分别选择了四个不同的模型,它们的相
23、关指数如下,其中拟合效果最好的为( )(A)模型的相关指数为 (B)模型的相关指数为 (C)模型的相关指数为 (D)模型的相关指数为6、关于如何求回归直线的方程,下列说法正确的一项是( )(A)先画一条,测出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测出此时的斜率与截距,就可得到回归直线方程 (B)在散点图中,选两点,画一条直线,使所画直线两侧的点数一样多或基本相同,求出此直线方程,则该方程即为所求回归方程(C)在散点图中多选几组点,分别求出各直线的斜率与截距,再求它们的平均值,就得到了回归直线的斜率与截距,即可产生回归方程 (D)上述三种方法都不可行7、若对于变量与的组统计
24、数据的回归模型中,相关指数,又知残差平方和为,那么的值为( )(A) (B) (C) (D)8、右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )(A)(B)(C)(D)9、某医院用光电比色计检验尿汞时,得尿汞含量与消光系数读数的结果如下:如果与之间具有线性相关关系,那么当消光系数的读数为时,( )(A)汞含量约为 (B)汞含量高于(C)汞含量低于 (D)汞含量一定是10、由一组样本数据得到的回归直线方程,那么下面说法正确的是( )(A)直线必过点(B)直线必经过一点(C)直线经过中某两个特殊点(D)直线必不过点11、根据下面的列联表得到如下中个判断:有的把握认为患肝病与嗜酒有关;有
25、的把握认为患肝病与嗜酒有关;认为患肝病与嗜酒有关的出错的可能为;认为患肝病与嗜酒有关的出错的可能为;其中正确命题的个数为( )(A) (B) (C) (D)12、对于两个变量之间的相关系数,下列说法中正确的是( )(A)越大,相关程度越大 (B)越小,相关程度越大(C)越大,相关程度越小;越小,相关程度越大 (D)且越接近于,相关程度越大; 越接近于,相关程度越小;二、填空题:本大题共小题,每小题分,共分,把答案填在题中的横线上13、下表是关于出生男婴与女婴调查的列联表那么,A= ,B= ,C= ,D= ,E= ;14、如右表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么,应
26、去掉第 组。 15、某学校对校本课程人与自然的选修情况进行了统计,得到如下数据: 那么,选修人与自然与性别有关的把握是 ;16、如图,有组数据,去掉 组(即填A,B,C,D,E中的某一个)后,剩下的四组数据的线性相关系数最大。 三、解答题:本大题共小题,共分,解答应写出文字说明、证明过程或演算步骤17、(本小题满分分)有甲、乙两个班,进行数学考试,按学生考试及格与不及格统计成绩后,得到如下的列联表根据表中数据,你有多大把握认为成绩及格与班级有关?18、(本小题满分分)假设关于某设备的使用年限和所支出的维修费用有如下的统计资料若由资料知对呈线性相关关系,试求: (1)线性回归方程(2)估计使用年
27、限为年时,维修费用大约是多少?19、(本小题满分分)吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不得影响,影响学生的健康成长,下表是性别与吃零食的列联表试画出列联表的三维柱形图、二维条形图与等高条件形图,并结合图形判断性别与吃零食是否有关?20、(本小题满分分)一机器可以按不同的速度运转,其生产物件有一些会有缺点,每小时生产有缺点物件的多少,随机器运转速度而变化,用表示转速(单位:转/秒),用表示每小时生产的有缺点物件的个数,现观测得到的四组观测值为。若实际生产中所允许的每小时有缺点的物件数不超过,则机器的速度每秒不得超过多少转?21、(本小题满分分)在大街上,随机调查339名成人,有关吸烟、不吸烟、患支气管炎、不患支气管炎的数据如下表根据表中数据,(1)判断:吸烟与患支气管炎是否有关?(2)用假设检验的思想予以证明。22、(本小题满分分)某同学次考试的数学、语文成绩在班中的排名如下表:数学成绩语文成绩 对上述数据分别用与来拟合与之间的关系,并用残差分析两者的拟合效果。 专心-专注-专业