《统计案例复习.ppt》由会员分享,可在线阅读,更多相关《统计案例复习.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计案例统计案例 要点梳理要点梳理1.1.回归分析回归分析 (1 1)定定义义:对对具具有有 的的两两个个变变量量进进行行统统计计分分析析的一种常用方法的一种常用方法.(2 2)随随机机误误差差:线线性性回回归归模模型型用用y y=bxbx+a a+e e表表示示,其其中中a a和和b b为模型的为模型的 ,称为随机误差称为随机误差.(3 3)样本点的中心)样本点的中心 在在具具有有线线性性相相关关关关系系的的数数据据(x x1 1,y y1 1),(x x2 2,y y2 2),),(x xn n,y yn n)中中,回回归归方方程程的的截截距距和和斜斜率率的的最最小小二二乘乘,估估计计公公
2、式分别为:式分别为:相关关系相关关系未知参数未知参数 e e基础知识基础知识 自主学习自主学习其中其中 称为样本点的中心称为样本点的中心.(4 4)相关系数)相关系数,.,r r=当当r r 0 0时,表明两个变量时,表明两个变量 ;当当r r 0 0时,表明两个变量时,表明两个变量 .r r 的的绝绝对对值值越越接接近近于于1 1,表表明明两两个个变变量量的的线线性性相相关关性性 .r r 的的 绝绝 对对 值值 越越 接接 近近 于于 0 0时时,表表 明明 两两 个个 变变 量量 之之 间间 .通通常常|r r|大大于于 时时,认认为为两两个个变变量量有有很很强强的的线线性性相关性相关性
3、.正相关正相关负相关负相关越强越强几乎不存在线性相关关系几乎不存在线性相关关系0.750.752.2.残差分析残差分析 (1 1)总偏差平方和)总偏差平方和把每个效应(观测值减去总的平均值)的平方把每个效应(观测值减去总的平均值)的平方加起来即:加起来即:.(2 2)残差)残差 数据点和它回归直线上相应位置的差异(数据点和它回归直线上相应位置的差异(y yi i-)是是 的效应,称的效应,称 为残差为残差.(3 3)残差平方和)残差平方和 .随机误差随机误差(4)(4)相关指数相关指数R R2 2=.R R2 2的的值值越越大大,说说明明残残差差平平方方和和 ,也也就就是是说说模模型型的的拟拟
4、合合效效果果越越好好.在在线线性性回回归归模模型型中中,R R2 2表表示示解解释释变变量量对对预预报报变变量量变变化化的的贡贡献率,献率,R R2 2越接近于越接近于1 1,表示回归的效果越好,表示回归的效果越好.越小越小3.3.独立性检验独立性检验 (1 1)分类变量:)分类变量:变量的不同变量的不同“值值”表示个体所属表示个体所属 的的 ,像这类变量称为,像这类变量称为分类变量分类变量.不同类别不同类别 (2 2)列列 联联 表表:列列 出出 两两 个个 分分 类类 变变 量量 的的 ,称称为为列列联联表表.假假设设有有两两个个分分类类变变量量X X和和Y Y,它它们们的的可可能能取取值
5、值分分别别为为 x x1 1,x x2 2 和和 y y1 1,y y2 2,其其样样本本频频数数列列联联表表(称称为为2 22 2列联表)为列联表)为频数表频数表y y1 1 y y2 2 总计总计 x x1 1 a a b b a+ba+b x x2 2 c c d d c+dc+d 总计总计 a+ca+c b+db+d a+b+c+da+b+c+d 22列联表列联表构构造造一一个个随随机机变变量量K K2 2=,其中其中n n=为样本容量为样本容量.a+b+c+da+b+c+d(3)独立性检验)独立性检验利用随机变量利用随机变量 来确定是否能以一定来确定是否能以一定把握认为把握认为“两个
6、分类变量两个分类变量 ”的方的方法称为两个分类变量的独立性检验法称为两个分类变量的独立性检验.K K2 2有关系有关系基础自测基础自测1.1.相关系数度量相关系数度量()A.A.两个变量之间线性相关关系的强度两个变量之间线性相关关系的强度 B.B.散点图是否显示有意义的模型散点图是否显示有意义的模型 C.C.两个变量之间是否存在因果关系两个变量之间是否存在因果关系 D.D.两个变量之间是否存在关系两个变量之间是否存在关系 解解析析 相相关关系系数数来来衡衡量量两两个个变变量量之之间间线性相关关系的强弱线性相关关系的强弱.A2.2.甲甲、乙乙、丙丙、丁丁四四位位同同学学各各自自对对A A、B B
7、两两变变量量的的线线性性相相关关性性作作试试验验,并并用用回回归归分分析析方方法法分分别求得相关系数别求得相关系数r r与残差平方和与残差平方和m m如下表:如下表:则则哪哪位位同同学学的的试试验验结结果果体体现现A A、B B两两变变量量更更强强的的线性相关性?(线性相关性?()A.A.甲甲 B.B.乙乙 C.C.丙丙 D.D.丁丁解解析析 r r0 0且且丁丁最最接接近近1 1,残残差差平平方方和和越越小小,相相关关性性越越高,故选高,故选D.D.甲甲 乙乙 丙丙 丁丁r r0.82 0.82 0.78 0.78 0.69 0.69 0.850.85m m115 115 106 106 1
8、24 124 103 103 D3.3.已已知知x x、y y之之间间的的数数据据如如表表所所示示,则则回回归归直直线线过点过点()A.(0,0)B.(,0)C.(0,)D.(,)A.(0,0)B.(,0)C.(0,)D.(,)解析解析 回归直线过样本点的中心(回归直线过样本点的中心(,).x x 1.081.08 1.121.12 1.191.19 1.281.28 y y 2.252.25 2.372.37 2.402.40 2.552.55 D4.4.下下列列说说法法中中正正确确的的有有:若若r r0 0,则则x x增增大大时时,y y也也相相应应增增大大;若若r r0 0,则则x x增
9、增大大时时,y y也也相相应应增增大大;若若r r=1=1或或r r=-1=-1,则则x x与与y y的的关关系系完完全全对对应应(有有函函数数关关系系),在,在散点图上各个点均在一条直线上散点图上各个点均在一条直线上()A.B.C.D.A.B.C.D.解解析析 若若r r0 0,表表示示两两个个相相关关变变量量正正相相关关,x x增增大大时时,y y也也相相应应增增大大,故故正正确确.r r0 0,表表示示两两个个变变量量负负相相关,关,x x增增大大时时,y y相相应应减减小小,故故错错误误.|.|r r|越越接接近近1 1,表表示示两两个个变变量量相相关关性性越越高高,|r r|=1|=
10、1表表示示两两个个变变量有确定的关系(即函数关系),故量有确定的关系(即函数关系),故正确正确.C5.5.在一项打鼾与患心脏病的调查中,在一项打鼾与患心脏病的调查中,共调查了共调查了16711671人,经过计算人,经过计算K K2 2=27.63=27.63,根据这一数据分析,我们有理由,根据这一数据分析,我们有理由认为打鼾与患心脏病是认为打鼾与患心脏病是 的的(有关,无关)(有关,无关).解析解析 K K2 2=27.63=27.6310.828,10.828,有有99.9%99.9%的的把把握握认认为为“打打鼾鼾与与患患心心脏病有关脏病有关”.有关有关题型一题型一 线性回归分析线性回归分析
11、【例例1 1】假假设设关关于于某某种种设设备备的的使使用用年年限限x x(年年)与与所所支支出出的维修费用的维修费用y y(万元)有如下统计资料:(万元)有如下统计资料:2 23 34 45 56 6y y2.22.23.83.85.55.56.56.57.07.0已知已知(1 1)求)求 ,;,;(2)求出线性回归方程;)求出线性回归方程;(3)估计使用年限为)估计使用年限为10年时,维修费用约是多少?年时,维修费用约是多少?x x(1 1)先先根根据据已已知知计计算算相相关关系系数数r r,判判断断是是否否具有相关关系具有相关关系.(2 2)再利用公式求出回归方程进行回归分析)再利用公式求
12、出回归方程进行回归分析.解解 (1 1)所以线性回归方程为所以线性回归方程为 =1.23=1.23x x+0.08+0.08.(4 4)当)当x x=10=10时,时,=1.23=1.2310+0.08=12.3810+0.08=12.38(万元)(万元),即估计使用即估计使用1010年时,维修费用约为年时,维修费用约为12.3812.38万元万元.题型三题型三 独立性检验独立性检验在在对对人人们们休休闲闲方方式式的的一一次次调调查查中中,共共调调查查了了124124人人,其其中中女女性性7070人人,男男性性5454人人.女女性性中中有有4343人人主主要要的的休休闲闲方方式式是是看看电电视
13、视,另另外外2727人人的的休休闲闲方方式式是是运运动动;男男性性中中有有2121人人主主要要的的休休闲闲方方式式是是看看电电视,另外视,另外3333人主要的休闲方式是运动人主要的休闲方式是运动.(1 1)根据以上数据建立一个)根据以上数据建立一个2 22 2列联表;列联表;(2 2)检检验验休休闲闲方方式式是是否否与与性性别别有有关关,可可靠靠性性有有多大多大.解解 (1 1)2 22 2列联表如图:列联表如图:看电视看电视 运动运动 合计合计 女女 4343 2727 7070 男男 212133335454合计合计 64646060124124休闲方式休闲方式 性别性别 (2 2)K K
14、2 2=所所以以我我们们有有97.5%97.5%的的把把握握认认为为休休闲闲方方式式与与性性别有关别有关.方法与技巧方法与技巧1.1.线线性性回回归归分分析析以以散散点点图图为为基基础础,具具有有很很强强的的直直观观性性,有有散散点点图图作作比比较较时时,拟拟合合效效果果的的好好坏坏可可由由直直观观性性直直接接判判断断,没没有有散散点点图图时时,只只须须套套用用公公式式求求r r,R R2 2再再作判断即可作判断即可.2.2.独独立立性性检检验验没没有有直直观观性性,必必须须依依靠靠K K2 2的的观观测测值值作作判判断断.思想方法思想方法 感悟提高感悟提高一、选择题一、选择题1.1.下列四个
15、命题:下列四个命题:线线性性相相关关系系数数r r越越大大,两两个个变变量量的的线线性性相相关关性性越越强强;反之,线性相关性越弱;反之,线性相关性越弱;残差平方和越小的模型,模型拟合的效果越好;残差平方和越小的模型,模型拟合的效果越好;用用相相关关指指数数R R2 2来来刻刻画画回回归归效效果果,R R2 2越越小小,说说明明模模型型的的拟合效果越好;拟合效果越好;在在推推断断H H:“X X与与Y Y有有关关系系”的的论论述述中中,用用三三维维柱柱形形图图,只只要要主主对对角角线线上上两两个个柱柱形形高高度度的的比比值值与与副副对对角角线线上上的的两两个柱形高度的比值相差越大,个柱形高度的
16、比值相差越大,H H成立的可能性就越大成立的可能性就越大.其中真命题的个数是(其中真命题的个数是()A.1 B.2 C.3A.1 B.2 C.3D.4D.4 其中真命题的个数是其中真命题的个数是()A.1A.1B.2B.2C.3C.3D.4D.4解析解析 r r有正负,应为有正负,应为|r r|越大,相关性越强越大,相关性越强.正确正确.R R2 2越大,拟合效果越好越大,拟合效果越好.应应为为高高度度积积的的差差的的绝绝对对值值越越大大,H H成成立立的的可可能能性就越大,故选性就越大,故选A.A.A2.2.对对两两个个变变量量y y与与x x进进行行回回归归分分析析,分分别别选选择择不不同
17、同的的模模型型,它它们们的的相相关关系系数数r r如如下下,其其中中拟拟合合效效果果最最好好的的模模型是型是()A.A.模型模型的相关系数的相关系数r r为为0.980.98 B.B.模型模型的相关系数的相关系数r r为为0.800.80 C.C.模型模型的相关系数的相关系数r r为为0.500.50 D.D.模型模型的相关系数的相关系数r r为为0.250.25 解析解析 根据相关系数的定义和计算公式可知,根据相关系数的定义和计算公式可知,|r r|1 1,且,且|r r|越接近于越接近于1 1,相关程度越大,拟合效果,相关程度越大,拟合效果越好;越好;|r r|越接近于越接近于0 0,相关
18、程度越小,拟合效果,相关程度越小,拟合效果越弱越弱,所以所以A A正确正确.A3.3.下列说法:下列说法:将将一一组组数数据据中中的的每每个个数数据据都都加加上上或或减减去去同同一一个个常常数数后后,方差恒不变;方差恒不变;设设有有一一个个回回归归方方程程 =3-5=3-5x x,变变量量x x增增加加一一个个单单位位时时,y y平均增加平均增加5 5个单位;个单位;线性回归方程线性回归方程 必过点(必过点(,););曲线上的点与该点的坐标之间具有相关关系;曲线上的点与该点的坐标之间具有相关关系;在在一一个个2 22 2列列联联表表中中,由由计计算算得得K K2 2=13.079=13.079
19、,则则其其两两个变量间有关系的可能性是个变量间有关系的可能性是90%.90%.其中错误的个数是其中错误的个数是()A.1A.1B.2B.2C.3C.3D.4D.4解解析析 根根据据方方差差的的计计算算公公式式,可可知知正正确确;由由线线性性回回归归方方程程的的定定义义及及最最小小二二乘法的思想,知乘法的思想,知正确,正确,不正确不正确.答案答案 C C4.4.下面是下面是2 22 2列联表:列联表:y y1 1 y y2 2 合计合计x x1 1a a 2121 7373x x2 2 2222 2525 4747 合计合计 b b 4646 120120 则表中则表中a a,b b的值分别为的
20、值分别为()A.94,72A.94,72B.52,50B.52,50C.52,74C.52,74D.74,52D.74,52解析解析 a a+21=73+21=73,a a=52.=52.又又a a+22=+22=b b,b b=74.=74.C二、填空题二、填空题7.7.为了判断高中三年级学生是否选修文科与性别的关系,为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取现随机抽取5050名学生,得到如下名学生,得到如下2 22 2列联表:列联表:理科理科 文科文科男男1313 1010女女 7 72020已知已知P P(K K2 23.8413.841)0.050.05,P P(K K
21、2 25.0245.024)0.025.0.025.根据表中数据,得到根据表中数据,得到则认为选修文科与性别有关系出错的可能性约为则认为选修文科与性别有关系出错的可能性约为 .解解析析 K K2 24.8444.844,这这表表明明小小概概率率事事件件发生发生.根据根据 假假设设检检验验的的基基本本原原理理,应应该该断断定定“是是否否选选修修文文科科与与性性别别之之间间有有关系关系”成立,并且这种判断出错的成立,并且这种判断出错的 可能性约为可能性约为5%.5%.答案答案 5%5%三、解答题三、解答题8.8.在一次飞机航程中调查男女乘在一次飞机航程中调查男女乘客的晕机情况,其二维条形图客的晕机情况,其二维条形图如图:如图:(1 1)写出)写出2 22 2列联表;列联表;(2 2)判断晕机与性别)判断晕机与性别是否有关?是否有关?