资源描述
-/
变量间的相关关系与统计案例
【知识要点】
1.相关关系的判断
(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量和具有线性相关关系.
(2)样本数据(i=1,2,…,n)的相关系数 当时,两变量正相关,当时,两变量负相关,当且越接近于,相关程度越高,当且越接近于,相关程度越低.
2.回归方程的求法
求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据(i=1,2,…,n),则回归方程中斜率和截距的最小二乘估计公式分别为:
其中,,称为样本点的中心.
【重点】 回归直线必过样本点的中心,这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
3.独立性检验
0.050
0.010
0.001
3.841
6.635
10.828
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(22列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
利用随机变量(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
【例题解析】
题型一 变量间的相关关系
【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3 C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
解析:选A 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.
【变式1】四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③ C.③④ D.①④
解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④,故选D.
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.
【例2】(2014湖北高考)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0 B.a>0,b<0 C.a<0,b>0 D.a<0,b<0
解析:选B 由表中数据画出散点图,如图,
由散点图可知b<0,a>0,选B.
【例3】对于下列表格所示五个散点,已知求得的线性回归方程为=0.8x-155,则实数m的值为( )
x
196
197
200
203
204
y
1
3
6
7
m
A.8 B.8.2 C.8.4 D.8.5
解析:选A ==200,==.
样本中心点为,将样本中心点代入=0.8x-155,可得m=8.故A正确.
题型二 回归方程的求法
【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示
请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;
据此估计2016年该城市人口总数.
参考公式:
解:(1),…… 2分
= 05+17+28+311+419=132,=
故y关于x的线性回归方程为=3.2x+3.6
(2)当x=5时,=3.2*5+3.6即=19.6 据此估计2016年该城市人口总数约为196万.
【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益保费收入)的频率分布直方图如图所示:
(Ⅰ)试估计平均获益率;
(Ⅱ)根据经验若每份保单的保费在元的基础上每增加元,对应的销量(万份)与(元)有较强线性相关关系,从历史销售记录中抽样得到如下组与的对应数据:
(元)
销量(万份)
(ⅰ)根据数据计算出销量(万份)与(元)的回归方程为;
(ⅱ)若把回归方程当作与的线性关系,用(Ⅰ)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益.
参考公示:
解析:(Ⅰ)区间中值依次为:0.05,0.15,0.25,0.35,0.45,0.55,
取值概率依次为:0.1,0.2,0.25,0.3,0.1,0.05,
平均获益率为
(Ⅱ)(i)
则即
(ii)设每份保单的保费为元,则销量为,则保费获益为
万元,
当元时,保费收入最大为万元,保险公司预计获益为万元.
题型三 独立性检验
【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
总计
得病
32
101
133
不得病
61
213
274
总计
93
314
407
根据以上数据,则种子经过处理与是否生病________(填“有”或“无”)关.
解析:在假设无关的情况下,根据题意K2=≈0.16,可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.
答案:无
【例7】某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:
喜欢“应用统计”课程
不喜欢“应用统计”课程
总计
男生
20
5
25
女生
10
20
30
总计
30
25
55
(1)判断是否有99.5%的把握认为喜欢“应用统计”课程与性别有关?
(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.
下面的临界值表供参考:
P(K2≥k)
0.15
0.10
0.05
0.25
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:K2=,其中n=a+b+c+d)
解:(1)由公式K2=≈11.978>7.879,
所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.
(2)设所抽样本中有m个男生,则=,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,
其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.
所以恰有1个男生和1个女生的概率为.
【变式1】经过对计量的研究,得到了若干个临界值如下:
当的观测值时,我们( A )
A. 在犯错误的概率不超过0.05的前提可认为A与B有关
B. 在犯错误的概率不超过0.05的前提可认为A与B无关
C. 在犯错误的概率不超过0.01的前提可认为A与B有关
D. 没有充分理由说明事件A与B有关系
【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为,调查结果如下表所示.
(1)请完成上面的列联表;
(2)根据列联表的数据,问是否有95%的把握认为“数学成绩与班级有关系”;
(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为6或10的概率.
【变式3】为了解人们对新颁布的“生育二孩放开”政策的热度,现在某市进行调查.对岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:
(Ⅰ)求,的值,并由频率分布直方图估计被调查人群的平均年龄;
(Ⅱ)根据以上统计数据填下面22列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
不支持
合计
0.050
0.010
0.001
3.841
6.635
10.828
参考数据:
,
其中
解:(Ⅰ)从岁这一年龄组中抽取的人数为,且频率为,
∴; 2分
又第二组的频率为,则第二组人数为10人,∴ 4分
平均数(岁) 6分
(Ⅱ) 列联表如下:
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
3
29
32
不支持
7
11
18
合计
10
40
50
,
∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。
【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的;不吸烟的人数中,患肺癌与不患肺癌的比为.
(1) 若吸烟不患肺癌的有人,现从患肺癌的人中用分层抽样的方法抽取人,再从这人中随机抽取人进行调查,求这两人都是吸烟患肺癌的概率;
(2)若研究得到在犯错误概率不超过的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?
附:,其中.
解:(1)设吸烟人数为,依题意有,所以吸烟的人有人,故有吸烟患肺癌的有人,不患肺癌的有人.用分层抽样的方法抽取人,则应抽取吸烟患肺癌的人,记为,,,.不吸烟患肺癌的人,记为.从人中随机抽取人,所有可能的结果有,,,,,,,,,,共种,则这两人都是吸烟患肺癌的情形共有种,∴,即这两人都是吸烟患肺癌的概率为. ...............................6分
(2)方法一:设吸烟人数为,由题意可得列联表如下:
患肺癌
不患肺癌
合计
吸烟
不吸烟
总计
由表得,,由题意,∴,
∵为整数,∴的最小值为.则,即吸烟人数至少为人.
方法二:设吸烟人数为,由题意可得列联表如下:
患肺癌
不患肺癌
合计
吸烟
不吸烟
总计
由表得,,由题意,∴,∵为整数且为的倍数,∴的最小值为即吸烟人数至少为人.
【高考真题】
【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,,,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本的相关系数,.
【答案】(1),可以;(2)(ⅰ)需要;(ⅱ)均值与标准差估计值分别为10.02,0.09.
【解析】试题分析:(1)依公式求;(2)(i)由,得抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.
(ii)剔除离群值,即第13个数据,剩下数据的平均数为,这条生产线当天生产的零件尺寸的均值的估计值为10.02.
,
剔除第13个数据,剩下数据的样本方差为,
这条生产线当天生产的零件尺寸的标准差的估计值为.
【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
(1) 记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2) 填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3) 根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。
附:
P()
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)0.62.(2)有把握(3)新养殖法优于旧养殖法
【解析】
(2)根据箱产量的频率分布直方图得列联表
箱产量<50kg
箱产量≥50kg
旧养殖法
62
38
新养殖法
34
66
K2=
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
【3】(2016年全国III卷高考)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:,,,≈2.646.
参考公式:相关系数
回归方程 中斜率和截距的最小二乘估计公式分别为:
(Ⅱ)由及(Ⅰ)得,
所以,关于的回归方程为:. ..........10分
将2016年对应的代入回归方程得:.
所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨. .........12分
【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
56.3
6.8
289.8
1.6
1469
108.8
表中= , =
(I)根据散点图判断,与,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);
(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;
(III)已知这种产品的年利润z与x,y的关系为 ,根据(II)的结果回答下列问题:
(i)当年宣传费时,年销售量及年利润的预报值时多少?
(ii)当年宣传费为何值时,年利润的预报值最大?
附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:
,
【答案】(Ⅰ)适合作为年销售关于年宣传费用的回归方程类型(Ⅱ)(Ⅲ)46.24
【解析】(Ⅰ)由散点图可以判断,适合作为年销售关于年宣传费用的回归方程类型. ……2分
(Ⅱ)令,先建立关于的线性回归方程,由于=,∴=563-686.8=100.6.
∴关于的线性回归方程为,
∴关于的回归方程为.……6分
(Ⅲ)(ⅰ)由(Ⅱ)知,当=49时,年销售量的预报值
=576.6,
. ……9分
(ⅱ)根据(Ⅱ)的结果知,年利润z的预报值
,
∴当=,即时,取得最大值.
故宣传费用为46.24千元时,年利润的预报值最大.……12分
【5】【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号
1
2
3
4
5
储蓄存款(千亿元)
5
6
7
8
10
(Ⅰ)求y关于t的回归方程
(Ⅱ)用所求回归方程预测该地区2015年()的人民币储蓄存款.
附:回归方程中
【答案】(Ⅰ),(Ⅱ)千亿元.
【解析】(Ⅰ)列表分别计算出,的值,然后代入求得,再代入求出值,从而就可得到回归方程,
(Ⅱ)将代入回归方程可预测该地区2015年的人民币储蓄存款.
试题解析: (1)列表计算如下
i
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
15
36
55
120
这里
又
从而.
故所求回归方程为.
(2)将代入回归方程可预测该地区2015年的人民币储蓄存款为
展开阅读全文
相关搜索