《成对数据的统计相关性课件--高二下学期数学人教A版(2019)选择性必修第三册.pptx》由会员分享,可在线阅读,更多相关《成对数据的统计相关性课件--高二下学期数学人教A版(2019)选择性必修第三册.pptx(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、成对数据的统计相关性那么,该如何刻画这两个变量之间的关系呢?例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值。两个变量之间有关系,但密切程度又达不到函数关系的程度。然而,现实世界中还存在这样的情况:yxxy我们知道,如果变量 是变量 的函数,那么由就可以唯一确定系像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称相关关为1.yx例如:子女身高 与父身高之间的关系一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮。但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身
2、高又不能完全决定子女身高但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素。一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小。我们知道,一个人的体重与他的身高有关系。两个变量具有相关关系的事例在现实中大量存在。一、变量的相关关系4.yx粮食亩产量 与施肥量 之间的关系在一定范围内,施肥量越大,粮食亩产量就越高。但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响3.yx空气污染指数 与汽车保有量 之间的关系一般来说,汽车保有量增加,空气污染指数会上升。但汽车保有量并不是造成空气
3、污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素2.yx商品销售收入 与广告支出 之间的关系一般来说,广告支出越多,商品销售收入越高。但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关yx因为在相关关系中,变量 的值不能随变量 的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系。对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断。例如,不同经验的人对同一情形可能会得出不同结论,不是所有的情形都有经验可循等。“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅
4、凭经验推断又有不足。即通过样本数据分析,从中提取信息,并构建适当的模型,再利用模型进行估计或推断因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表所示表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?探究图由这些点组成了如下图所示的统计图我们把这样的统计叫做散点图则上表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,用横轴表示年龄,纵轴表示脂肪含量,我们用图形展示成对样本数据的变化特征
5、。类似于用直方图描述单个变量样本数据的分布特征,为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系。表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势。,观察图 可以发现,这些散点大致落在一条从左下角到右上角的直线附近,如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;如果从上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我体们就称这两个变量正相关整(1)(2)两个变量负相关时,成对样本数据的散点图有什么特点?你能举出生活中两个变量正相关或负相关的一些
6、例子吗?思考关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变线性相量而且从整体上以看出散点落在某条直线附近。,观察散点图 从中我们不仅可以大致看出脂肪含量和年龄呈现正相关性,散点图是描述成对数据之间关系的一种直观方法)(3图中的散点杂乱无章,无规律可言,看不出两个变量有什么相关性但它们既不是正相关,也不是负相关;说明这两个变量具有相关性,但不是线性相关;)(1我们发现:图中的散点落在某条曲线附近,而不是落在一条直线附近,观察散点图一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关)(2图中的散点落在一条折线附近,
7、这两个变量也具有相关性,1.举例说明什么叫相关关系,相关关系与函数关系有什么区别?练习而函数关系是确定性的数量关系,对自变量的每个取值,因变量有唯一确定的值与之对应相关关系是不确定性的数量关系,对其中一个变量的每个取值,另一个变量可能有多个不同的取值相关关系是指从总的变化趋势来看,变量之间存在某种关系,但这种关系又不能用函数关系完全表达出来。受教育程度和收入水平的关系,一般来说,受教育程度高的人收入也较高但受教育程度相同的人收入未必相同答:例如,身高与脚长的关系,一般来说,身高较高的人脚长也会较长,但身高相同的人脚长未必相同;2. 根据下面的散点图,推断图中的两个变量是否存在相关关系(2)非线
8、性相关(4)(3)(2)(1)(1)解: 负相关(4)正相关(3)不相关3. 下表给出了一些地区的鸟的种类数与该地区的海拔高度的数据,鸟的种类数与海拔高度是否存在相关关系?如果是,那么这种相关关系有什么特点?10001000mm但从局部看,不管是在海拔高度以上,还是是海拔高度以下鸟的种类数和海拔高度正相关都不明显10001000mm鸟的种类数在海拔高度以上的明显多于在海拔高度以下的。从散点图中散点的分布看,鸟的种类数与海拔高度正相关,解:画出鸟的种类数与海拔高度的散点图,如图所示|二、样本相关系数“”能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的 数字特征 ,对成对
9、样本数据的相关程度进行定量分析呢?散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小。通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等。并绘制散点图1122( ,(,(,(,)nnx yxx yyxx yyxx yy将数据以为零点进行平移,得到平移后的成对数据为1212,.nnxxxyyyxy其中和的均值分别为 和1122,( ,) ()()nnxyx yxyxy对于变量 和变量设经过随机抽样获得的成对样本数据为利用上述方法处理下表中的数据,得到下图显然,这样的规律是由人
10、体脂肪含量与年龄正相关所决定的我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号。思考 2那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图所示 1那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图所示;xy一般地,如果变量 和 正相关,xy如果变量 和 负相关,根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?0 xyL表明成对样本数据负相关xyL你认为的大小一定能度量出成对样本数据的相关程度吗?1122()
11、()()1)()()(xynnLxxyyxxyyxxyyn可以构造一个量1) (,2, )iixx yyin从上述讨论得到启发,利用散点的横、纵坐标是否同号,0 xyL一般情形下,表明成对样本数据正相关;思考xyL因为的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小。100 xyL例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的倍,但单位的改变并不会导致体重与身高之间相关程度的改变rxy数我们称 为变量 和变量样本相关系的1122(,) ,(,) ,(,)nnxyxyxyxx yyxx yyxx yysssss
12、s,(1),2,iixxyy in分别除和得211()nyiisyyn211()nxiisxxn为了消除度量单位的影响,需要对数据作进一步的“标准化”处理。我们用12211()()()()niiinniiiixxyyxxyyxyL仿照的构造,可以得到1122( ,) ,(,) ,(,)nnx yxyxy为简单起见,把上述“标准化”处理后的成对数据分别记为11221()nnrx yx yx yn 1222211niiinniiiix ynx yxnxynyrr那么,样本相关系数 的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下 的取值范围当其中一个数据的值变大时,另一个数据的
13、值通常也变大这时,当其中一个数据的值变小时,另一个数据的值通常也变小;0r 当时,称成对样本数据正相关它的正负性和绝对值的大小可以反映成对样本数据的变化特征:r样本相关系数 是一个描述成对样本数据的数字特征,r这样,我们利用成对样本数据构造了样本相关系数当其中一个数据的值变大时,另一个数据的值通常会变小0r 当时,称成对样本数据负相关这时,当其中一个数据的值变小时,另一个数据的值通常会变大;12121 12 2,(,)()nnn naaaabbbbababa ba b 类似于平面或空间向量的坐标表示,对于向量和我们有,aba b cosa b 其中 为向量的夹角,,nna b我们将向量的维数推
14、广到 维, 维向量的数量积仍然定义为r观察 的,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,结构11|cosrx yxynn 12(,)nnyy yy 第二分量构成 维向量12( ,)nnxx xx的第一分量构成 维向量1122“”( ,) ,(,) ,(,)nnx yxyxy设 标准化 处理后的成对数据cosr样本相关系数xy 其中 为向量和向量的夹角101,11cosr 由可知n|yn 同理可得222212321()()()()1()nniixxxxxxxxxxn22223122222()()()()nxxxxxxxxxxxxssss2222123|nxxxxx| 1r 当时
15、,成对样本数据之间具有怎样的关系呢?思考这时,成对样本数据的两个分量之间满足一种线性关系( ,)()iiyxx ysyyxxs这表明成对样本数据都落在直线上。,1,2,iiyxyyxxinss,yx 由向量的知识可知,存在实数 ,使得即1cos0|,rrxy 当时,中的或向量和共线|0r当越接近时,成对样本数据的线性相关程度越弱但不排除它们之间有其他相关关系|1r当越接近 时,成对样本数据的线性相关程度越强;r样本相关系数 的绝对值大小可以反映成对样本数据之间线性相关的程度: 1,1 . r由此可见,样本相关系数 的取值范围为0r 当时,只表明成对样本数据间没有线性相关关系,| r刻画了样本点
16、集中于某条直线的程度r样本相关系数 也称样本线性相关系数,0.85 ,r 样本相关系数表明成对样本数据的负线性相关程度比较强。下图是不同成对样本数据的散点图和相应的样本相关系数0.97 ,r 样本相关系数表明成对样本数据的正线性相关程度很强说明成对样本数据呈现出线性相关关系;)(1图中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;)(2图中的散点有明显的从左上角到右下角沿直线分布的趋势,)(4其中图中成对样本数据的线性相关程度极弱(3()4图和图中的成对样本数据的线性相关程度很弱,(1()2)从样本相关系数来看,图中成对样本数据的线性相关程度要比图中强一
17、些;即散点集中于一条直线的程度一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好| r的大小反映了两个变量线性相关的程度,r的符号反映了相关关系的正负性;r而样本相关系数 可以反映两个随机变量之间的线性相关程度:综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,r因此样本相关系数 也具有随机性。对于简单随机样本而言,样本具有随机性解:先画出散点图,1.例根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数并推断它们的相关程度142119403.2iiy观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关142134
18、181iix14119403.2iiix y27.26y 48.07x 且相关程度很强0.97r 由样本相关系数0.971411414222211141414iiiiiiix yx yxxyy14114142211()()()()iiiiiiixxyyrxxyy可以推断脂肪含量和年龄这两个变量正线性相关,2219403.2 14 48.07 27.2634181 14 48.0711051.77 14 27.262.10A例有人收集了某城市居民年收入(所有居民在一年内收入的总和)与商品销售额的年数据,如表所示A即 商品销售额与居民年收入有相同的变化趋势,且相关程度很强A画出散点图,推断成对样本
19、数据是否线性相关,并通过样本相关系数推断居民年收入与商品销售额的相关程度和变化趋势的异同A由此可以推断, 商品销售额与居民年收入正线性相关,0.95r 由样本数据计算得样本相关系数A从散点图看, 商品销售额与居民年收入的样本数据呈现出线性相关关系。解:画出成对样本数据的散点图,3.25例在某校高一年级中随机抽取名男生,测得他们的身高、体重、臂展等数据,如表所示体重与身高、臂展与身高分别具有怎样的相关性?0.340.78通过计算得到体重与身高、臂展与身高的样本相关系数分别约为和都为正线性相关。其中,臂展与身高的相关程度更高(1)( )2分别如图和所示,两个散点图都呈现出线性相关的特征解:根据样本
20、数据画出体重与身高、臂展与身高的散点图,1. 由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系?为什么?练习显然据此推断两个变量完全线性相关是不合理的。一个极端的情况是,无论两个变量之间是什么关系,如果样本量取2,则计算可得样本相关系数的绝对值都是1(在样本相关系数存在的情况下),一般来说,样本量越大,根据一般相关关系数推断变量之间相关的正负性及线性相关的程度越可靠。但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系答:样本相关系数可以反映变量之间相关的正负性及线性相关的程度)2,) (3, 1),(5.3(,2 27,xy已知变量 和
21、变量 的 对随机观测数据计算成对样本数据的样本相关系数。能据此推断这两个变量线性相关吗?为什么?但是由于样本量小,据此推断两个变量完全线性相关并不可靠2210343( 2)31038 3 ()543 ( 2)3r 32154iiy32138iix3134iiix y 2y 103x 解:1虽然样本相关系数为,三个样本点在一条直线上,1 )( 2, 3) ( 1, 1) (0,1) (1,3) (2,5) (3,7)(0,0) (1,1) (2,4) (3,9) (4,16)( 2, 8) ( 1, 1) (0,0) (1,1) (2,8) (3,27)(2,0) (1,3) (0,2) ( 1
22、,33.(1,(2,(3,(4, 画出下列成对数据的散点图,并计算样本相关系数据此,请你谈谈样本相关系数在刻画成对样本数据相关关系上的特点。),( 2,0)(4)0r (3)0.89r 可见,样本相关系数主要刻画的是成对样本数据线性相关的程度(2)0.96r (1)1r (4)中成对数据样本相关系数最小,其他介于二者之间。(1)中线性相关的成对数据样本相关系数最大但从样本相关系数看,差别很大,答:从散点图看,以上各组成对数据都表现出很强的相关性4.7随机抽取 家超市,得到其广告支出与销售额数据如下:10但随着广告支出超过万元后,销售额增加幅度变缓请推断超市的销售额与广告支出之间的相关关系的类型
23、、相关程度和变化趋势的特征|说明销售额与广告支出正相关,且相关程度较强,0.83r 计算可得样本相关系数从散点分布可以看出销售额与广告支出正相关,解:销售额与广告支出的散点图如图所示销售额与广告支出的变化趋势相同,(4) 呈非线性相关关系1.4yx在以下 幅散点图中,推断哪些图中的 和 之间存在相关关系?其中哪些正相关,哪些负相关?哪些图所对应的成对样本数据呈现出线性相关关系?哪些图所对应的成对样本数据呈现出非线性相关关系?8.1习题(2)(3) 呈线性相关关系(3) 是负相关(2)(4)其中是正相关(2)(3)(4)解:存在相关关系2.10随机抽取家航空公司,对其最近一年的航班正点率和顾客投
24、诉次数进行调查,所得数据如下:顾客投诉次数和航班正点率之间是否呈现出线性相关关系?它们之间的相关程度如何?变化趋势有何特征?|顾客投诉次数和航班正点率的变化趋势相反说明顾客投诉次数和航班正点率负相关,且相关程度较强,0.87r 计算可得相关系数可以看出:顾客投诉次数和航班正点率负相关解:顾客投诉次数和航班正点率的散点图如图所示3.xF根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比。测得一根弹簧伸长长度 和相应所受外力 的一组数据如下:1 ?两个变量的样本相关系数是否为请你解释其中的原因|数据没有完全线性相关,跟测量存在误差、弹簧制造工艺等因素有关xF可见弹簧伸长长度 和相应所受外力几乎
25、完全正线性相关0.9997r 计算可得解:弹簧伸长长度和所受外力的散点图,如图所示4.532某地区的环境条件适合天鹅栖息繁衍有人发现了一个有趣的现象,该地区有个村庄,其中 个村庄附近栖息的天鹅较多,婴儿出生率也较高; 个村庄附近栖息的天鹅较少,婴儿的出生率也较低,有人认为婴儿出生率和天鹅数之间存在相关关系,并得出一个结论:天鹅能够带来孩子。你同意这个结论吗?为什么?可见,相关关系只是反映两个变量之间存在的一种数量关系,但这种数量关系并不一定是因果关系例如,生态环境很好的地方,既有利于吸引天鹅来栖息繁衍,也有利于婴儿的出生所以不能得出婴儿出生率高是天鹅多的缘故因为天鹅数多的地方婴儿出生率也高,可能是受共同的第三方因素影响的结果即使婴儿出生率和天鹅数正相关,也无法得出天鹅能够带来孩子的结论但由于样本数据较少,得出婴儿出生率和天鹅数两变量正相关的结论可靠性不高答:从统计数据看,婴儿出生率和天鹅数正相关,谢谢观看