《正态分布和线性回归(共8页).doc》由会员分享,可在线阅读,更多相关《正态分布和线性回归(共8页).doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上专题:正态分布和线性回归一、 基础知识回顾1.正态分布:若总体密度曲线就是或近似地是函数的图象其中:是圆周率;e是自然对数的底;x是随机变量的取值,为正态分布的平均值;是正态分布的标准差这个总体是无限容量的抽样总体,其分布叫做正态分布正态分布由参数,唯一确定,记作,E()=,D()=.2.函数f(x)图象被称为正态曲线(1)从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=,并在x=时取最大值。(2)从x=点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的,(3)当的值一定时, 越大,曲线越“
2、矮胖”,总体分布越分散;越小,曲线越“高”总体分布越集中3. 把即=0,=1称为标准正态分布,这样的正态总体称为标准正态总体,其密度函数为,x(-,+),相应的曲线称为标准正态曲线.利用标准正态分布表可求得标准正态总体在某一区间内取值的概率. (1)对于标准正态总体,是总体取值小于的概率,即:,其中,其值可以通过“标准正态分布表”查得,也就是图中阴影部分的面积,它表示总体取值小于的概率(2)标准正态曲线关于y轴对称。因为当时,;而当时,根据正态曲线的性质可得:,并且可以求得在任一区间内取值的概率:,显然(0)=0.5.5.对于任一正态总体,都可以通过使之标准化,那么,P()=P()=,求得其在
3、某一区间内取值的概率.例如: N(1,4),那么,设=,则,有P(3)=P(1)=0.8413.6. (1)=0.8413、(2)=0.9772、(3)=0.9987 二、例题1.下面给出三个正态总体的函数表示式,请找出其均值和标准差(1),(-x+ (2),(-x+(3),(-x+2.正态总体的函数表示式是,(-x+)(1)求f(x)的最大值;(2)利用指数函数性质说明其单调区间,以及曲线的对称轴3.利用标准正态分布表(1)=0.8413、(2)=0.9772、(3)=0.9987)求标准正态总体在下面区间取值的概率(1)(0,1);(2)(1,3);(3)(-1,2).利用标准正态分布表(
4、1)=0.8413、(1.84)=0.9671),求正态总体在下面区间取值的概率(1)在N(1,4)下,求F(3)(2)在下,求P(-1.84X+1.84)*.对于正态总体取值的概率:()(-,+):()(-2,+2):()(-3,+3):取值的概率分别为68.3%、95.4%、99.7%。因此我们时常只在区间(-3,+3)内研究正态总体分布情况,而忽略其中很小的一部分,这一部分情况发生为小概率事件。6.下列关于正态曲线性质的叙述正确的是(1)曲线关于直线x=对称,这个曲线只在x轴上方;(2)曲线关于直线x=对称,这个曲线只有当x(-3,3)时才在x轴上方;(3)曲线关于y轴对称,因为曲线对应
5、的正态密度函数是一个偶函数;(4)曲线在x=时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低;(5)曲线的对称轴由确定,曲线的形状由确定;(6)越大,曲线越“矮胖”,总体分布越分散;越小,曲线越“高”总体分布越集中()(A)只有()()()() (B) 只有(2)()() (C) 只有(3)()()() (D) 只有()()()7.把一个正态曲线a沿着横轴方向向右移动2个单位,得到一个新的曲线b,下列说法不正确的是 (A)曲线b仍然是正态曲线 (B)曲线a和曲线b的最高点的纵坐标相等(C)以曲线a为概率密度曲线的总体的方差比以曲线b为概率密度曲线的总体的方差大2(D)以曲线a为概率密度曲线
6、的总体的期望比以曲线b为概率密度曲线的总体的期望小28.在正态总体(0,)中,数值落在(-,-1)(1,+)里的概率为(A)0.097 (B).046 (C)0.03 (D)0.0039.设随机变量N(2,4),则D()等于 (A)1 (B)2 (C)0.5 (D)410.设随机变量(,),且P(C)=P(C),则C等于 ( ) (A)0 (B) (C)- (D)11.正态总体的概率密度函数为,则总体的平均数和标准差分别是 (A)0和8 (B)0和4 (C)0和2 (D)0和 12.填空题(1)若随机变量N(1,0.25),则2的概率密度函数为 .(2)期望为2,方差为的正态分布的密度函数是
7、.(3)已知正态总体落在区间(0.2,+)的概率是0.5,则相应的正态曲线f(x)在x= 时,达到最高点.(4)已知N(0,1),P(1.96)=(1.96)=0.9750,则(-1.96)= .(5)某种零件的尺寸服从正态分布N(0,4),则不属于区间(-4,4)这个尺寸范围的零件约占总数的 .(6)某次抽样调查结果表明,考生的成绩(百分制)近似服从正态分布,平均成绩为72分,96分以上的考生占考生总数的2.3%,则考生成绩在60至84分之间的概率为 . (1)=0.8413、(2)=0.977、(3)=0.9987参考答案:1(1)0,1(2)1,2(3)-1,0.5;2.(1)x=-1时
8、,(2)对称轴为x=-1.3.(1)0.3413(2)0.1574(3)0.81854. (1)F(3)=0.8413(2) P(-1.84X+1.84)=0.9342;6.A;7.C;8.D;9.A;10.B;11.C;12.(1);(2) ;(3)0.2;(4)0.025;(5)4.56%;(6)=12;P=0.6826.F(96)=, F(84)- F(60)= 正态分布和线性回归高考要求 1.了解正态分布的意义及主要性质 2.了解线性回归的方法和简单应用知识点归纳 1正态分布密度函数:,(0,-x)其中是圆周率;e是自然对数的底;x是随机变量的取值;为正态分布的均值;是正态分布的标准差
9、.正态分布一般记为 2正态分布)是由均值和标准差唯一决定的分布例1、下面给出三个正态总体的函数表示式,请找出其均值和标准差(1),(-x+ (2),(-x+解: (1)0,1 (2)1,2 3正态曲线的性质:正态分布由参数、唯一确定,如果随机变量N(,2),根据定义有:=E,=D。正态曲线具有以下性质:(1)曲线在x轴的上方,与x轴不相交。(2)曲线关于直线x =对称。(3)曲线在x =时位于最高点。(4)当x 时,曲线下降。并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。(5)当一定时,曲线的形状由确定。越大,曲线越“矮胖”,表示总体越分散;越小,曲线越“瘦高”,表示总体的分
10、布越集中。五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学 4标准正态曲线:当=0、=l时,正态总体称为标准正态总体,其相应的函数表示式是,(-x+)其相应的曲线称为标准正态曲线 标准正态总体N(0,1)在正态总体的研究中占有重要的地位 任何正态分布的概率问题均可转化成标准正态分布的概率问题 5.标准正态总体的概率问题: 对于标准正态总体N(0,1),是总体取值小于的概率,即 ,其中,图中阴影部分的面积表示为概率 只要有标准正态分布表即可查表解决.从图中不难发现:当时,;而当时,(0)=0.5 例2 设,且总体密度曲线的函数表达式为:,xR。(1)求,;(2)求
11、的值。分析:根据表示正态曲线函数的结构特征,对照已知函数求出和。利用一般正态总体与标准正态总体N(0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。解:(1)由于,根据一般正态分布的函数表达形式,可知=1,故XN(1,2)。(2) 。点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。9相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下:相同点:均是指两个变量的关系 不同点:函数关
12、系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系10回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面:(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。(3)
13、求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。11散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度 粗略地看,散点分布具有一定的规律 12. 回归直线设所求的直线方程为,其中a、b是待定系数,,相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析 13.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把= 叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度. 14.相关系数的性质: 1,且越接近1
14、,相关程度越大;且越接近0,相关程度越小.一般的,当 0.75 时,就可以判断其具有很强的相关性,这时求线性回归方程才有意义。例3 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:x23456y2.23.85.56.57.0若由资料可知y对x呈线性相关关系。试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?分析:本题为了降低难度,告诉了y与x间呈线性相关关系,目的是训练公式的使用。解:(1)列表如下:i12345234562.23.85.56.57.04.411.422.032.542.049162536, , , 于是,。线性回归方程为:。(2)当x=10时,(万元)即估计使用10年时维修费用是12.38万元。点评:本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。专心-专注-专业