《数模竞赛中的统计方法选讲.pptx》由会员分享,可在线阅读,更多相关《数模竞赛中的统计方法选讲.pptx(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一个原理一个原理两个特征两个特征三个分布三个分布第1页/共41页一个原理:随机事件的频率稳定性原理随机事件的概率是频率的稳定值考察频率分布可知,当试验次数越来越多时,频率也就会越来越稳定于某个数,这就是说,考察频率分布可知,当试验次数越来越多时,频率也就会越来越稳定于某个数,这就是说,某一测量结果出现的次数与测量总次数之比会逐渐稳定于某个值,该值就是该试验结果的某一测量结果出现的次数与测量总次数之比会逐渐稳定于某个值,该值就是该试验结果的概率。从频率分布曲线图上也可看出,当概率。从频率分布曲线图上也可看出,当n n,组距,组距0 0时,随机样本的频率密度分布就时,随机样本的频率密度分布就会成为
2、一条连续的曲线。若该曲线以会成为一条连续的曲线。若该曲线以y y=f f(x)(x)表示,则表示,则f f(x)(x)就称为就称为x x的概率密度函数。的概率密度函数。第2页/共41页第3页/共41页第4页/共41页 测量数据的频率密度直方图。第5页/共41页图1 频率密度分布逐渐接近正态分布示意 第6页/共41页其中其中 为实数,为实数,0,则称,则称X服从参数为服从参数为 ,2的的正态分布正态分布,记为记为N(,2),可表为可表为XN(,2).若随机变量随机变量第7页/共41页(1)单峰对称单峰对称 密度曲线关于直线密度曲线关于直线x=对称对称;f()maxf(x).正态分布有两个特性正态
3、分布有两个特性:第8页/共41页(2)的大小直接影响概率的分布的大小直接影响概率的分布 越大,曲线越平坦越大,曲线越平坦,越小,曲线越陡峻越小,曲线越陡峻,正态分布也称为高斯正态分布也称为高斯(Gauss)分布分布第9页/共41页4.标准正态分布标准正态分布 参数参数 0,21的正态分布称为的正态分布称为标准正态分布,标准正态分布,记作记作XN(0,1)。第10页/共41页分布函数表示为分布函数表示为其其密度函数密度函数表示为表示为第11页/共41页一般的概率统计教科书均附有标准正态分布表供读一般的概率统计教科书均附有标准正态分布表供读者查阅者查阅(x)的值。如,若的值。如,若ZN(0,1),
4、(0.5)=0.6915,P1.32Z2.43=(2.43)-(1.32)=0.9925-0.9066注注:(1)(x)1 (x);(2)若若XN(,2),则则第12页/共41页设 X X N(N(,2 2),),则PP-3-3 XX3|3 的值的值.如在质量控制中,常用标准指标值如在质量控制中,常用标准指标值33 作两条线,当作两条线,当生产过程的指标观察值落在两线之外时发出警报生产过程的指标观察值落在两线之外时发出警报.表明表明生产出现异常生产出现异常.第13页/共41页99A:自动化车床管理4593626245425095844337488155056124524349826407425
5、657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851附:100次刀具故障记录(完成的零件数)第14页/共41页MATLAB 统计工具箱 a,b=hi
6、st(x,9);a=a/length(x);bar(b,a);第15页/共41页MATLAB 统计工具箱 要对一组样本进行正态性检验,在MATLAB中,一种方法是用normplot画出样本,如果都分布在一条直线上,则表明样本来自正态分布,否则是非正态分布。normplot(x)第16页/共41页MATLAB中也提供了几种更正式的检验方法:1、函数 kstest:Kolmogorov-Smirnov 正态性检验,将样本与标准正态分布(均值为0,方差为1)进行对比,不符合正态分布返回1,否则返回0;该函数也可以用于其它分布类型的检验;2、函数 lillietest:Lilliefors test。
7、与kstest不同,检验目标不是标准正态,而是具有与样本相同均值和方差的正态分布。lillietest(x)ans=03、函数 jbtest:Jarque-Bera test与 Lilliefors test 类似,但不适用于小样本的情况。jbtest(x)ans=0第17页/共41页 泊松泊松(Poisson)分布分布P()XPXk ,k0,1,2,(0)泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。第18页/共41页 指数分布指数分布 则称则称X服从参数为服从参数
8、为 0的的指数分布。指数分布。其分布函数为其分布函数为第19页/共41页随机变量两个重要的数字特征数学期望是衡量随机变量取值平均大小平均大小 程度的一个数字特征。方差是衡量随机变量取值波动波动 程度的一个数字特征。第20页/共41页 定义定义 若若XPX=xk=pk,k=1,2,n,则称则称为的为的数学期望数学期望,简称,简称期望期望或或均值均值。若若Xf(x),-x0,DY0,则,则称为称为X与与Y的的相关系数相关系数.第23页/共41页2.相关系数的性质相关系数的性质 (1)|XY|1;(2)|XY|=1存在存在常数常数a,b 使使PY=aX+b=1;(3)X与与Y不相关不相关 XY=0;
9、第24页/共41页 协方差矩阵协方差矩阵定义定义 设设X1,,Xn为为n个个r.v.,记记cij=Cov(Xi,Xj),i,j=1,2,n.则称由则称由cij组成的矩阵为随机变量组成的矩阵为随机变量 X1,,Xn的协方差矩阵的协方差矩阵C。即。即第25页/共41页统计中常用的三种分布一、2分布 数理统计中常用到如下三个分布:2 2分布、t t 分布和F F分布。第26页/共41页2.2分布的密度函数f(y)曲线 第27页/共41页3.分位点 设X 2(n),若对于:0 1,存在满足满足则称则称为为分布的上分布的上 分位点。分位点。第28页/共41页1.构造 若XN(0,1),Y 2(n),X与
10、Y独立,则t(n)称为自由度为n的t分布。二、t分布第29页/共41页2.t(n)(n)的概率密度为的概率密度为第30页/共41页3.3.分位点分位点 设设T Tt(n)t(n),若对,若对:0:0 1,0(n)0,满足满足PTPT t t(n)=(n)=,则称,则称t t(n)(n)为为t(n)t(n)的上侧分位点的上侧分位点第31页/共41页注注:第32页/共41页三、F分布 1.构造 若U 2(n1),V 2(n2),U,V独立,则 称为第一自由度为n1,第二自由度为n2的F分布,其概率密度为第33页/共41页2.F2.F分布的分位点分布的分位点对于对于:00 10)0,满足满足PFPF
11、 F F(n(n1 1,n n2 2)=)=,则则称称F F(n(n1 1,n n2 2)为为F(nF(n1 1,n n2 2)的的上侧上侧 分位点;分位点;第34页/共41页注:注:第35页/共41页两个特征第36页/共41页一个原理:小概率事件的实际不可能性原理。它的重要应用是假设检验问题(一一)两类问题两类问题1、参数假设检验、参数假设检验 总体分布已知总体分布已知,参数未参数未知知,由观测值由观测值x1,xn检验假设检验假设H0:=0;H1:02、非参数假设检验、非参数假设检验 总体分布未知总体分布未知,由观测值由观测值x1,xn检验假设检验假设H0:F(x)=F0(x;);H1:F(
12、x)F0(x;)第37页/共41页以样本以样本(X1,Xn)出发制定一个法则出发制定一个法则,一旦观测值一旦观测值(x1,xn)确定后确定后,我们由这个法则就可作出判断是拒绝我们由这个法则就可作出判断是拒绝H0还是还是接受接受H1,这种法则称为这种法则称为H0对对H1的一个检验法则的一个检验法则,简称检验简称检验法。法。样本观测值的全体组成样本空间样本观测值的全体组成样本空间S,把把S分成两个互分成两个互不相交的子集不相交的子集W和和W*,即即S=W W*,WW*=假设当假设当(x1,xn)W时时,我们就拒绝我们就拒绝H0;当当(x1,xn)W*时时,我们就接受我们就接受H0。子集。子集W S
13、就称为检验的拒就称为检验的拒绝域绝域(或临界域或临界域)。(二二)检验法则与拒绝域检验法则与拒绝域第38页/共41页(三三)检验的两类错误检验的两类错误 称称 H0真而被拒绝的错误为第一类错误或弃真错误;真而被拒绝的错误为第一类错误或弃真错误;称称 H0假而被接受的错误为第二类错误或取伪错误。假而被接受的错误为第二类错误或取伪错误。记记 p(I)=p拒绝拒绝H0|H0真真;P(II)=p 接受接受H0|H0假假对于给定的一对对于给定的一对H0和和H1,总可找出许多拒绝域总可找出许多拒绝域,人们自然希望找到这种拒绝域人们自然希望找到这种拒绝域W,使得犯两类错误的概率都使得犯两类错误的概率都很小。
14、很小。奈曼奈曼皮尔逊皮尔逊(NeymanPearson)提出了一个原则:提出了一个原则:“在控制犯第一类错误的概率不超过指定值在控制犯第一类错误的概率不超过指定值 的条件下的条件下,尽尽量使犯第二类错误量使犯第二类错误 小小”按这种法则做出的检验称为按这种法则做出的检验称为“显著显著性检验性检验”,称为显著性水平或检验水平。称为显著性水平或检验水平。第39页/共41页显著性检验的思想和步骤:显著性检验的思想和步骤:(1)根据实际问题作出假设根据实际问题作出假设H0与与H1;(2)构造统计量构造统计量,在在H0真时其分布已知;真时其分布已知;(3)给定显著性水平给定显著性水平 的值的值,参考参考H1,令令 P拒绝拒绝H0|H0真真=,求出拒绝域求出拒绝域W;(4)计算统计量的值计算统计量的值,若统计量若统计量 W,则拒绝则拒绝 H0,否则接受否则接受H0第40页/共41页感谢您的观看!第41页/共41页