《数学数据统计分析最终.pptx》由会员分享,可在线阅读,更多相关《数学数据统计分析最终.pptx(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、预备知识 概率和统计MATLAB第1页/共71页2概率分布离散型随机变量离散型随机变量:离散均匀分布离散均匀分布二项分布二项分布泊松分布泊松分布几何分布几何分布超几何分布超几何分布负二项分布负二项分布连续型随机变量连续型随机变量:连续均匀分布连续均匀分布指数分布指数分布正态分布正态分布对数正态分布对数正态分布2分布分布非中心非中心2分布分布t分布分布非中心非中心t分布分布F分布分布非中心非中心F分布分布分布分布分布分布Rayleigh分布分布Weibull分布分布第2页/共71页常见的概率分布二项式分布Binomialbino卡方分布Chisquarechi2指数分布Exponentialex
2、pF分布Ff几何分布Geometricgeo正态分布Normalnorm泊松分布PoissonpoissT分布Tt均匀分布Uniformunif离散均匀分布Discrete Uniformunid第3页/共71页 n个点上的均匀分布q 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为则称这种分布为离散均匀分布离散均匀分布。记做:。记做:n=20;x=1:n;y=unidpdf(x,n);plot(x,y,o-)例:例:n=20 时的离散均匀分布密度函数图时的离散均匀分布密度函数图离散分布:第4页/共71页 几何分布q 几何分布几何分布是一种常见的是一种常见的离散分布离散分布
3、l 在贝努里实验中,每次试验成功的概率为在贝努里实验中,每次试验成功的概率为 p,设试验进行,设试验进行到第到第 次才出现成功,则次才出现成功,则 的分布满足:的分布满足:其右端项其右端项是几何级数是几何级数 的一般项,于是人们称它为的一般项,于是人们称它为几何分布几何分布。x=0:30;y=geopdf(x,0.5);plot(x,y,o-)例:例:p=0.5 时的几何分布密度函数图时的几何分布密度函数图离散分布:第5页/共71页 0-1分布q 0-1分布分布(Bernoulli分布分布)l 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为则称这种分布为服从服从参数为参数
4、为p的的0-1分布。分布。离散分布:第6页/共71页 二项分布q 二项分布二项分布属于离散分布属于离散分布l 如果随机变量如果随机变量 X 的分布列为:的分布列为:则称这种分布为二项分布。记做:则称这种分布为二项分布。记做:x=0:50;y=binopdf(x,500,0.05);plot(x,y,o-)例:例:n=500,p=0.05 时的二项分布密度函数图时的二项分布密度函数图离散分布:n=1,服从参数为p的0-1分布第7页/共71页 Poisson 分布q 泊松分布泊松分布也属于离散分布,是也属于离散分布,是1837年由发个数年由发个数学家学家 Poisson 首次提出,其概率分布列为:
5、首次提出,其概率分布列为:记做:记做:l 泊松分布是一种常用的离散分布,它与单位时间(或单位泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系面积、单位产品等)上的计数过程相联系。如:单位时间内,如:单位时间内,电话总机接到用户呼唤次数;电话总机接到用户呼唤次数;1 平方米内,玻璃上的气泡数平方米内,玻璃上的气泡数等等。离散分布:第8页/共71页Poisson 分布举例x=0:50;y=poisspdf(x,25);plot(x,y,o-)例:例:=25 时的泊松分布密度函数图时的泊松分布密度函数图第9页/共71页 均匀分布q 均匀分布均匀分布(连续分布)(
6、连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从均匀分布。记做:服从均匀分布。记做:l 均匀分布在实际中经常使用,譬如一个半径为均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置轮胎圆周接触地面的位置 X 是服从是服从 0,2 r 上的均匀分布上的均匀分布。连续分布:第10页/共71页均匀分布举例x=-10:0.01:10;r=1;y=unifpdf(x,0,2*pi*r);plot(x,y,o-)第11页/共71页
7、 正态分布q 正态分布正态分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从正态分布。记做:服从正态分布。记做:l 标准正态分布:标准正态分布:N(0,1)l 正态分布也称高斯分布,是概率论中最重要的一个分布。正态分布也称高斯分布,是概率论中最重要的一个分布。l 如果如果一个变量一个变量是是大量微小、独立的随机因素大量微小、独立的随机因素的的叠加,那么叠加,那么它它一定一定满足满足正态正态分布。分布。如测量误差、产品质量、月降雨量等如测量误差、产品质量、月降雨量等连续分布:第12页/共71页正态分布举例x=-8:0.1:8;y=norm
8、pdf(x,0,1);y1=normpdf(x,1,2);plot(x,y,x,y1,:)例:例:标准正态分布和非标准正态分布密度函数图形标准正态分布和非标准正态分布密度函数图形第13页/共71页 指数分布q 指数分布指数分布(连续分布)(连续分布)l 如果随机变量如果随机变量 X 的密度函数为:的密度函数为:则称则称 X 服从参数为服从参数为 的指数分布。记做:的指数分布。记做:l 在实际应用问题中,等待某特定事物发生所需要的时间往在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布往服从指数分布。如某些元件的寿命;随机服务系统中的服如某些元件的寿命;随机服务系统中的服务时间;动
9、物的寿命等都常务时间;动物的寿命等都常常常假定服从指数分布假定服从指数分布。l 指数分布具有无记忆性:指数分布具有无记忆性:连续分布:第14页/共71页指数分布举例x=0:0.1:30;y=exppdf(x,4);plot(x,y)例:例:=4 时的指数分布密度函数图时的指数分布密度函数图第15页/共71页 2分布q 设随机变量设随机变量 X1,X2,Xn 相互独立,且同服从正态相互独立,且同服从正态分布分布 N(0,1),则称随机变量,则称随机变量 n2=X12+X22+Xn2服从服从自由度为自由度为 n 的的 2 分布,记作分布,记作 ,亦称随,亦称随机变量机变量 n2 为为 2 变量。变
10、量。x=0:0.1:20;y=chi2pdf(x,4);plot(x,y)例:例:n=4 和和 n=10 时的时的 2 分布密度函数图分布密度函数图x=0:0.1:20;y=chi2pdf(x,10);plot(x,y)抽样分布:第16页/共71页 F 分布q 设随机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量x=0.01:0.1:8.01;y=fpdf(x,4,10);plot(x,y)例:例:F(4,10)的分布密度函数图的分布密度函数图为服从自由度为服从自由度(m,n)的的 F 分布。记做:分布。记做:抽样分布:第17页/共71页 t 分布q 设随
11、机变量设随机变量 ,且,且 X 与与 Y 相相互独立,则称随机变量互独立,则称随机变量x=-6:0.01:6;y=tpdf(x,4);plot(x,y)例:例:t(4)的分布密度函数图的分布密度函数图为服从自由度为服从自由度 n 的的 t 分布。记做:分布。记做:抽样分布第18页/共71页分布函数和逆分布函数q q 第19页/共71页统计量 样本均值样本方差样本协方差样本相关系数样本百分位数q%上分位数=(100-q)%下分位数第20页/共71页第八章随机模拟和统计分析MATLAB第21页/共71页第八章随机模拟和统计分析第一部分 描述性统计分析第二部分 统计图第三部分 随机数的生成第四部分
12、概率函数第五部分 参数估计第六部分 假设检验第22页/共71页第一部分描述性统计分析MATLAB第23页/共71页mean(X)lX向量,返回向量的均值;lX矩阵,返回矩阵每列元素均值构成的行向量均值等均值等描述性统计分析min/max/median/std/var/sum/prod/cumsum/cumprod/geomean几何平均数/harmmean调和平均值 l同mean第24页/共71页 对随机变量对随机变量x,计算其基本统计量的命令:,计算其基本统计量的命令:mean(x)std(x)skewness(x)median(x)var(x)kurtosis(x)均值均值标准差标准差偏度
13、偏度中位数中位数方差方差峰度峰度第25页/共71页数据比较数据比较Y,I=sort(X)l X向量(Y:X升序排列;I:Y中元素原址)lX矩阵,对各列排序Y,I=sortrows(X)lX矩阵,对各行排序(Y:X升序排列;I:Y中元素原址)range (X)lX的极差描述性统计分析第26页/共71页cov(X,Y)lX,Y为向量,各代表一个样本,求得样本协方差cov(X)lX矩阵,各列为一个样本,求得样本协方差矩阵.对角线元素是X各列的方差corcoef(X)l给出X列向量的相关系数矩阵协方差和相关系数协方差和相关系数corcoef(X,Y)l同cov,给出X,Y向量的相关系数描述性统计分析第
14、27页/共71页%求A的第2列与第3列列向量的相关系数矩阵 协方差和相关系数例子第28页/共71页Y=prctile(X,p)lX向量(X的p%上分位数)lX矩阵(分别求各列的上分位数)trimmean(X,p)n剔除上下各(p/2)%数据以后的均值上分位数描述性统计分析第29页/共71页第二部分统计图MATLAB第30页/共71页hist(X,k)l将向量X中数据等距分为k组,并作频数直方图,k=10bar(X,Y)l作向量Y相对与X的条形图bar(Y)l作向量Y的条形图N,X=hist(Y,k)l不作图,N返回数据频数,X返回各组的中心位置boxplot(Y)l作向量Y的箱型图箱中包含了从
15、75%上分位数到25%下分位数的数据,中间线是中位数2.统计图第31页/共71页绘制直方图hist(X,K)%二维条形直方图,显示数据的分布情形二维条形直方图,显示数据的分布情形l 将向量 X 中的元素根据它们的数值范围进行分组,每一组作为一个条形进行显示。条形直方图中的 x-轴反映了向量 X 中元素数值的范围,直方图的 y-轴 显示出向量 X 中的元素落入该组的数目。K用来控制条形的个数,缺省为 10。x=1 2 9 3 5 8 0 2 3 5 2 10;hist(x);hist(x,5);hist(x,2);例:例:x=randn(1000,1);hist(x,100);histfit(X
16、,NBINS)%附有正态密度曲线的直方图附有正态密度曲线的直方图l NBINS 指定条形的个数,缺省为 X 中数据个数的平方根。第32页/共71页 vata=randn(1,100);histfit(vata)第33页/共71页第34页/共71页第35页/共71页第36页/共71页第37页/共71页第38页/共71页第三部分随机数的生成MATLAB第39页/共71页注:注:rand(n)=rand(n,n)randperm(N)l 生成一个由 1:N组成的随机排列randn(m,n)l 生成标准正态分布N(0,1)的 m n 随机矩阵rand(m,n)l 生成一个满足均匀分布的 m n 随机矩
17、阵,矩阵的每个元素都在(0,1)之间。perms(1:n)l 生成由 1:n 组成的全排列,共 n!个3.随机数的生成第40页/共71页l name 的取值可以是的取值可以是normal Uniformpoisson betaexponentialgammageometricdiscrete Uniform.random(name,A1,A2,A3,m,n)通用函数求指定分布的随机数 3.随机数的生成第41页/共71页第42页/共71页binornd(k,p,m,n)l 生成参数为k,p的m n二项分布随机数矩阵unidrnd(N,m,n)l 生成1,2,N的等概率m n 随机矩阵unifrn
18、d(a,b,m,n)l 生成a,b区间上的连续型均匀分布m n随机数矩阵3.随机数的生成常用分布的随机数 第43页/共71页R=mvnrnd(mu,sigma,m)l 生成n维正态分布数据,mu是n维均值向量,sigma为n阶协方差矩阵(必须是正定的),R是 m n 矩阵,每行代表一个随机数normrnd(mu,sigma,m,n)l 生成均值为mu,均方差为sigma的 m n 正态分布随机数矩阵3.随机数的生成第44页/共71页第四部分概率函数MATLAB第45页/共71页cdf(name,x,p1,p2,m,n)l生成以p1,p2,为参数的m n 分布函数在x处的值.name表示分布类型
19、的字符串pdf(name,x,p1,p2,m,n)l 生成以p1,p2,为参数的m n 密度函数在x处的值.name表示分布类型的字符串4.概率函数icdf(name,x,p1,p2,m,n)l生成以p1,p2,为参数的m n 逆分布函数(下分位数)在x处的值.name表示分布类型的字符串(同random)通用函数 第46页/共71页4.概率函数normpdf(x,mu,sigma,)l 返回参数为 mu和sigma的正态分布密度函数在x处的值normcdf(x,mu,sigma)l正态分布函数值norminv(p,mu,sigma)lnormcdf的逆函数,即p下分位数专用函数 第47页/共
20、71页例:例:x=-8:0.1:8;y=pdf(norm,x,0,1);y1=pdf(norm,x,1,2);plot(x,y,x,y1,:)n 注:注:y=pdf(norm,x,0,1)y=normpdf(x,0,1)相类似地,y=pdf(beta,x,A,B)y=betapdf(x,A,B)y=pdf(bino,x,N,p)y=binopdf(x,N,p)4.概率函数第48页/共71页分布概率函数(密度函数)例子第49页/共71页累计概率函数(分布函数)例子第50页/共71页逆分布函数(下分位数)例子第51页/共71页第五部分统计推断之参数估计MATLAB第52页/共71页5.参数估计q
21、已知总体的分布类型,总体参数未知,需要根据样已知总体的分布类型,总体参数未知,需要根据样本对未知参数作出估计。本对未知参数作出估计。q 由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。q 对于未知参数的估计,可分两种情况:l 点估计l 区间估计第53页/共71页正态总体的参数估计正态总体的参数估计 设总体服从正态分布,则其点点估计和区间区间估计可同时由以下命令获得:muhat,sigmahat,muci,sigmaci =normfit(X,alpha)第54页/共71页正态总体的参数估计举例正态总体的参数估计举例第55页/共71页其它分布的参数估计其它分布的参数估计(1)muha
22、t,muci=expfit(X,alpha)在显著性水平alpha下,求指数分布指数分布的数据X的均值的点估 计及其区间估计.(2)lambdahat,lambdaci=poissfit(X,alpha)在显著性水平alpha下,求泊松分布泊松分布的数据X 的参数的点 估计及其区间估计.(3)phat,pci=weibfit(X,alpha)在显著性水平alpha下,求Weibull分布分布的数据X 的参数 的点估计及其区间估计.第56页/共71页第六部分统计推断之假设检验MATLAB第57页/共71页6.假设检验q 对总体的分布律或分布参数作某种假设,根据抽取对总体的分布律或分布参数作某种假
23、设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就假设是否正确,从而决定接受假设或拒绝假设,这就是是假设检验假设检验问题。问题。第58页/共71页 正态总体均值和方差的假设检验是最常用且相对简单的假设检验。在总体服从正态分布正态分布的情况下,可用以下命令进行假设检验.第59页/共71页 h,sig=ztest(x,m,sigma,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平。tail的缺省值为 0,alpha的缺省值为 0
24、.05,sig 为假设成立的概率。第60页/共71页第61页/共71页第62页/共71页h,sig=ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差,alpha 为显著性水平。tail的缺省值为 0,alpha的缺省值为 0.05,sig 为假设成立的概率。第63页/共71页第64页/共71页 p,h=ranksum(x,y)非参数假设检验第65页/共71页66非参数假设检验例例 某商店为了确定向公司某商店为了确定向公司A或公司或公司B 购买某种产品,将购买某种产品,将A,B公司公司以往各次进货的次品率进行比较,数据如下所示,设两
25、样本独以往各次进货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取次品的密度最多只差一个平移,取=0.05。A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5B:5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3解解 分别以分别以A、B记公司记公司A、B 的商品次品率总体的均值。所需检验的假设是的商品次品率总体的均值。所需检验的假设是H0:A=B,H1:AB.Matlab
26、实现如下:实现如下:a=7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5;b=5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3;p,h=ranksum(a,b)求得求得p=0.8041,h=0,表明两样本总体均值相等的概率为,表明两样本总体均值相等的概率为0.8041,并不很接近于零,并不很接近于零,且且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。说明可以接受原假设,即认为两个公司的商品的质量无明显差异。第66页/共71页非参数假设检验:总体分布的检验normplot(x)l 统计
27、绘图函数,进行统计绘图函数,进行正态分布正态分布检验。研究表明:检验。研究表明:如果数据如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。其他分布,则为曲线形态。第67页/共71页例例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505 612 452 4
28、34 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 4
29、99 544 645 764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.假设检验举例假设检验举例第68页/共71页解解 1、数据输入数据输入2、作频数直方图、作频数直方图 hist(x,10)3、分布的正态性检验分布的正态性检验 normplot(x)(看起来刀具寿命服从正态分布)(刀具寿命近似服从正态分布)结果显示:这 100 个离散点非常靠近倾斜直线段,即图形为线性的,因此可得结论:该批刀具的使用寿命近似服从正态分布。4、参数估计:、参数估计:muhat,sigmahat,muci,sigmaci=normfit(
30、x)估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间为 179.2276,237.1329.第69页/共71页 已知刀具的寿命服从正态分布,现在方差未知已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值的情况下,检验其均值 m 是否等于是否等于594.结果:h=0,sig=1.h=ttest(x,597,0.05)利用函数 ttest 进行显著性水平为 alpha 的 t 假设检验检验结果:h=0。表示不拒绝零假设,说明所提出的假设“寿命均值为 597”是合理的。5、假设检验、假设检验第70页/共71页感谢您的观看。第71页/共71页