《Matlab在概率统计中的应用.ppt》由会员分享,可在线阅读,更多相关《Matlab在概率统计中的应用.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、统计量的数字特征一、统计量的数字特征1平均值平均值MATLAB中中mean(x)命令函数计算数据命令函数计算数据x的平均值的平均值调用格式为调用格式为 mean(x)或或mean(x,dim)维数维数dim取值取值1,2例如例如 x=171;280;390;410;520;630;mean(x)ans=3.50005.00000.1667mean(x,2)ans=3.00003.33334.00001.66672.33333.00002方差和标准差方差和标准差随机变量随机变量x的方差为的方差为标准差标准差样本方差为样本方差为MATLAB的方差函数为的方差函数为Var调用格式为调用格式为va
2、r(x)对于向量对于向量x,得到,得到x的方差值;对于矩阵的方差值;对于矩阵X,得到一行向量,得到一行向量,它的每个值分别是矩阵它的每个值分别是矩阵X对应的列元素的方差值。对应的列元素的方差值。var(x,1)得到向量(或矩阵)得到向量(或矩阵)x的简单方差,即前置因子的简单方差,即前置因子为为1/n的方差的方差var(x,w)得到向量(或矩阵)得到向量(或矩阵)x以以w为权的方差为权的方差例如例如var(x)ans=3.500011.60000.1667var(x,1)ans=2.91679.66670.1389w=0.06670.16670.23330.30000.03330.2000va
3、r(x,w)ans=2.222511.38190.0623样本标准差样本标准差MATLAB的标准差函数为的标准差函数为std调用格式调用格式std(x)对向量对向量x,得到,得到x的样本标准差(前置因子为的样本标准差(前置因子为1/n-1);对);对于矩阵于矩阵X,得到一行向量,它的每个值分别是矩阵,得到一行向量,它的每个值分别是矩阵X对应对应的列元素的标准差的列元素的标准差std(x,1)得到向量(或矩阵)得到向量(或矩阵)x的样本标准差(前置因的样本标准差(前置因子为子为1/n)std(x,flag,dim)得到向量(或矩阵)中以得到向量(或矩阵)中以dim为维数的标准差。其中为维数的标准
4、差。其中flag=0时,前置因子为时,前置因子为1/n-1,否则前置因子为,否则前置因子为1/n例如例如std(x)ans=1.87083.40590.4082std(x,1)ans=1.70783.10910.3727std(x,0,1)ans=1.87083.40590.4082std(x,0,2)ans=3.46414.16334.58262.08172.51663.00003协方差和相关系数协方差和相关系数二维随机变量二维随机变量(X,Y)的协方差为的协方差为相关系数为相关系数为MATLAB中,协方差和相关系数函数中,协方差和相关系数函数cov和和coffcoef实现实现协方差协方差调
5、用格式调用格式cov(x)当当x是向量时,返回此向量的协方差;当是向量时,返回此向量的协方差;当x是矩阵时,返回是矩阵时,返回此矩阵的协方差矩阵,其中此矩阵的协方差矩阵,其中x的每一行是一个观测值,的每一行是一个观测值,x的的每一列是一个变量。由每一列是一个变量。由Cov(x)的对角元素为构成的向量是的对角元素为构成的向量是x的各列的方差所构成的向量,的各列的方差所构成的向量,是标准差向量是标准差向量cov(x,y)返回向量返回向量x、y的协方差矩阵的协方差矩阵cov(x)或或cov(x,0)返回向量返回向量x的样本协方差矩阵,前的样本协方差矩阵,前置因子为置因子为1/n-1cov(x,1)返
6、回向量返回向量x的样本协方差矩阵,前置因子为的样本协方差矩阵,前置因子为1/ncov(x,y),cov(x,y,1)的区别同上的区别同上相关系数相关系数corrcoef(x)返回矩阵相关系数矩阵,其中返回矩阵相关系数矩阵,其中x的每一行是一个观测值,的每一行是一个观测值,x的每一列是一个变量的每一列是一个变量corrcoef(x,y)返回向量返回向量x、y的相关系数的相关系数例如例如X=12345;1112357;24690;36979;109754;cov(X)ans=22.300017.9500-1.5500-3.50003.500017.950015.8000-0.4500-1.7500
7、4.7500-1.5500-0.45006.80002.75001.2500-3.5000-1.75002.75004.0000-3.00003.50004.75001.2500-3.000011.5000corrcoef(X)ans=1.00000.9563-0.1259-0.37060.21860.95631.0000-0.0434-0.22010.3524-0.1259-0.04341.00000.52730.1414-0.3706-0.22010.52731.0000-0.44230.21860.35240.1414-0.44231.0000 x=1,5,7,9,1,6;y=1,2,1
8、,5,2,1;cov(x,y,1)ans=8.80562.16672.16672.0000corrcoef(x,y)ans=1.00000.51630.51631.0000二、参数估计二、参数估计当总体分布的数学形式已知,且可以用有限个参数表示时,当总体分布的数学形式已知,且可以用有限个参数表示时,我们可以利用样本对参数进行估计,这便是参数估计我们可以利用样本对参数进行估计,这便是参数估计参数估计一般可分为点估计和区间估计参数估计一般可分为点估计和区间估计参数估计的方法:矩估计、最小二乘法和参数估计的方法:矩估计、最小二乘法和极大似然估计极大似然估计1二项分布的参数估计二项分布的参数估计MAT
9、LAB中由命令函数中由命令函数binofit来实现来实现调用格式调用格式p,pci=Binofit(x,N,alpha)其中其中p为参数,为参数,pci为为p的区间的端点,置信度为的区间的端点,置信度为1-alphax=6,8,9,4,6,7,9,3,7,5p,pci=binofit(x,10)p=0.60000.80000.90000.40000.60000.70000.90000.30000.70000.5000pci=0.26240.44390.55500.12160.26240.34750.55500.06670.34750.18710.87840.97480.99750.73760.
10、87840.93330.99750.65250.93330.81292正态分布的参数估计正态分布的参数估计MATLAB中由命令函数中由命令函数normfit来实现来实现调用格式调用格式m,s,mci,sci=normfit(x,alpha)例如例如m,s,mci,sci=normfit(x)m=6.4000s=2.0111mci=4.96147.8386sci=1.38333.67143指数分布的参数估计指数分布的参数估计MATLAB中由命令函数中由命令函数expfit来实现来实现调用格式调用格式mu,mci=expfit(x,alpha)x=0.15864.54071.54842.23690
11、.35670.84222.431112.36830.60992.51211.50480.72310.25240.94095.3809mu,mci=expfit(x,0.01)mu=2.4271mci=1.11544.3423例如例如4泊松分布的参数估计泊松分布的参数估计MATLAB中由命令函数中由命令函数poissfit来实现来实现调用格式调用格式Lamd,Lci=poissfit(x,alpha)三、假设检验三、假设检验假设检验是统计推断的基本问题之一。在总体的分布函假设检验是统计推断的基本问题之一。在总体的分布函数完全未知或只知其形式但不只参数的情况下,为了推数完全未知或只知其形式但不只参
12、数的情况下,为了推断总体的某些性质,提出某些关于总体的假设断总体的某些性质,提出某些关于总体的假设假设检验首先提出假设假设检验首先提出假设H0,然后检验这组数据是否支持,然后检验这组数据是否支持这个假设。根据这组数据计算检验统计量以及显著性概这个假设。根据这组数据计算检验统计量以及显著性概率(率(p值)。如果值)。如果p值很小,则所提出的假设是非常可疑值很小,则所提出的假设是非常可疑的,并提供否定这个假设的证据。伴随假设的,并提供否定这个假设的证据。伴随假设H0,总能写,总能写出备择假设出备择假设H1,备择假设也称对立假设,备择假设也称对立假设1已知时的检验(已知时的检验(z检验)检验)MAT
13、LAB中的中的z检验由命令函数检验由命令函数ztest来实现来实现调用格式调用格式H,p,ci,zval=ztest(x,m,s,a,t)说明说明x是样本值,是样本值,m是平均值的评判标准,是平均值的评判标准,s是已知的标准差,是已知的标准差,alpha是显著水平,默认值为是显著水平,默认值为0.05,t为备择假设选项,只为备择假设选项,只有三个值有三个值0,1和和1,其中,其中t=0表示表示“期望值不等于期望值不等于m”,t=1表示表示“期望值大于期望值大于m”,t=1表示表示“期望值小于期望值小于m”,t的默认值为的默认值为0。H=0表示表示“在显著性水平在显著性水平a的情况下,不能拒绝原
14、假设的情况下,不能拒绝原假设”。H=1表示表示“在显著性水平在显著性水平a的情况下,可以拒绝原假设的情况下,可以拒绝原假设”。P为显著性概率;为显著性概率;ci表示置信水平为表示置信水平为1a的置信区间。的置信区间。zval是检验统计量。是检验统计量。例如例如某糖厂用自动包装机将糖果装箱,已知规定每箱的某糖厂用自动包装机将糖果装箱,已知规定每箱的标准重量为标准重量为100公斤。设每箱重服从正态分布。由以往经公斤。设每箱重服从正态分布。由以往经验知重量的均方差为验知重量的均方差为0.9公斤。某天开工后检验包装机是公斤。某天开工后检验包装机是否正常,随机抽取该包装机所包装的否正常,随机抽取该包装机
15、所包装的9箱,称得净重为箱,称得净重为(公斤)(公斤)99.3,98.7,100.5,101.2,98.3,99.7,105.1,102.6,100.5。取。取a=0.05,问机器是否正常?,问机器是否正常?解解可设可设=0.9,xN(,0.92),提出假设,提出假设H0=0=100H1100 x=99.3,98.7,100.5,101.2,98.3,99.7,105.1,102.6,100.5h,p,ci,t=ztest(x,100,0.9,0.05,0)h=1p=0.0289ci=100.0676101.2435t=2.1852因此拒绝原假设因此拒绝原假设H0,即,即自自动包装机工作是不正
16、常的动包装机工作是不正常的2未知时的检验(未知时的检验(t检验)检验)MATLAB中的中的t检验由命令函数检验由命令函数ttest来实现来实现调用格式调用格式H,p,ci,tval=ttest(x,m,a,t)例如例如某电子元件的寿命某电子元件的寿命x(以小时计)服从正态分布,均(以小时计)服从正态分布,均未知。测得未知。测得16只元件的寿命为只元件的寿命为159280101212224379179264222362168250149260485170问是否有理由认为电子元件的平均寿命大于问是否有理由认为电子元件的平均寿命大于225(小时)(小时)?解解H00=225H1225x=159280
17、101212224379179264222362168250149260485170;h,p,ci,t=ttest(x,225,0.05,1)h=0p=0.2570ci=198.2321Inft=tstat:0.6685检验统计量检验统计量df:15自由度(自由度(n-1)因此不能拒绝原因此不能拒绝原假设,即可以假设,即可以认认为电子元件的平为电子元件的平均寿命不大于均寿命不大于225小时小时3两个正态总体均值差的检验(两个正态总体均值差的检验(t检验)检验)MATLAB中的由命令函数中的由命令函数ttest2来实现来实现调用格式调用格式H,p,ci,zval=ttest2(x,y,a,t)例
18、如例如在漂白工艺中要考察温度对针制品断裂强力的影响,在漂白工艺中要考察温度对针制品断裂强力的影响,在在70与与80下分别作了下分别作了7次和次和9次测试,其测试数据如下次测试,其测试数据如下(单位:公斤)(单位:公斤)70 20.518.820.921.519.521.621.88017.719.220.32018.61919.12018.1根据以往经验知两种温度下的断裂强力都服从正态分布,根据以往经验知两种温度下的断裂强力都服从正态分布,其方差相等且相互独立。试问两种温度下的平均断裂强力其方差相等且相互独立。试问两种温度下的平均断裂强力有无显著变化?有无显著变化?解解H01=2H112x=2
19、0.518.820.921.519.521.621.8;y=17.719.220.32018.61919.12018.1;h,p,ci,t=ttest2(x,y,0.05,0)h=1p=0.0085ci=0.46262.6294t=tstat:3.0606df:14四、回归分析四、回归分析回归分析是研究变量之间关系的一回归分析是研究变量之间关系的一种统计方法,即利用统计数据来寻种统计方法,即利用统计数据来寻求变量之间关系近似表达式(经验求变量之间关系近似表达式(经验公式),并利用所得公式进行统计公式),并利用所得公式进行统计描述、分析和推断,以解决预测、描述、分析和推断,以解决预测、优化和控制
20、问题。优化和控制问题。线性回归的变量之间的关系为线性回归的变量之间的关系为根据观测数据根据观测数据确定回归系数确定回归系数MATLAB中提供了多元线性回归函数中提供了多元线性回归函数regress调用格式调用格式b=regress(y,x,a)b,bint,r,rint,stats=regress(y,x,a)y为观察得到的随机变量,为观察得到的随机变量,x为自变量矩阵。若回归系数中为自变量矩阵。若回归系数中包含常数,则包含常数,则x的第一列应全部为的第一列应全部为1,y与与x的行数相等,的行数相等,x的列数等于回归系数的个数。的列数等于回归系数的个数。a为输出各种置信区间用的为输出各种置信区
21、间用的显著性水平。显著性水平。输出结果有输出结果有5项:项:b是参数的点估计;是参数的点估计;bint为参数的区间估计;为参数的区间估计;r为残差的点估计;为残差的点估计;rint为残差的区间估计,当点估计落在区间估计之外时,为残差的区间估计,当点估计落在区间估计之外时,拒绝无效假设;拒绝无效假设;stats中包含三个项中包含三个项:R2是回归方程的相关系数是回归方程的相关系数R的平方的平方;F是回归方程的是回归方程的F统计量,统计量,;P是拒绝无效假设的概率(显著性概率),当是拒绝无效假设的概率(显著性概率),当PF0.05(1,15),P远远小于远远小于a=0.05,说明回归方程的线性效果
22、显著。,说明回归方程的线性效果显著。预测预测首先计算首先计算1981到到1985年我国国民收入。年我国国民收入。x1=3372*(1,1,1,1,1*1.045).1,2,3,4,5)x1=3523.73682.33848.04021.24202.1利用回归方程可以得到相应各年的钢材消费量的预测值利用回归方程可以得到相应各年的钢材消费量的预测值y1=-460.5282+0.9840*x1y1=3006.83162.93325.93496.33674.4年份年份19811982198319841085钢钢材消材消费费量(万吨)量(万吨)3006.8 3162.93325.93496.33674.4