《第九讲MATLAB基本统计分析.ppt》由会员分享,可在线阅读,更多相关《第九讲MATLAB基本统计分析.ppt(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、随机变量随机变量名称名称MATLAB密度函数密度函数随机变量随机变量名称名称MATLAB密度函数密度函数Beta分布分布betapdf标准正态分布标准正态分布normpdf二项分布二项分布binopdf泊松分布泊松分布poisspdf卡方分布卡方分布chi2pdf瑞利分布瑞利分布raylpdf指数分布指数分布exppdfT分布分布tpdfF分布分布fpdf均匀分布均匀分布unifpdf伽马分布伽马分布gampdfWeibull分布分布weibpdf几何分布几何分布geopdf非中心非中心F分布分布ncfpdf超几何分布超几何分布hygepdf非中心非中心T分布分布nctpdf对数正态分布对数正
2、态分布lognpdf非中心卡方布非中心卡方布ncx2pdf 如果将上述命令中的后缀如果将上述命令中的后缀pdf分别改为分别改为cdf,inv,rnd,stat 就得到相应就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差的随机变量的分布函数、分位数、随机数的生成以及均值与方差.一一.随机变量与分布随机变量与分布第九讲第九讲 数据的基本统计分析数据的基本统计分析 我们利用我们利用MATLAB中的函数来计算正态分布的分中的函数来计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、分位数布函数、概率密度函数值、做出密度函数曲线、分位数.在在MATLAB中计算上述分布函数的命令为
3、:中计算上述分布函数的命令为:P=NORMCDF(x,mu,sigma)Default values for MU and SIGMA are 0 and 1 respectively.例例1 已知已知 试求:试求:解:解:normcdf(3,2,0.5)=0.9772;normcdf(2,2,0.5)-normcdf(1,2,0.5)=0.4772 1.计算分布函数与概率密度函数值计算分布函数与概率密度函数值:2.做出密度函数曲线、求分位数做出密度函数曲线、求分位数已知已知X的均值和标准差及概率的均值和标准差及概率p=PXx,求求x的命令为的命令为:X=NORMINV(P,MU,SIGMA)
4、例例2.XN(1,0.04),pXx=0.6827 求求x解:解:x=norminv(0.6827,1,0.2)=1.0951 NORMSPEC(a,b,MU,SIGMA)用于做出随机变量在区间用于做出随机变量在区间a,b上的正态密度曲线上的正态密度曲线例例3.若若XN(2,4),作出,作出X在在-1,3上的曲线上的曲线解:解:normspec(-1,3,2,2)图形如右图所示图形如右图所示(图图7.1)二二.数据特征数据特征 设设 是取自总体是取自总体X的一个简单随机样本,的一个简单随机样本,在在n次抽样以后得到样本的一组观测值次抽样以后得到样本的一组观测值 我我们通过对数据的分析研究可以得
5、到总体们通过对数据的分析研究可以得到总体X的有关信息,的有关信息,在在MATLAB中有专门的函数分析数据特征,如下表所中有专门的函数分析数据特征,如下表所示示.位置特征位置特征MATLAB函函数数变异特征变异特征MATLAB函数函数算术平均算术平均mean极差极差range中位数中位数median方差方差var切尾平均切尾平均trimmean标准差标准差std几何平均几何平均geomean四分位极差四分位极差iqr调和平均调和平均harmmean平均绝对偏差平均绝对偏差mad 例例4.已知数据:已知数据:459 362 624 542 509 584 433 748 815 505 612 4
6、52 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496
7、468 499 544 645 764 558 378 765 666 763 217 715 310 851计算该数据特征计算该数据特征.解:解:a=459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837
8、 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;b=a(:);%将矩阵变成数列将矩阵变成数列T=mean(b),median(b),trimmean(b,10),geomean(b),harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)位置特征位置特
9、征计算结果计算结果变异特征变异特征计算结果计算结果算术平均算术平均600极差极差1069中位数中位数599.5方差方差38663.03切尾平均切尾平均600.64标准差标准差196.629几何平均几何平均559.68四分位极差四分位极差243.5调和平均调和平均499.06平均绝对偏差平均绝对偏差150.86计算结果如下:计算结果如下:例例5.已知数据:已知数据:1,1,1,1,1,1,100;计算其数;计算其数据特征,由此你有何发现?据特征,由此你有何发现?解:解:x=1,1,1,1,1,1,100;y=mean(x),median(x),geomean(x),harmmean(x),tri
10、mmean(x,25);range(x),var(x),std(x),iqr(x),mad(x)计算结果为:计算结果为:y=15.143 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245 如果例如果例5的数据全部为的数据全部为1,则各种平均值都应等于,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是数、切尾平均与四分位极差没有改变,它们对异常值是稳健
11、的稳健的.三三.异常值的判别异常值的判别 在探索性数据分析时,有一种判别异常值的简单在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的下、上截断点,数据中小于下截方法,首先计算数据的下、上截断点,数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值二者都是异常值.1.数据的下、上截断点数据的下、上截断点计算上、下截断点的公式如下:计算上、下截断点的公式如下:其中,其中,R为四分位极差,为四分位极差,分别称为下四分位数与分别称为下四分位数与上四分位数上四分位数.对于对于0p0时称正偏,当时称正偏,当s3则表明数则
12、表明数据分布有较厚的尾部据分布有较厚的尾部.变异系数用于刻画数据的变化大小,不同指标的变变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重异系数常用来计算客观性权重.例例7.下表给出了下表给出了15种资产的收益率种资产的收益率ri(%)和风险损失和风险损失率率qi(%),计算峰度与偏度,计算峰度与偏度.Siri(%)qi(%)Siri(%)qi(%)S19.642S933.653.3S218.554S1036.840S349.460S1111.831S423.942S1295.5S58.11.2S133546S61439S149.45.3S740.768S151523S83
13、1.233.4解:解:x=9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15;y=42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23;sx=skewness(x)=0.4624,kx=kurtosis(x)=1.8547,sy=skewness(y)=-0.4215,ky=kurtosis(y)=2.2506从计算结果可知:收益率是正偏,而风险损失率为负偏;从计算结果可知:收益率是正偏,而风险损失率为负偏;二者峰度都小于二者峰度都小于3属于平阔峰属于平阔峰.五五.直方图
14、与概率纸检验函数直方图与概率纸检验函数1.直方图:直方图:为了直观地了解随机变量的分布特征,如对称性,为了直观地了解随机变量的分布特征,如对称性,峰值等,直方图是广泛使用的方法峰值等,直方图是广泛使用的方法.格式:格式:hist(data,k).说明:说明:data是原始数据,该命令将区间是原始数据,该命令将区间(min(data),max(data)分成分成k等份,并描绘出频数直方图,等份,并描绘出频数直方图,k的缺省的缺省值为值为10.如果需要事先给出小区间,则将区间的中点存放在向如果需要事先给出小区间,则将区间的中点存放在向量量nb然后用命令:然后用命令:n,x=hist(data),或
15、或n,x=hist(data,k),或或n,x=hist(data,nb),其中,其中,n返回返回k个小区间的频数,个小区间的频数,x返回小区间的中点返回小区间的中点.2.MATLAB中的概率纸检验函数中的概率纸检验函数.格式:格式:normplot(data)%如果数据如果数据data服从正态分布,服从正态分布,则做出的图形基本上都位于一条直线上则做出的图形基本上都位于一条直线上.weibplot(data)%如果数据如果数据data服从威布尔分布,则服从威布尔分布,则做出的图形基本上都位于一条直线上,做出的图形基本上都位于一条直线上,例例8.作出例作出例4 数据的直方图,该数据服从正态分布
16、还数据的直方图,该数据服从正态分布还是威布尔分布?是威布尔分布?解:输入命令解:输入命令hist(a(:),30)得到图得到图7.2 从图从图7.2所示的直方图发现数据比较接近于正态分布,所示的直方图发现数据比较接近于正态分布,我们用命令我们用命令normplot(a(:)进行检验进行检验.从图从图7.3 中可见数据点基本上都位于直线上,故可认中可见数据点基本上都位于直线上,故可认为该数据服从正态分布,由于已经计算出该数据的均值为该数据服从正态分布,由于已经计算出该数据的均值为为600,标准差为,标准差为196.629,所以数据服从,所以数据服从 图图7.2图图7.3正态分布的检验:正态分布的
17、检验:1.大样本大样本h=jbtest(x),h=0,接受正态分布,接受正态分布,h=1拒绝正态分布拒绝正态分布2.小样本小样本h=lillietest(x),h=0,接受正态分布,接受正态分布,h=1拒绝正态分布拒绝正态分布作业:作业:1.根据下表计算七项指标的均值、方差、偏度与峰度根据下表计算七项指标的均值、方差、偏度与峰度表表7.6 各地区各地区“三资三资”工业企业主要经济效益指标(工业企业主要经济效益指标(2001年)年)工业增工业增加值率加值率总资产总资产贡献率贡献率资产资产负债率负债率流动资产流动资产周转次数周转次数成本费用成本费用全员劳动全员劳动生产率生产率产品产品销售率销售率(
18、次次/年年)利润率利润率(元元/人人/年年)全全 国国26.199.8354.871.895.857591397.64北京北京22.4212.2359.972.015.6313288797.94天津天津23.7511.1750.531.898.159734299.01河北河北28.808.1962.901.675.505080198.07山西山西34.554.7568.801.480.507291094.50内蒙古内蒙古30.528.2343.410.887.2562099100.88辽宁辽宁26.708.3250.321.915.028277996.70吉林吉林29.4625.2952.29
19、2.6513.7516123396.52黑龙江黑龙江31.946.5570.181.003.407514392.41上海上海26.2310.4348.391.687.0912231099.16江苏江苏25.0710.0657.532.055.238888397.66浙江浙江23.8011.2555.092.006.685601697.01安徽安徽31.659.2756.431.735.648146098.97福建福建26.927.2454.601.983.935581696.79江西江西27.539.2758.141.604.095225698.03山东山东29.6311.2357.062.0
20、46.236375597.36湖南湖南33.089.4755.591.248.298028796.43工业增工业增加值率加值率总资产总资产贡献率贡献率资产资产负债率负债率流动资产流动资产周转次数周转次数成本费用成本费用全员劳动全员劳动生产率生产率产品产品销售率销售率(次次/年年)利润率利润率(元元/人人/年年)湖北湖北35.3210.4757.391.856.5010363898.00河南河南29.2610.8354.061.727.117309098.67广东广东25.368.8856.412.034.996416197.28广西广西30.489.6456.081.506.736337196
21、.34海南海南25.286.4455.141.283.105959391.59重庆重庆31.3810.0845.141.525.6310649196.64四川四川31.848.6156.741.506.668637997.13贵州贵州30.572.1761.900.802.363562298.56云南云南32.109.9748.351.3011.698625596.88西藏西藏50.00NAN30.000.33NAN5000150.00陕西陕西33.6212.9355.831.2913.5913876896.99甘肃甘肃28.575.1363.651.112.026769799.86青海青海2
22、0.9611.6650.511.8818.289416795.92宁夏宁夏33.473.6261.151.08-3.006171491.12新疆新疆29.556.1159.390.957.087000094.252.计算各地区之间的协方差阵与相关系数矩阵计算各地区之间的协方差阵与相关系数矩阵 3.某班级考试成绩如下,计算均值、方差、偏度与峰某班级考试成绩如下,计算均值、方差、偏度与峰度,做出直方图并检验有无异常值,该班级的考试成度,做出直方图并检验有无异常值,该班级的考试成绩是否服从正态分布?绩是否服从正态分布?66,85,82,56,84,87,77,83,70,89,71,81;35,79,90,70,96,93,72,91,55,91,81,70;97,88,64,67,84,55,77,86,84,19,82,94;73,38,77,96,89,92,76,85,40,42,91,91;56,80,90,84,56,26,66,73,88,90,15,70