《实验12 统计推断.docx》由会员分享,可在线阅读,更多相关《实验12 统计推断.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学实验(统计推断)郭明钊 化21 2012011880一、 身高体重问题1、 问题分析:题目中给出了原始的样本数据,根据这些数据就可以方便地利用matlab的命令进行计算分析。第一问中,可以用直方图进行直观的图形描述,而检验分布的正态性则可以用Jarque-Bera检验和Lilliefors检验;第二问要求对平均身高和体重做出估计,并给出误差范围,而所做的估计就是身高的平均值和方差,体重的平均值和方差,而误差范围就是要做区间估计,那么鉴于第一问中已经验证了分布的正态性,那么就可以用命令mu sigma muci sigmaci=normfit(x,alpha)给出估计值和区间估计;第三问要分
2、析学生的身高体重是否有明显变化,这是进行是否的检验,那么这是在总体方差未知的情况下,要用到h,sig,ci=ttest(x,mu,alpha,tail)命令进行分析。2、 建立模型matlab实现:鉴于以上的分析,在matlab中输入以下内容x=172 75 169 55 169 64 171 65 167 47; 171 62 168 67 165 52 169 62 168 65; 166 62 168 65 164 59 170 58 165 64; 160 55 175 67 173 74 172 64 168 57; 155 57 176 64 172 69 169 58 176 5
3、7; 173 58 168 50 169 52 167 72 170 57; 166 55 161 49 173 57 175 76 158 51; 170 63 169 63 173 61 164 59 165 62; 167 53 171 61 166 70 166 63 172 53; 173 60 178 64 163 57 169 54 169 66; 178 60 177 66 170 56 167 54 169 58; 173 73 170 58 160 65 179 62 172 50; 163 47 173 67 165 58 176 63 162 52; 165 66 17
4、2 59 177 66 182 69 175 75; 170 60 170 62 169 63 186 77 174 66; 163 50 172 59 176 60 166 76 167 63; 172 57 177 58 177 67 169 72 166 50; 182 63 176 68 172 56 173 59 174 64; 171 59 175 68 165 56 169 65 168 62; 177 64 184 70 166 49 171 71 170 59;high=x(:,1) x(:,3) x(:,5) x(:,7) x(:,9);weigh=x(:,2) x(:,4
5、) x(:,6) x(:,8) x(:,10);n1,y1=hist(high,10)figure(1)hist(high,10) %身高直方图gtext(身高直方图)n2,y2=hist(weigh,5)figure(2)hist(weigh,5) %体重直方图gtext(体重直方图)h11=jbtest(high) h12=lillietest(high)h21=jbtest(weigh)h22=lillietest(weigh) %分布的正态性检验mu1,sigma1,muci1,sigmaci1=normfit(high,0.05)mu2,sigma2,muci2,sigmaci2=n
6、ormfit(weigh,0.05) %估计均值与方差,并进行区间估计h1,sig1,ci1=ttest(high,167.5)h2,sig2,ci2=ttest(weigh,60.2) %假设检验所的结果如下:(1) 直观描述:身高体重的直方图为其中身高直方图的频数行向量为n1 =2 3 6 18 26 22 11 8 2 2区间中点行向量y1=156.5500 159.6500 162.7500 165.8500 168.9500 172.0500 175.1500 178.2500 181.3500 184.4500体重直方图频数行向量为n2 =14 29 32 16 9区间中点行向量y
7、2 =50 56 62 68 74还得到h11=0,h12=0 ;h21=0,h22=0 验证了分布的正态性。(2) 对于平均身高和体重的估计,以及误差范围如下(3) 假设检验得到以下结果:h1 =1sig1 =1.7003e-006ci1 = 169.1782 171.3218h2 =0sig2 = 0.1238ci2 =59.9023 62.6377即身高有较明显的变化,体重没有明显的变化。3、 问题小结:这道题目练习了正态分布的检验,参数估计和区间估计,以及假设检验,包含的点还是比较全面的,这使我熟悉了对matlab相关命令的调用,以及各个参数的含义,并加深了对于统计推断的理解。二、 测
8、验问题1、 问题分析:由于数据表中每列两次的测验成绩都是出自同一个人,所以题目所给的两组数据不能作为两个相互独立的样本,这样就不能直接利用ttest2计算,不过可以对两组数据进行作差得到一组新的数据进行假设检验。2、 模型的建立与matlab实现基于上述的分析,可以记其中为两次测验成绩作差得到的新的数据的总体的均值。先对得到的新的数据进行分布的正态性检验,如果其分布为正态的那么就可以用ttest命令进行假设检验。在matlab中输入以下内容:x1=93 85 79 90 78 76 81 85 88 68 92 73 88 84 90 70 69 83 83 85;x2=88 89 86 85
9、 87 88 75 93 88 78 86 86 80 89 85 79 78 88 88 90;x=x1-x2h1=jbtest(x) %Jarque-Bera检验h2=lillietest(x) %Lilliefors检验normplot(x) %作图法正态性检验h,sig,ci=ttest(x,0) %如果符合正态分布,进行假设检验得到结果如下:x =5 -4 -7 5 -9 -12 6 -8 0 -10 6 -13 8 -5 5 -9 -9 -5 -5 -5h1=0 通过了Jarque-Bera检验h2=1 没有通过Lilliefors检验作图法检验得到的结果为直观地看,勉强可以将得到
10、数组看做符合正态分布,那么得到的假设检验结果为h =1sig =0.0428ci = -6.4818 -0.1182 即拒绝了原假设,说明两次测验的难度不同,且由ci给出的置信区间-6.4818,-0.1182得知第二次的难度要大一些。3、 问题小结:这道题目仅仅检验两数组的均值是否相等是不行的,因为这两组数并不是独立的,这就需要转化一下将其转化为可以进行假设检验的形式,这里用了作差的方法,或许作商也是可行的。此次的所给的数据作差后的结果并不是十分符合正态分布,这里为了处理的简便将其当做了正态分布进行处理,但这不是十分的严格,或许应该进行更深入地探讨,并利用其他的一些方法进行检验,但由于水平所
11、限也没能实现。三、 男女生身高问题1、 问题分析与模型的建立:表12.10给出的中日青少年的身高资料是各年龄段的身高平均值和标准差,而不是原始数据,所以不能直接用matlab命令ttest2计算,我们转而在中日青少年两个群体身高均服从正态分布的假设下,利用12.3.3节(21)式的t检验进行计算。但在此题目中各年龄段的统计数量未知,所以要先设定样本容量,样本容量越大,数据的均值和方差越接近真实母体的均值和方差,在此题目中设定中国青少年每一组数据样本容量设为10000。日本青少年每组样本容量设为5000。2、 matlab实现:首先要自编程序,以两个样本的均值(xbar,ybar)、标准差(s1
12、,s2)和容量(m,n)为输入参数,编写一个名为pttest2.m的函数M文件(包括双侧和单侧检验,标识tail的用法和ztest相同,所有参数不能省略)。首先建立函数M文件如下:%两个总体均服从正态分布,且两个未知方差相等的假设下,利用t检验:%两个样本的均值(xbar,ybar)、标准差(s1,s2)和容量(m,n)为输入参数%(包括双侧和单侧检验,标识tail的用法与ztest相同,所有输入参数不可省略) function h,sig=pttest2(xbar,ybar,s1,s2,m,n,alpha,tail)spower=(m-1)*s12+(n-1)*s22)/(m+n-2);t=
13、(xbar-ybar)/sqrt(spower/m+ spower/n);if tail=0 a=tinv(1-alpha/2,m+n-2); sig =2*(1-tcdf(abs(t),m+n-2); if abs(t)=a h=0; else h=1; endendif tail=1 a=tinv(1-alpha,m+n-2); sig =1-tcdf(t,m+n-2); if t=a h=0; else h=1; endend首先计算验证男生的身高,输入以下内容:clc;clear all;xbar=124.5 129.4 134.6 139.3 145.1 151.2 160.0 16
14、5.1 168.3 170.1 171.0 170.8;ybar=122.5 128.1 133.4 138.9 144.9 152.0 159.6 165.1 168.5 170.0 170.8 171.1;s1=5.7 5.6 6.0 6.6 7.2 8.1 8.0 7.0 6.3 6.3 6.0 5.8;s2=5.4 5.5 5.4 5.9 6.7 7.8 7.6 6.8 6.2 5.9 6.0 5.9;alpha=0.05;tail=0;m=10000;n=5000;a=zeros(1,12);b=zeros(1,12);for i=1:12 h,sig=pttest2(xbar(i)
15、,ybar(i),s1(i),s2(i),m,n,alpha,tail); a(i)=h; b(i)=sig;endab执行该程序之后,得到的结果可以整理成如下表格接着再验证女生的身高,所用程序相同,只是改一下各组身高的数据输入以下内容: clc;clear all;xbar=123.4 128.4 134.3 140.0 146.7 152.5 156.3 157.7 158.9 159.3 159.3 159.1;ybar=121.8 127.6 133.5 140.2 146.7 151.9 155.1 156.7 157.4 157.9 158.1 158.2;s1=5.4 5.5 6
16、.2 6.9 7.0 6.6 6.0 5.5 5.6 5.4 5.4 5.3;s2=5.4 5.7 6.3 6.6 6.7 6.2 5.4 5.2 5.0 5.3 5.0 5.1;alpha=0.05;tail=0;m=10000;n=5000;a=zeros(1,12);b=zeros(1,12);for i=1:12 h,sig=pttest2(xbar(i),ybar(i),s1(i),s2(i),m,n,alpha,tail); a(i)=h; b(i)=sig;endab所的结果整理为以下表格:结合对男生和女生身高的检验,可以整理得到以下结果3、 问题小结:这道题目本质上和课本中的吸烟对血压影响的例题十分的相似,都是没有给出初始的数据,需要自己编写函数运算,通过函数的编写更能深刻地了解假设检验的原理公式。而与例题所不同的只是本题中没有明确地告诉样本的容量,那么样本容量的设定就成了本题的解题关键,样本容量设定不同得到的检验结果就可能不相同。样本容量越大,均值与方差越接近总体的均值方差的真实值。