《数理统计的基本知识概要.pptx》由会员分享,可在线阅读,更多相关《数理统计的基本知识概要.pptx(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、引言 到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.第1页/共43页 数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.引言第2页/共43页 数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.
2、由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.但在客观上只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.引言第3页/共43页数理统计方法具有“部分推断整体”的特征.引言数理统计的基本思想:从所要研究对象的全体中,抽取一小部分进行观测或试验。以取得信息,从而对整体做出推断。每个推断必须伴随一定的概率,以表明推断的可靠性。(数理推断)数理统计的基本任务:以大数定律、中心极限定理为理论基础,根据实际掌握的部分信息对有关主体试验的分布、数字特征做出估计并加以检验的数理推断。第4页/共
3、43页 一个统计问题总有它明确的研究对象.1.总体研究对象的全体称为总体(母体),总体中所包含的个体的个数称为总体的容量.总体中每个成员称为个体,总体有限总体无限总体一、总体和样本第5页/共43页 在数理统计研究中,人们往往研究有关对象的某一项(或几项)数量指标和.为此,对这一指标进行随机试验,观察试验结果全部观察值,从而考察该数量指标的分布情况.这时,每个具有的数量指标的全体就是总体.每个数量指标就是个体.某批灯泡的寿命该批灯泡寿命的全体就是总体国产轿车每公里的耗油量国产轿车每公里耗油量的全体就是总体一、总体和样本第6页/共43页因此在理论上可以把总体与概率分布等同起来.由于每个个体的出现是
4、随机的,所以相应的数量指标的出现也带有随机性.从而可以把这种数量指标看作一个随机变量X,因此随机变量X的分布就是该数量指标在总体中的分布.总体就可以用一个随机变量及其分布来描述.一、总体和样本第7页/共43页 例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示.某批灯泡的寿命总体 寿命 X 可用一概率(指数)分布来刻划一、总体和样本F(x)第8页/共43页 类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X 和Y 分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数 F(x,y)来
5、表示.统计中,总体这个概念 的要旨是:总体就是一个随机变量或概率分布.一、总体和样本第9页/共43页 总体分布一般是未知,或只知道是包含未知参数的分布,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.2.样本从国产轿车中抽5辆进行耗油量试验样本容量为5抽到哪5辆是随机的一、总体和样本第10页/共43页 一旦取定一组样本X1,,Xn ,得到n个具体的数(x1,x2,xn),称为样本的一次观察值,简称样本值.n称为这个样本的容量.1.代表性:X1,X2,Xn中每一个与
6、所考察的总体有 相同的分布.2.独立性:X1,X2,Xn是相互独立的随机变量.一、总体和样本第11页/共43页一、总体和样本 简单样本是一种理想化的样本.如何才能得到简单样本呢?对于有限总体,若采用有放回抽取,则可得到简单样本;若采用无放回抽取,则无法保证每次抽取的独立性,但若有限总体容量较样本容量很大时,无放回抽取与有放回抽取区别很小,亦可采用无放回抽取得到简单样本.对于无限总体,抽取部分个体后放回与否对总体成分影响不大,因此可采用不放回抽取获得简单样本.第12页/共43页 简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本
7、.=F(x1)F(x2)F(xn)若总体的分布函数为F(x)、概率密度函数为f(x),则其简单随机样本的联合分布函数为其简单随机样本的联合概率密度函数为=f(x1)f(x2)f(xn)一、总体和样本第13页/共43页解:例1一、总体和样本第14页/共43页解:例2一、总体和样本第15页/共43页一、总体和样本第16页/共43页 事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本.我们只能观察到随机变量取的值而见不到随机变量.3.总体、样本、样本值的关系一、总体和样本第17页/共43页总体(理论分布)?样本 样本值
8、统计是从手中已有的资料-样本值,去推断总体的情况-总体分布F(x)的性质.总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.样本是联系二者的桥梁一、总体和样本第18页/共43页例3 为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,求随机变量X的分布状况.87 88111 91 73 70 92 98105 94 99 91 98110 98 97 90 83 92 88 86 94102 99 89104 94 94 92 96 87 94 92 86102 88
9、 75 90 90 80 84 91 82 94 99102 91 96 94 94 85 88 80 83 81 69 95 80 97 92 96109 91 80 80 94102 80 86 91 90 83 84 91 87 95 76 90 91 77103 89 88 85 95 92104 92 95 83 86 81 86 91 89 83 96 86 75 92 二、分布密度的近似求法第19页/共43页1.找出数据中最小值m=69,最大值M=111,极差为 M-m=422.数据分组,根据样本容量n的大小,决定分组数k。一般规律 30n40 5k6 40n60 6k8 60n
10、100 8k10 100n500 10k20二、分布密度的近似求法方法:整理原始数据,加工为分组资料,作出频率分布方法:整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息表,画直方图,提取样本分布特征的信息.步骤如下:步骤如下:第20页/共43页 一般采取等距分组(也可以不等距分组),本例取k=9.本例测量单位为1厘米,组距为 二、分布密度的近似求法组距=极差/组数第21页/共43页3确定组限和组中点值。注意:组的上限与下限应比数据多一位小数。当取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:一般根据:各组中点值 组
11、距=组的上限或下限67.5,72.5)72.5,77.5)77.5,82.5)82.5,87.5)87.5,92.5)92.5,97.5)97.5,102.5)102.5,107.5)107.5,112.5)组中值分别为:70 75 80 85 90 95 100 105 110二、分布密度的近似求法第22页/共43页组序组序区间范围区间范围频数频数fj频率频率Wj=fj/n累计频率累计频率Fj167.5,72.5)20.020.02272.5,77.5)50.050.07377.5,82.5)100.100.17482.5,87.5)180.180.35587.5,92.5)300.30.6
12、5692.5,97.5)180.180.83797.5,102.5)100.10.938102.5,107.5)40.040.979107.5,112.5)30.031.004将数据分组,计算各组频数,作频数、频率分布表第23页/共43页二、分布密度的近似求法5.作出频率直方图以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以 为高 作小矩形.第24页/共43页作频率直方图 二、分布密度的近似求法第25页/共43页 从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势,随机变量分布状况的最粗略的信息.在频率直方图中,每个矩形面积恰好等于样本值
13、落在该矩形对应的分组区间内的频率,即 频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况.二、分布密度的近似求法第26页/共43页三、分布函数的近似求法即 不大于x的观察值的频率.第27页/共43页三、分布函数的近似求法第28页/共43页三、分布函数的近似求法例4 抽取了某企业10个月的盈利额(单位:万元)3.2 2.5 -4 2.5 0 3 2 2.5 4 2设X为月盈利额,求X的经验分布函数并画图.解:将样本值由小到大排列为-4 0 2=2 2.5=2.5=2.5 3 3.2 4则其经验分布函数为第29页/共43页三、分布函数的近似求法第3
14、0页/共43页三、分布函数的近似求法 对于任何实数x,等于在n次重复独立试验中事件 的频率,由频率与概率的关系知,可作为总体X的分布函数F(x)的近似,且当样本容量充分大时,几乎为F(x).若总体X是离散型,图形呈跳跃上升的阶梯曲线(累计频率曲线),若观察值不重复,则每次跳跃高度是1/n,若观察值有重复,则按重复次数的1/n倍跳跃.若总体是连续型,只要大致连接各阶梯中点即可.第31页/共43页 由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.1.统计量 这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.四
15、、统计量第32页/共43页定义例四、统计量未知,为来自X的样本,则是统计量,不是统计量.第33页/共43页注意:四、统计量1.统计量是关于样本的n元函数,且不含未知参数;2.当样本 未取值时,统计量是一函数,当样本 取某组数值时,统计量为一数值.第34页/共43页2.顺序统计量四、统计量第35页/共43页四、统计量例5 设总体X的一组观察值为 2 3 2 4 10 13 8 8求极差和中位数.解:将观察值由小到大排列R=13-2=112=2 3 4 8=8 10 13 第36页/共43页样本均值它反映了总体均值的信息样本方差它反映了总体方差的信息样本标准差 3.样本的数字特征四、统计量第37页/共43页它反映了总体k 阶矩的信息样本k阶原点矩样本k阶中心矩 k=1,2,它反映了总体k 阶中心矩的信息四、统计量 k=1,2,特别,样本均值样本方差第38页/共43页四、统计量样本修正方差当样本容量n较大时,可认为二者无区别.第39页/共43页统计量的观察值四、统计量第40页/共43页四、统计量样本均值和方差具有下列性质:第41页/共43页四、统计量例6 计算下列样本值的均值和修正方差 410 370 420 360 440解:设则从而第42页/共43页感谢您的观看!第43页/共43页