《数理统计与随机过程参数估计精品文稿.ppt》由会员分享,可在线阅读,更多相关《数理统计与随机过程参数估计精品文稿.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数理统计与随机过程数理统计与随机过程参数估计参数估计第1页,本讲稿共39页非正态总体非正态总体的区间估计的区间估计 第2页,本讲稿共39页7.6 非正态总体非正态总体的区间估计的区间估计 前前面面两两节节讨讨论论了了正正态态总总体体分分布布参参数数的的区区间间估估计计。但但是是在在实实际际应应用用中中,我我们们有有时时不不能能判判断断手手中中的的数数据据是是否否服服从从正正态态分分布布,或或者者有有足足够够理理由由认认为为它它们们不不服服从从正正态态分分布布。但但是是,只只要要样样本本大大小小 n 比比较较大大,总总体体均均值值 的的置置信区间仍可用正态总体情形的公式信区间仍可用正态总体情形的
2、公式 或或2已知时已知时2未知时未知时第3页,本讲稿共39页所不同的是:所不同的是:这时的这时的置信区间是近似的置信区间是近似的。这是求一般总体均值的一种简单有效的方法,这是求一般总体均值的一种简单有效的方法,其理论依据是其理论依据是中心极限定理中心极限定理,它要求样本大小,它要求样本大小 n 比较大比较大。因此,这个方法称为。因此,这个方法称为大样本方法大样本方法。设总体均值为设总体均值为,方差为方差为2,X1,X2,Xn 为来自总体的样本。因为这些样本为来自总体的样本。因为这些样本独立同分布的独立同分布的,根据根据中心极限定理中心极限定理,对充分大的,对充分大的 n,下式近似成下式近似成立
3、立第4页,本讲稿共39页因而,因而,近似地近似地有有 于是,于是,的置信系数约为的置信系数约为1-的置信区间为的置信区间为当2未知时,未知时,用用2的估计的估计S2 来代替来代替2,得,得第5页,本讲稿共39页只要只要 n 很大,很大,(2)式所提供的置信区间在应用上是式所提供的置信区间在应用上是令人满意的。令人满意的。那么,那么,n 究竟多大才算很大呢?究竟多大才算很大呢?显然,对于相同的显然,对于相同的 n,(2)式所给出的置信区式所给出的置信区间的近似程度随总体分布与正态分布的接近程度而间的近似程度随总体分布与正态分布的接近程度而变化变化,因此,因此,理论上很难给出理论上很难给出 n 很
4、大的一个界很大的一个界限限。但许多应用实践表明:但许多应用实践表明:当当 n30时,时,近似程度近似程度是是可以接受可以接受的;的;当当 n50时,时,近似程度近似程度是是很好很好的。的。第6页,本讲稿共39页例例1:某公司欲估计自己生产的电池寿命。现从其产品中某公司欲估计自己生产的电池寿命。现从其产品中随机抽取随机抽取 50 只电池做寿命试验。这些电池寿命的平均值只电池做寿命试验。这些电池寿命的平均值为为 2.261 (单位:单位:100小时小时),标准差,标准差 S=1.935。求该公司生产。求该公司生产的电池平均寿命的置信系数为的电池平均寿命的置信系数为 95%的置信区间。的置信区间。解
5、:解:查正态分布表,得查正态分布表,得 z/2=z0.025=1.96,由公式,由公式(2),得电池,得电池平均寿命的置信系数为平均寿命的置信系数为 95%的置信区间为的置信区间为第7页,本讲稿共39页 设事件设事件 A 在一次试验中发生的概率为在一次试验中发生的概率为 p,现在现在做做 n 次试验,以次试验,以Yn记事件记事件 A 发生的次数发生的次数,则则 Yn B(n,p)。依。依中心极限定理中心极限定理,对充分大的,对充分大的 n,近似地有,近似地有 7.6.1 二项分布二项分布 (3)式是式是(1)式的特殊情形。式的特殊情形。第8页,本讲稿共39页 (4)式就是式就是二项分布二项分布
6、参数参数 p 的置信系数约为的置信系数约为1-的置信区间的置信区间。例例2:商品检验部门随机抽查了某公司生产的产品商品检验部门随机抽查了某公司生产的产品100件,发现其中合格产品为件,发现其中合格产品为84件,试求该产品合格率的置件,试求该产品合格率的置信系数为信系数为0.95的置信区间。的置信区间。解:解:n=100,Yn=84,=0.05,z/2=1.96,将这些结果将这些结果代入到代入到(4)式,得式,得 p 的置信系数为的置信系数为0.95的近似置信区的近似置信区间为间为 0.77,0.91。第9页,本讲稿共39页7.6.2 泊松分布泊松分布 设设 X1,X2,Xn 为抽自具有泊松分布
7、为抽自具有泊松分布P()的总体的总体的样本,因为的样本,因为 E(X)=D(X)=,由:第11页,本讲稿共39页例例4:公共汽车站在一单位时间内公共汽车站在一单位时间内(如半小时如半小时,或或1小时小时,或一或一天等天等)到达的乘客数服从泊松分布到达的乘客数服从泊松分布 P(),对不同的车站对不同的车站,不同的仅是参数不同的仅是参数 的取值不同。的取值不同。现对某城市某公共汽车站进行现对某城市某公共汽车站进行100个单位时间的调查。这里个单位时间的调查。这里单位时间是单位时间是20分钟。计算得到每分钟。计算得到每 20 分钟内来到该车站的乘分钟内来到该车站的乘客数平均值为客数平均值为 15.2
8、 人。试求参数人。试求参数 的置信系数为的置信系数为95%的置信的置信区间。区间。解解:n=100,=0.05,z/2=1.96,将这些结果代入将这些结果代入到到(5)式式,得得 的置信系数为的置信系数为0.95的近似置信区间为的近似置信区间为 14.44,15.96。第12页,本讲稿共39页要对非正态分布的参数进行区间估计,主要需要哪些条件?第13页,本讲稿共39页14第14页,本讲稿共39页第15页,本讲稿共39页参数估计参数估计参数估计参数估计:样本的样本的概率密度函数概率密度函数P P(x x,i i)的的形式形式已知已知,去,去推推断断概率密度函数中的概率密度函数中的某些未知的参数某
9、些未知的参数 i i。非参数估计非参数估计非参数估计非参数估计:样本的样本的概率密度函数概率密度函数P P(x x ,i i)的的形式未知形式未知,去去推断推断概率密度函数概率密度函数。参数估计参数估计的两种类型的两种类型第16页,本讲稿共39页当密度函数的形式未知时,只能用当密度函数的形式未知时,只能用非参数方法。它能处理它能处理任意的概率分布。在在参数估计中中,密度函数的密度函数的参数形式是单模的 (单单个局部极大值个局部极大值),然而在现实中,所遇到的却常常,然而在现实中,所遇到的却常常是是多模的情况。的情况。第17页,本讲稿共39页基于基于直方图直方图的的概率密度估计概率密度估计就是一
10、种典型的非参数估计就是一种典型的非参数估计最简单的非参数估计最简单的非参数估计第18页,本讲稿共39页基本思想基本思想:设有样本设有样本x x的概率密度函数为的概率密度函数为 p(x),则,则x x 落在区域落在区域 R 中中的概率为的概率为:设 n 个抽取样本为独立同分布样本,其概率密度函数为 p(x),则其中 k 个样本落在区域 R 的概率为:第19页,本讲稿共39页二项式分布(Binomial Distribution)k 的期望值为的期望值为:E(k)=nPPictire From:http:/en.wikipedia.org/第20页,本讲稿共39页即比值 k k/n n 就是概率概
11、率 P P 的一个很好的估计.若概率密度p(x)是连续的,并且区域R足够小,以致于在这个区间中p 几乎没有变化,那么近似地有:对概率对概率P P,用用最大似然估计最大似然估计最大似然估计最大似然估计 ,设参数向量为,设参数向量为=概率概率P P,其中其中 x x 为为R R中的中的一个点,一个点,V V 是区域是区域 R R 所包含的体积从式从式 (1)(1),(3)(3),(4)(4)可得可得:由二项式分布的性质得:当由二项式分布的性质得:当 k nP 时时Pk 最大最大,所以第21页,本讲稿共39页这种情况这种情况毫无意义!毫无意义!区域区域 RR 中含有样本中含有样本:收敛条件收敛条件
12、其实是其实是其实是其实是 p p(x x)的空间平均的空间平均的空间平均的空间平均.对有限的对有限的对有限的对有限的n n,如果希望得到,如果希望得到,如果希望得到,如果希望得到 p p(x x),那么要求,那么要求,那么要求,那么要求 V V 的值趋于的值趋于的值趋于的值趋于0 0。这时会。这时会。这时会。这时会出现两种情况:出现两种情况:出现两种情况:出现两种情况:区域区域区域区域 RR 中不含有任何样本中不含有任何样本:在这种情况下,估计的结果就变成无穷大在这种情况下,估计的结果就变成无穷大在这种情况下,估计的结果就变成无穷大在这种情况下,估计的结果就变成无穷大:也毫无意义也毫无意义也毫
13、无意义也毫无意义!所以要求:所以要求:n为有限值,为有限值,V 不能趋于零不能趋于零第22页,本讲稿共39页当下面当下面当下面当下面3 3个条件成立时,个条件成立时,个条件成立时,个条件成立时,p pn n(x x)收敛到收敛到收敛到收敛到 p p(x x):有有两种两种经常采用的满足以上三种条件的途径经常采用的满足以上三种条件的途径:(1)体积体积Vn是是N的确定函数,比如的确定函数,比如 VN=,来来逐渐收缩逐渐收缩一个给定的一个给定的初始区间初始区间“Parzen 窗法窗法”第23页,本讲稿共39页24(2)k kn n 是是 N N 的一个确定函数的一个确定函数,比如比如 k kN N
14、=,这样体积这样体积 V VN N 就必须逐渐生长,就必须逐渐生长,直到最后能包含进直到最后能包含进 x x 的的 k kN N 个相邻点个相邻点.“K-近邻估计”第24页,本讲稿共39页Parzen 窗法窗法K-近邻估计近邻估计第25页,本讲稿共39页根据某一个确定的体积函数,比如 ,来逐渐收逐渐收缩缩一个给定的初始区间初始区间。第26页,本讲稿共39页Parzen Parzen 窗方法估计概率密度函数,我们假设区间窗方法估计概率密度函数,我们假设区间Vn 是一个是一个 d d 维的超立维的超立方体方体其中其中h hn n为为Vn的边长的边长令窗函数为:令窗函数为:如果如果如果如果 x xi
15、 i 落在中心为落在中心为落在中心为落在中心为 x x 的超立方体的超立方体的超立方体的超立方体 V Vn n 中,那么中,那么中,那么中,那么 (x-xx-xi i)/h/hn n)1 1,否则为,否则为,否则为,否则为0.0.第27页,本讲稿共39页将将 k kn n 代入代入 p pn n(x x)=(k kn n/n/n)/V/Vn n ,得:得:p p(x x)的估计的估计p pn n(x x)是一系列关于是一系列关于 x x 和和 x xi i (i=1,ni=1,n)的函数的函数的平均的平均.推广:推广:窗函数窗函数 可以是可以是满足概率容许条件的容许条件的任意函数任意函数第28
16、页,本讲稿共39页第29页,本讲稿共39页考虑考虑一维 N N(0,0,=1=1)正态概率密度函数令令(h h1 1:随意选取的一个参数随意选取的一个参数)则则:表示表示P Pn n(x x)就是就是以各个以各个样本点xi为中心的的正态概率密度函数的的平均。举例说明第30页,本讲稿共39页如果如果 n=n=10 10、h=h=0.1,0.1,那么每个样本点各自的贡献那么每个样本点各自的贡献能够清楚的观察到能够清楚的观察到 。数值计算结果:如果如果 n=n=1 1、h h1 1=1=1第31页,本讲稿共39页h1=1h1=0.5h1=0.1第32页,本讲稿共39页在二维情况下有类似的结果:第33
17、页,本讲稿共39页第34页,本讲稿共39页K Nearest Neighbor Density Estimation 在 Parzen窗法中:体积由 先确定体积内的点数不确定在K-近邻估计中:体积内的点数 kN 先确定体积再由包含 kN 个最近邻点来确定VN基本公式仍然为:第35页,本讲稿共39页K-K-近邻估计近邻估计如果设如果设 ,随着,随着N增大,增大,KN增大,增大,所以体积也就增大。所以体积也就增大。如果如果x x点附近密度低,体积增大速度就快;点附近密度低,体积增大速度就快;如果如果x x点附近密度高,体积增大速度就慢。点附近密度高,体积增大速度就慢。可以克服可以克服Pazzen窗对于初值窗对于初值V1的依耐性的依耐性第36页,本讲稿共39页基本公式:K-K-近邻估计近邻估计假设条件:假设条件:一个较好的确定一个较好的确定kN的方法:的方法:第37页,本讲稿共39页K-K-近邻估计举例近邻估计举例第38页,本讲稿共39页用用直方图估计概率密度函数,和用概率密度函数,和用 Parzen 窗估计概率密度函数有什么概率密度函数有什么联系和区别?第39页,本讲稿共39页