《社会统计学与数理统计学的统一.pdf》由会员分享,可在线阅读,更多相关《社会统计学与数理统计学的统一.pdf(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e收稿日期:2 0 0 8-0 6-0 6修订日期:2 0 0 8-0 6-0 8作者简介:王见定(1 9 4 7-),男,教授,国际统计学会会员。在国内外刊物和国际学术会议上发表论文2 0余篇,1 9 8 8年出版了 半解析函数、共轭解析函数 专著,多次获得北京市学术成果奖、北京市科技进步奖、北京市自然科学基金奖。!社会统计学与数理统计学的统一王见定(北京信息科技大学,北京1 0 0 1 9 2)摘要:经过近4 0 0年的变迁,目前世界上已形成社会统计学和数理统计学两大体系。两体系争论不休,
2、难分伯仲。近7 0年,由于数理统计学的飞速发展,大有“吃掉”社会统计学的势头,尤其是以美国为代表的发达国家,几乎认为统计学就是数理统计学。实际上,这是一个极大的误区。笔者的研究已经说明了数理统计学永远“吃不掉”社会统计学,今后的日子,将是社会统计学与数理统计学的共存与互补。社会统计学与数理统计学的争论可以结束了。关键词:社会统计学;数理统计学;统一;变量;随机变量中图分类号:C 8文献标识码:A前 言据权威统计学史记载,从1 7世纪开始就有了“政治算术”、“国势学”,即初级的社会统计学,起源于英国、德国。几乎同时在意大利出现了“赌博数学”,即初级的概率论。直到1 9世纪,由于概率论出现了正态分
3、布与中心极限定理,才形成了初级的数理统计学。也就是说,社会统计学的形成早于数理统计学两个世纪。由于社会统计学广泛地用于经济和政治,所以得到各国历届政府的极大重视,并得到系统的发展。而数理统计学在2 0世纪4 0年代以后,由于概率论的发展,而得到飞速发展。经过近4 0 0年的变迁,目前世界上已形成社会统计学和数理统计学两大体系。两体系争论不休,难分伯仲。笔者经过3 0年的学习与研究,发现了社会统计学与数理统计学的联系和区别。它们的关系与著名的牛顿力学与相对论力学的关系非常相似。相对论力学在接近光速时使用,而大多数情况是远离光速的,此时使用牛顿力学既准确又方便。如果硬套相对论力学,则是杀鸡用宰牛刀
4、,费力不讨好。社会统计学在描写变量时使用;数理统计学在描写随机变量时使用。我们知道变量与随机变量是既有联系又有区别的。当变量取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量。变量与随机变量的联系与区别搞清楚了,社会统计学与数理统计学的关系就搞清楚了。以后,在描述变量时,大胆地使用社会统计学;在描述随机变量时,就用数理统计学。如果在描述变量时非用数理统计学,那就是杀鸡用了宰牛刀。近7 0年,由于数理统计学的飞速发展,大2 0前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e有“吃掉”社会统计学的势头,
5、尤其是以美国为代表的发达国家,几乎认为统计学就是数理统计学。实际上,这是一个极大的误区。笔者的研究已经说明了数理统计学永远“吃不掉”社会统计学,今后的日子,将是社会统计学与数理统计学的共存与互补。社会统计学与数理统计学的争论可以结束了。1社会统计学1.1时间数列分析时间数列的基础分析基础分析包括水平分析和速度分析两个方面。时间数列的水平分析定义y0,y1,yn关于时间的数列称为时间数列。水平yi称为水平;yo称为最初水平;yn称为最末水平。报告期水平:考察时期的水平。基期水平:与报告期水平相比较的水平。平均水平时期数列的平均水平y!=y1+y2+ynn时点数列的平均水平y!=(y1+y22)T
6、1+(y2+y32)T2+(yn-1+yn2)Tn-1n-1i=1Ti(3.1)时点数相加没有意义,所以把时点数取平均转化为时期数,再对时间加权平均,得到公式(3.1)。【例3.1】某地区1 9 9 0年人口统计资料如表3.1表3.1某地区1 9 9 0年人口统计资料计算该地区1 9 9 0年平均人口数。解y!=(6 5+6 32)2+(6 3+6 12)42+4+3+3+(6 1+6 22)3+(6 2+6 52)32+4+3+3=6 2.6(万人)当T1=T2=Tn-1时,式(3.1)变为y!=y!12+y2+yn-1+yn2#$/n-1增长量和平均增长量增长量=报告期水平-基期水平逐期增
7、长量i=yi-yi-1(i=1,2,n)累积增长量i=yi-y0(i=1,2,n)平均增长量=累积增长量观察值个数-1时间数列的速度分析速度与增长速度速度=报告期水平基期水平由于采用的基期不同,速度可分为环比速度与定基速度。环比速度yr=yiyi-1(i=1,2,n)定基速度yr=yiy0(i=1,n)增长速度=增长量基期水平=报告期水平-基期水平基期水平=速度-1由于采用的基期不同,增长速度也分为环比增长速度和定基增长速度。统计时点1月1日3月1日7月1日1 0月1日1 2月3 1日人数(万人)6 56 36 16 26 52 1前沿科学(季刊)2 0 0 82第2卷总第6期F r o n
8、t i e r S c i e n c e环比增长速度=环比速度-1定基增长速度=定基速度-1【例3.2】表3.2第三产业国内生产总值速度计算表平均速度与平均增长速度平均速度y!r=y1yoy2y1 ynyn-1n=ynyon平均增长速度#r=y!r-1【例3.3】已知 例3.2 表中数据,计算1 9 9 01 9 9 4年我国第三产业国内生产总值的年平均速度和年平均增长速度。解y!r=1.2 4 7 1.2 6 4 1.2 2 6 1.2 7 74=1 2 5.3%#r=1 2 5.3%-1=2 5.3%长期趋势的测定时间数列的变化可以归纳为三种主要因素:长期趋势、季节变动、随机变动。长期趋
9、势(T)是现象在一段较长的时间内,由于普遍持续的因素作用,使水平沿一个方向持续变动的趋势,反映了现象变动的基本方向。季节变动(S)是现象在一年内受季节变动而发生的周期性的变化。如受气候、节假日、风俗习惯的影响等。随机变动(R)是由于自然社会的偶然因素引起的不规则变动。下面我们采用乘法模型来研究这三种因素,即Y=T S R对于长期趋势的测定。我们首选的是最小二乘法。如果数列的逐期增长量大致相同,可采用直线方程设趋势方程为y!t=a#+b%t应用最小二乘法,有y=na+b(tt y=a)t+b*t2$&%&(b+=n t y-(t)(y)n t2-(t)2,a,=y!-b-t【例3.4】根据表3.
10、3资料求拟合趋势方程表3.3实际销售额及其趋势值y.t=a/+b0t(b1=1 5 8 0 2 9.7-1 2 0 8 9 2.81 5 1 2 4 0-(1 2 0)2=1 3 3 0 9.54 2 0 0=3.1 7a2=y!-b3t=8 9 2.81 5-3.1 7 1 2 01 5=3 4.1 7所以趋势方程为y4=3 4.1 7+3.1 7 t如果数列二次增量大致相同,可配二次抛物线方程年份1 9 9 0 1 9 9 1 1 9 9 21 9 9 31 9 9 4国内生产总值(亿元)5 7 9 6.37 2 2 7.09 1 3 5.9 1 1 2 0 4.5 1 4 3 0 8.8
11、速度(%)环比定基1 0 01 2 4.71 2 4.71 2 6.41 5 7.61 2 2.61 9 3.31 2 7.72 4 6.9增长速度(%)环比定基2 4.72 4.72 6.45 7.62 2.69 3.32 7.71 4 6.9年份t销售额y(万元)t yt2趋势值Y)t1 9 8 3 13 0.83 0.813 7.3 41 9 8 4 23 8.87 7.644 0.5 11 9 8 5 34 2.51 2 7.594 3.6 81 9 8 6 45 8.02 3 21 64 6.8 51 9 8 7 55 2.62 6 32 55 0.0 21 9 8 8 64 9.9
12、2 9 9.43 65 3.1 91 9 8 9 75 7.13 9 9.74 95 6.3 61 9 9 0 85 7.84 6 2.46 45 9.5 31 9 9 1 95 6.85 1 1.28 16 2.7 01 9 9 2 1 06 1.06 1 01 0 06 5.8 71 9 9 3 1 18 0.08 8 01 2 16 9.0 41 9 9 4 1 28 5.01 0 2 01 4 47 2.2 11 9 9 5 1 37 4.49 6 7.21 6 97 5.3 81 9 9 6 1 47 2.61 0 1 6.4 1 9 67 8.5 51 9 9 7 1 57 5.5
13、1 1 3 2.5 2 2 58 1.7 2合计1 2 0 8 9 2.88 0 2 9.7 1 2 4 08 9 2.82 2前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e即y!t=a+b#t+c$t2根据最小二乘法得方程组y=n a+t+c t2t y=a t+b t2+c t3t2y=a t2+b t3+c t4!#$当取数列中间值为原点时,则t=0,上述方程组可简化为y=n a+c t2t y=b t2t2y=a t2+c t4!#$【例3.5】某企业销售量的资料如表3.4所示,求拟合趋势线。表3.4某企业销售量及趋势值解由资料
14、1 7 3.8=1 5 a+2 8 0 c4 5.2=2 8 0 b2 7 1 2.6=2 8 0 a+9 3 5 2 c!#$%a=1 3.0 9b=0.1 6 1c=-0.1 2!#$9所以销售量的趋势方程为y%t=1 3.9 9+0.1 6 1 t-0.1 2 9 t2如果数列的各期环比增长速度基本相同,可采用指数方程趋势方程为y&t=a bt令Yt=l g yt,A=l g a,B=l g b,则yt=A+B t【例3.6】表3.5给出某企业各时期的销售额,试对某企业销售额进行趋势测定。表3.5某企业销售额及趋势值解利用直线趋势配合法求得B=0.0 4 8 A=2.4 9 6则a=3
15、1 0.4 5 b=1.1 2所以指数方程为y(t=3 1 0.4 5(1.1 2)t以上三种曲线拟合的方法,可以推广到其他更复杂的曲线,这取决于对数列的定性分析。季节变动的测定服装销售量、农副产品的产量、铁路客运量等都具有明显的季节性变动,认识和掌握其变动幅度,可以合理组织生产、安排人民生活。下面通过趋势剔除法,求解季节比率,达到季节变动的测定。【例3.7】已知某企业商品销售量(见表3.6)年份t销售量(万件)t ytt2t2ytt4趋势值Y)t1 9 8 61 9 8 71 9 8 81 9 8 91 9 9 01 9 9 11 9 9 21 9 9 31 9 9 41 9 9 51 9
16、9 61 9 9 71 9 9 81 9 9 92 0 0 0-7-6-5-4-3-2-1012345677.09.19.71 0.81 1.71 2.11 3.11 4.31 4.41 4.81 5.01 2.31 1.29.48.9-4 9.0-5 4.6-4 8.5-4 3.2-3 5.1-2 4.2-1 3.101 4.42 9.64 5.04 9.25 6.05 6.46 2.34 93 62 51 694101491 62 53 64 93 4 3.03 2 7.62 4 2.51 7 2.81 0 5.34 8.41 3.101 4.45 9.21 3 5.01 9 6.82 8
17、 0.03 3 8.44 3 6.12 4 0 11 2 9 66 2 52 5 68 11 61011 68 12 5 66 2 51 2 9 62 4 0 16.58.41 0.01 1.31 2.31 3.21 3.71 4.01 4.01 3.81 3.31 2.61 1.61 0.38.8合计01 7 3.8 4 5.2 2 8 02 7 1 2.6 9 3 5 21 7 3 8tytYtt Ytt2趋势值Y*t13 7 22.5 72.5 713 4 7.7 0 424 0 52.6 15.2 243 8 9.4 234 4 12.6 47.9 294 3 6.1 544 8 02
18、.6 81 0.7 21 64 8 8.4 9 955 2 52.7 21 3.62 55 4 7.1 1 965 7 42.7 61 5.5 63 66 1 2.7 7 3合计2 7 9 7 1 5.9 8 5 6.7 79 12 3前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e受季节变动和长期趋势两因素的影响,采用趋势剔除法计算季节比率。表3.6企业商品销售量解由表3.6得到y/yt值,将此值排列成表3.7计算季节比率。表3.7季节比率计算表预测方程的建立在计算了季节比率以后我们可以得到表3.8表3.8销售量的季节调整表根据调整后的
19、销售量拟合直线为y!t=5.4 9 8+0.0 7 8 8 t于是预测方程为Y=T S=(5.4 9 8+0.0 7 8 8 t)相应季节比率例如,预测1 9 9 3年4季度的销售量为y=(5.4 9 8+0.0 7 8 8 2 3)0.3 2 4 8=2.3 7(万件)1.2指数分析指数及其分类指数是用以测定总体各变量在不同场合下综合变动的一种特殊相对数,从不同角度出发,指数可以分为以下几种类型:按所反映的内容的不同,可分为数量指数和质量指数。数量指数是反映物量变动水平的,例如商品销售指数、产品产量指数等;质量指数是反映事物内涵变动水平的,例如价格指数、产品成本指数等。按计入指数项目多少的不
20、同,可分为个体指数和综合指数。个体指数是反映某一项目变动的相对数,例如一种商品价格的相对变动水平;综合指数是反映多种项目综合变动的相对数,例如多种商品的价格的综合变动水平。年份 季节销售量Y(万件)四项移动平均值二项移动平均值YtY/Yt(%)1 9 8 9123428413.7 53.53.6 2 54.1 21 1 02 41 9 9 0123411 1424.7 55.2 54.54.7 54.9 54.8 74.6 25.3 72 02 2 68 73 71 9 9 1123421 43265.2 55.2 55.55.6 25.2 55.3 75.6 23 52 6 65 63 51
21、 9 9 2123431 5535.7 56.2 56.55.9 76.3 75 02 3 5季节年份一二三四合计1 9 8 91 1 02 41 3 61 9 9 02 02 2 68 73 73 7 01 9 9 13 52 2 65 63 53 9 21 9 9 25 02 3 52 8 5合计1 0 57 2 72 5 59 6 1 1 8 3同季平均数3 52 4 28 53 2 9 8.5 8季节比率(%)3 5.5 52 4 5.6 88 6.2 93 2.4 8 4 0 0年/季销售量Y(万件)季节指数S(%)调整后的销售量Y/St调整后的趋势值y!t1 9 8 9/12342
22、8413 5.5 52 4 5.6 88 6.2 93 2.4 85.6 33.2 64.6 43.0 8-1 5-1 3-1 1-94.3 24.4 84.6 34.7 9年/季销售量Y(万件)季节指数S(%)调整后的销售量Y/St调整后的趋势值!yt1 9 9 0/12341 9 9 1/12341 9 9 2/123411 14421 43231 5533 5.5 52 4 5.6 88 6.2 93 2.4 83 5.5 52 4 5.6 88 6.2 93 2.4 83 5.5 52 4 5.6 88 6.2 93 2.4 82.8 14.4 84.6 36.1 55.6 25.6
23、93.4 76.1 58.4 36.1 15.7 99.2 3-7-5-3-1135791 11 31 54.9 55.1 05.2 65.4 25.5 75.7 35.8 96.0 56.2 16.3 66.5 26.6 7合计8 7.9 802 4前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e产品名称计量单位总成本(万元)个体成本指数(p1/p0)个体产量指数(q1/q0)基期(p0q0)报告期p1q1甲乙丙台箱件5 42 6 01 8 06 53 4 02 1 51.1 51.1 81.0 61.0 51.1 01.1 4按计算形
24、式的不同,可分为简单指数和加权指数。简单指数是把计入指数的各个项目的重要性视为相同;加权指数则是对各个项目根据其重要性的不同赋予不同的权数,再进行计算。按对比场合的不同,可分为时间性指数和区域性指数。其中时间性指数中又可分为定基指数和环比指数。加权指数加权综合指数基期变量值加权基期变量值加权是指在计算一组项目的综合指数时,把作为权数的各变量值固定在基期。这种指数也称为拉氏指数,即p1/0=p1q0p0q0,q1/0=p0q1p0q0【例4.1】某百货公司1 9 9 3年和1 9 9 4年三种商品的零售价格和销售量资料如表4.1,试计算三个商品的价格指数和销售量指数(拉氏)。解p1/0=p1q0
25、p0q0=9.2 9 5 0+5 8.5 5 0 0+1 1 5 8 0 08.5 9 5 0+5 4.6 5 0 0+9 8 8 0 0=1 1 4.2 5%q1/0=p0q1p0q0=8.5 1 0 0 0+5 4.6 5 0 0+9 8 8 6 08.5 9 5 0+5 4.6 5 0 0+9 8 8 0 0=1 0 5.5 4%计算结果表明,与1 9 9 3年相比,该公司三种商品的零售价格平均上涨1 4.2 5%,销售量平均上涨5.5 4%。报告期变量值加权报告期变量值加权是指在计算一组项目综合指数时,把作为权数的各变量值固定在报告期。这种指数也称为派氏指数,即p1/0=p1q1p0q
26、1,q1/0=p1q1p1q0【例4.2】根据表4.1计算三个商品的价格指数和销量指数(派氏)。解p1/0=p 1 q1p0q1=9.2 1 0 0 0+5 8.5 5 0 0+1 1 5 8 6 08.5 1 0 0 0+5 4.6 5 0 0+9 8 8 6 0=1 1 4.3 8%q1/0=p1q1p1q0=9.2 1 0 0 0+5 8.5 5 0 0+1 1 5 8 6 09.2 9 5 0+5 8.5 5 0 0+1 1 5 8 0 0=1 0 5.6 6%计算结果表明,与1 9 9 3年相比,该公司三种商品的零售价格平均上涨了1 4.3 8%,销售量平均上涨了5.6 6%。加权平
27、均指数加权平均指数是以某一时期的总量为权数对个体指数加权平均的结果。基期总量加权p1/0=p1p0p0q0p0q0,q1/0=q1q0p0q0p0q0【例4.3】某企业生产三种产品的有关资料如表4.2,计算三种产品单位成本总指数和产量指数。表4.2某企业生产三种产品的有关数据解p1/0=p1p0p0q0p0q0=1.1 5 5 4+1.1 8 2 6 0+1.0 6 1 8 05 4+2 6 0+1 8 0=1 1 3.3 0%商品名称计量单位销售量单价(元)1 9 9 3年1 9 9 4年1 9 9 3年1 9 9 4年棉布毛线皮鞋米公斤双9 5 05 0 08 0 01 0 0 05 0
28、08 6 08.55 4.69 8.09.25 8.51 1 5表4.1某百货公司三种商品的价格和销售量2 5前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c eq1/0=q1q0p0q0p0q0=1.0 5 5 4+1.1 0 2 6 0+1.1 4 1 8 05 4+2 6 0+1 8 0=1 1 0.9 1%报告期总量加权报告期总量加权指数是以报告期总量为权数对个体指数加权平均的结果,即p1/0=p1q11p1/p0p1q1,q1/0=p1q11q1/q0p1q1【例4.4】根据表4.2,计算三种产品的单位成本总指数和产量指数。解p1/
29、0=p1q11p1/p0p1q1=6 5+3 4 0+2 1 56 51.1 5+3 4 01.1 8+2 1 51.0 6=1 1 3.2 4%q1/0=p1q11q1/q0p1q1=6 5+3 4 0+2 1 56 51.0 5+3 4 01.1 0+2 1 51.1 4=1 1 0.8 0%计算结果表明,报告期与基期相比,该企业三种产品的单位成本平均提高了1 3.2 4%,三种产品的产量平均提高了1 0.8 0%。不难看出,加权平均指数是加权综合指数的变形。事实上p1/0=p1p0p0q0p0q0=p1q0p0q0其他加权平均指数也均有类似结果。指数体系总量指数与指数体系总量指数是由两个
30、不同时期的总量对比形成的相对数。总量指数及其若干个因素指数构成的数量关系式称为指数体系。例如p1q1p0q0=p1p0q1q0即总量指数等于质量指数(p1/p0)与数量指数(q1/q0)相乘。三者构成指数体系。指数体系的分析个体指数体系分析【例4.5】某企业生产的某型号的冰箱,1 9 9 8年与1 9 9 7年相比,总成本提高了1 5%,产量提高了1 0%,试确定单位产品成本的变动程度。解p1p0=p1q1p0q0q1q0=1 1 5%1 1 0%=1 0 4.5 5%即:与1 9 9 7年相比,单位产品的成本提高了4.5 5%。加权综合指数体系分析加权综合指数由于所用权数所属时期不同,可以形
31、成不同的指数体系。即p1q1p0q0=p1q1p0q1p0q1p0q0就绝对水平看p1q1-p0q0=(p1q1-p0q1)+(p0q1-p0q0)下面通过例子说明上述关系【例4.6】根据表4.1的资料,利用指数体系分析价格和销售量变动对销售额的影响。解销售额指数=p1q1p0q0=1 3 7 3 5 01 1 3 7 7 5=1 2 0.7 2%价格指数=p1q1p0q1=1 3 7 3 5 01 2 0 0 8 0=1 1 4.3 8%销售量指数=p0q1p0q0=1 2 0 0 8 01 1 3 7 7 5=1 0 5.5 4%三者关系为1 2 0.7 2%=1 1 4.3 8%1 0
32、5.5 4%即:1 9 9 4年同1 9 9 3年相比,该公司三种商品的销售额提高了2 0.7 2%,其中由于价格变动使销售额提高了1 4.3 8%,由于销售量变动使销售额提高了5.5 4%。从绝对水平看2 6前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e销售额变动=p1q1-p0q0=1 3 7 3 5 0-1 1 3 7 7 5=2 3 5 7 5(元)价格变动的影响额=p1q1-p0q1=1 3 7 3 5 0-1 2 0 0 8 0=1 7 2 7 0(元)销售量变动的影响额=p0q1-p0q0=1 2 0 0 8 0-1 1
33、3 7 7 5=6 3 0 5(元)三者关系为2 3 5 7 5=1 7 2 7 0+6 3 0 5即:1 9 9 4年同1 9 9 3年相比,该公司三种商品的销售额增加了2 3 5 7 5元,其中由于价格变动使销售额增加了1 7 2 7 0元,由于销售量变动使销售额增加了6 3 0 5元。加权平均指数体系分析由于加权平均指数是加权综合指数的变形,所以有关它的体系分析在此不再重复。上面的指数体系分析是将总量分解为两个因素,实际上总量可以分解为多个因素,也可以作类似讨论。2数理统计学2.1统计量的分布下面介绍几种统计量,它们在实际中经常使用。定义1设x1,x2,xn相互独立,且xiN(0,1),
34、i=1,n。则称2=ni=1!x2i服从自由度为n的2分布,记为22(n)。定义2设x N(0,1),y x2(n),x、y相互独立,则称T=xy/n服从自由度为n的t分布,记为T t(n)。定义3设x、y相互独立,且x 2(n1),y x2(n2),则称F=x/n1y/n2服从第一个自由度为n1、第二个自由度为n2的F分布,记为F F(n1,n2)。定理1设(x1,x2,xn)是取自总体N(,2)的样本,则1.x N(,2n)2.(n-1)s222(n-1)定理2设x N(,2),则T=x#-s/nt(n-1)。为了加深对常用统计量的印象,下面画出它们的密度示意图。以上定理的证明比较复杂,必
35、要时查一下专门书籍,在此省略不影响理解与使用。(注:统计量实际上是含信息量较大的随机变量)2.2参数估计参数估计是统计推论的一个分支。所谓统计推断,就是利用样本所提供的信息,对总体作出较准确的结论。例如,我们从一批产品中抽出1 0 0件进行检验,有9 5件正品,5件次品,这时我们把1 0 0件产品的次品率0.0 5作为这批产品的次品率。再例如,我们抽样调查了1 0 0 0户居民的年人均收入为3 5 7 0 0元,以此作为该市职工的年人均收入的估计。2 7前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e所谓参数就是有关总体的某一特征。这个参
36、数是未知的,这需要我们通过抽样、计算比较准确地估计出来。点估计参数是一个数,在几何上它表示一个点,所以叫点估计。点估计中比较简单、直观的方法称为矩估计。矩估计参数往往是总体的一个特征。这些特征可以认为是均值的推广,统称矩。所谓矩估计,就是用样本的矩代替总体相应的矩,从而达到参数的估计。以下介绍矩的概念。总体矩分为原点矩和中心矩:k=E(xk)k阶原点矩k=E(x-E x)kk阶中心矩样本矩也分为原点矩和中心矩:Ak=1nni=1!xkik阶原点矩Bk=1nni=1!(xi-x)kk阶中心矩。所谓用样本矩代替总体相应的矩即Ak=kBk=k实际计算中由于Ak比较简单,所以用Akk较多。【例6.1】
37、设x服从 0,上的均匀分布,即x p(x)=10 x 0其他$#$%试估计解E x=b+a2=2=1,A1=1nni=1!xi所以2=1nni=1!xi,=2 x比矩法较为精确的方法是极大似然法,它采用了微积分中求极值的方法。极大似然法设总体x的密度(或概率分布)为p(x,),其中为未知参数,需要我们去估计。似然函数L=ni=1&p(xi,)表示样本(x1,x2,xn)发生的概率。其中x1,x2,xn是已知的,是未知的。以下说明用极大似然法求估计的方法。L(x1,xn)=ni=1&p(xi,)l n L=ni=1&l n p(xi,)d l n Ld=0求出第一步,列出似然函数,它表示样本(x
38、1,x2,xn)发生的概率。第二步,取对数,主要是为了简化运算,将乘法转化为加法。第三步,求出极值点。通常情况下,这唯一的极值点就是最大值。也就是,我们把使得样本(x1,x2,xn)发生的概率最大的作为估计值,显然这种方法比较合理。【例6.2】设x p(x,)=e-xx 00其他,求的极大似然估计。解2 8前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c eL(x1xn)=ni=1!e-xi=ne-ni=1xil n L=n l n-ni=1xid l n Ld=n-ni=1xi=0所以#=1x$如果要估计的参数是两个或两个以上,方法类似,只
39、要把导数为0改为偏导数为0即可。例如p(x,1,2),我们把步骤改为L(x1xn,1,2)=ni=1!p(xi,1,2)l n L=ni=1!l n p(xi,1,2)3l n L41=06l nL72=0%&()#1,#2区间估计点估计给出了参数的估值,但给不出参数与估计量之间到底有多大的误差。下面介绍的区间估计,是把参数放入区间#1,#2,并能说明参数落在#1,#2 的概率是多少。显然这种方法比点估计更精确。基本概念置信区间1,2 参数所在的区间显著水平估计的灵敏度,例如=0.0 1置信度1-落入 1,2 内的概率1置信下限;2置信上限均值()的置信区间正态总体2已知,求的置信区间。由统计
40、量的分布z=x$-/n*N(0,1)设p(z z1-2)=1-,即px$-/n*z1-2#+=1-解出px$-n*z1-2x$+n*z1-2#+=1-即的置信区间为x$-n*z1-2,x$+n*z1-2#+它是以x为中心的一个对称区间正态总体2未知,求的置信区间。由统计量的分布T=x$-s/n*t(n-1)设pT t2#+=1-,即2 9前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c epx!-s/nt2#$=1-解出px!-snt2x!+snt2%&=1-即的置信区间为x!-snt2,x!+snt2%&【例6.5】从一大堆钢珠中随机抽出9
41、个,测量它们的直径(mm),测得样本均值x!=3 1.0 6,样本方差s2=0.2 52,求置信度为9 5%的的置信区间。(假设钢珠直径x N(,2)。解n=9,=0.0 5,查表得t0.0 2 5(8)=2.3 0 6因为snt2=2.3 0 6 0.2 59=0.1 9 2所以所求钢珠直径的置信区间为(3 1.0 6-0.1 9 2,3 1.0 6+0.1 9 2)即(3 0.8 6 8,3 1.2 5 2)2.3假设检验假设检验问题的提出首先我们看两个例子。【例7.1】某罐头厂的罐头由一条自动线包装,正常情况下生产的罐头重量(克)服从正态分布N(5 0 0,22)。现质量检验员抽得5听罐
42、头的重量为5 0 1、5 0 7、4 9 8、5 0 2、5 0 4(克),是否能够认为生产线工作正常(=5 0 0)。再例如,光华厂有批产品1 0 0 0 0件。按规定,出厂时次品率不得超过3%,质量检验员从中任取1 0 0件,发现5件次品,问这批产品能否出厂?以上问题就是简单的假设检验问题。假设检验是统计推断中的一类重要问题。所 谓 假 设 就 是 有 关 总 体 的 一 句 话,例 如H0=1 0。所谓检验就是通过抽样对假设进行判别,以便判断是接受还是否定。否定假设,还是接受假设,取决于小概率原理。小概率事件:概率小的事件。例如P(A)=0.0 1,则A可称为小概率事件。到底多大的概率叫
43、小概率,这在不同的试验中标准是不一样的。例如:在一般产品的生产中,A表示次品,P(A)=0.0 5就可算小概率;但在人寿保险中,A表示飞机失事,P(A)=0.0 1就不能算小概率了,而是非常大的概率。小概率原理:小概率事件,在一次试验中被认为几乎不发生。大 概 率 事 件:概 率 大 的 事 件。例 如P(A)=0.9 9,则A称为大概率事件。到底大到什么程度算大概率,这在不同的试验中标准是不一样的。大概率原理:大概率事件,在一次试验中被认为几乎发生。一个正态总体的假设检验已知x N(,2),2已知,对的检验根据抽样x1,x2,xn,可以提出以下检验:H0=0,H10,双侧检验;H00,H10
44、,右侧检验。本章第二节的罐头问题已做了双侧检验,同一问题我们改做左侧检验。步骤:H05 0 0 H1-z1-,大概率发生了,所以接受H0。如图7.2:同一问题我们再改做右侧检验。步骤:H05 0 0 H15 0 0统计量z=x-0/n!N(0,1)p(z z1-)=0.0 5计算z=5 0 2.4-5 0 02/5!=2.6 8查表得z1-=1.6 5因为z z1-,小概率发生了,所以否定H0。如图7.3:在实际应用中,单侧检验多于双侧检验。那么,在单侧检验时,到底是选择左侧检验还是右侧检验,取决于检验员的选择倾向。例如上述罐头问题,检验员通过抽样认为5 0 0的可能性较大,那么他就选择了H0
45、5 0 0,H15 0 0,这样就选择了左侧检验。同一问题,由于选择不同的单侧检验,结果有可能不一样。已知x N(,2),2未知,对的检验由于2未知,我们将采用t统计量。根据抽样x1,x2,xn,我们同样可以提出以下检验:H0=0,H10,双侧检验;H00,H10,右侧检验。如图:【例7.2】某型号汽油发动机,每升汽油的运转时间服从正态分布,现测试装配好的6台发动机的运转时间分别为2 8、2 7、3 1、2 9、3 0、2 7(分钟)。按设计要求,平均每升汽油的运转时间应在3 0分钟以上。根据测试结果,在显著水平为0.0 5下,能否说明这种发动机符合设计要求?结合此例说明t检验法(左侧检验)步
46、骤:H00,H10统计量t=x-0s/n!t(n-1)p(t-t)=计算t,查表求t#-t判别若t-t,则否定H0若t-t,则接受H0$解H03 0 H1-t,大概率事件发生了,所以接受H0,即这种发动机符合设计要求。分布函数的假设检验前几节的假设检验都是针对总体的某些参数,这一节我们将对总体的分布进行检验。2统计量设每次试验可能出现的结果为A1,A2,Ak,相应的概率分别为p1,p2,pk,且p1+p2+pk=1。进行了n次独立试验,记Ai出现的次数为ni(n1+n2+nk=n),皮尔逊提出:定理统计量2=ki=1!(ni-n pi)2n pi近似服从自由度为k-1的2分布,即22(k-1)
47、。我们利用以上结论可对总体分布进行检验。【例7.7】按孟德尔遗传定律,让开粉红花的豌豆随机交配,子代可区分为红花、粉红花、白花三类,其比例为1 2 1。为了检验这个理论,特别安排了一个实验,其结果是:1 0 0株豌豆中开红花的3 0株、开粉红花的4 8株、开白花的2 2株。问:这些数据与孟德尔遗传定律是否一致。以上问题可按下列程序进行:H0:A1A2Akp1p2pk统计量2=ki=1!(ni-n pi)2n pi2(k-1)p(22)=计算2,查表求2判别若22,则否定H0若22,则接受H0$#$%解H0:A1A2A3141214A1:开红花;A2:开粉红花;A3:开白花2=3i=1!(ni-
48、n pi)2n pi=(3 0-2 5)22 5+(4 8-5 0)25 0+(2 2-2 5)22 5=1.4 4查表得2=20.0 5=5.9 9 1因为22,大概率事件发生了,所以接受H0,即符合孟德尔遗传理论。上面介绍的是右侧检验,关于左侧检验、双侧检验在这里不再赘述。以上检验的总体是离散型的分布,对于连续型的分布我们可将其离散后,按离散型分布的检验来检验。结束语“社会统计学与数理统计学的统一”对近四百年历史的统计学进行了科学的梳理,规范了整个统计学的发展,结束了一百年来社会统计学与数理统计学之间的争论。由于经济是通过统计学进行计量和分析的,所以社会统计学与数理统计学的统一,必将从整体
49、上提高经济学的分析水平。参考文献1S a m u e l s o na n dNo r d h a u s:“E c o n o m i c s”,1 2 t h,E d.,Mc-G r a w-H i l l c o.Ne w Y o r k,1 9 8 52P a r k i n s:“Mo d e r n.Ma c r o e c o n o m i c s”,P r e n t i c e H a l l,C a n a d a.1 9 8 23凯恩斯.就业、利息和货币通论(中译本).三联书店,1 9 5 74克莱因.凯恩斯的革命(中译本).商务印书馆,1 9 8 05罗宾逊,伊特韦尔
50、.现代经济学导论(中译本).商务印书馆,1 9 8 26高鸿业,吴易乙.现代西方经济学.经济科学出版社,1 9 9 03 2前沿科学(季刊)2 0 0 82第2卷总第6期F r o n t i e r S c i e n c e推荐语:通过分析变量与随机变量的联系与区别,科学地阐明了两大体系之间争议的内容,从而使统计学理论得到科学的梳理。此论证很有新意。推荐人:周毓麟李京文周毓麟,数学家,中科院院士(学部委员)。李京文,中国社科院学部委员,中国工程院院士,本刊编委。T h eU n i t yo fS o c i a l S t a t i s t i c sa n dMa t h e ma