《基于R语言的社会统计分析 (1).ppt》由会员分享,可在线阅读,更多相关《基于R语言的社会统计分析 (1).ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六讲:统计推断 II:估计 置信区间STATISTICAL INFERENCE:ESTIMATION CONFIDENCE INTERVAL置信区间点估计的精确程度是由参数区间估计的宽度来体现的。区间估计是以点估计为中心的一个区间。它被设计用来以某一选定的、接近于1的概率包含参数值。这个概率是我们信心的大小。区间估计以某一特定置信度包含参数值,所以常常被称为置信区间。置信区间的定义置信区置信区间一个参数的置信区间是我们相信这个参数会落入的一个数值区间。这种方法产生的一个区间会包含参数真实值的概率是被称为置信水平。代表置信水平的数值通常都接近于1,比如0.95或0.99,因为我们需要这个概率足
2、够的大。如何构建数值区间?点估计的抽样分布置信区间的构建抽样分布一般都近似的服从正态分布。正态分布可以进而决定估计值落入某参数某一段距离内的概率究竟是多少。置信水平95%估计值会落入距离真实值两个标准误的范围内。我们几乎可以确定,估计值会落入距离真实值3个标准差的范围内。置信水平高倍数大置信区间宽点估计的精确性越低;置信水平低倍数小置信区间窄 点估计的精确度越高。总体比例的置信区间对于分类变量,观测值的可能取值为该变量的几种可能类别。它可能是名义变量:民族、政治面目;定序变量:对事情的看法、态度。连续型变量重新分组后的某个组别:年龄组、收入。对分类变量进行总结时,我们关注每个类别的占比。样本比
3、例的均值和标准误大样本条件下比例的置信区间变量是离散型变量 二分变量,我们需要中心极限定理。服从正态分布的变量有95%的观测值会落入距离均值2倍标准差,更精确的说,1.96倍标准差的范围内。问题:的取值?控制置信水平置信区间的宽度随置信水平的增加而增加;随样本量的增加而减少。要把置信区间理解成一系列长期重复抽样的结果由某一个样本获得的置信区间可能包含真实值,也可能恰好不包含。但是重复操作很多次,构建了多个置信区间后,这些置信区间中的95%可以包含,而5%会错过。在实际应用中,我们仅抽样一次,我们用一个固定样本量构建1个置信区间。我们并不能确定这个置信区间到底是否涵盖了真值,但我们可以控制相信的
4、程度。95%?99%?构建样本比例置信区间时的样本量问题我们希望样本量越大越好:样本量越大,抽样分布就越接近正态,我们用样本比例替代总体比例计算出的标准误也更接近真实的标准误。多大的样本算大?一般要求每个分类中至少有15个观测值。如果不能满足,非参数方法。比例的置信区间总结总体均值的置信区间总体均值置信区间的构建以美国综合社会调查GSS为例调查人员会询问访谈对象自他们年满18岁以后有过多少性伴侣。在2006年的那次调查中,通过231名年龄在20到29岁间的女性的回答分析,性伙伴数量的均值为4.96。你现在看到的是通过统计软件对这个变量做基本的描述分析后的结果。VariablenMeanStDe
5、vSEMean95.0%CINUMMEN 2314.966.810.45(4.1,5.8)VariablenMeanStDevSEMean95.0%CINUMMEN2314.966.810.45(4.1,5.8)软件是如何计算出置信区间的具体上下限的呢?(4.96-4.1)/0.45=1.91既不是1.96,也不是2.58,这个数是怎么计算出来的?-分布对于任何样本量都适用的置信区间此时需要增加一个假设 总体要服从正态分布。这时,即使没有中心极限定理,样本均值的抽样分布也会是正态分布。t总体为10000个服从标准正态分布的观测值下图表示样本量不同时,重复抽样1000次情况下样本均值的抽样分布情
6、况用样本标准差取代总体标准差使用估计标准误,就不可避免的引入了额外的误差。当样本量相对较小时,这个额外的误差很可能是不能忽视的。于是置信区间就要变宽,要用一个稍大一些的数代替z得分。这就是t得分,t-score。t-score来自于t分布,这是个分布和正态分布很像,只是离散程度稍大。-分布的性质正态的、钟形的它的标准差稍大于1它的形状仅由一个参数决定,叫做自由度,degree of freedom,用df来表示。Df=n-1。自由度不同时,t分布的形状略有改变。随着df增大,t分布越来愈趋近于标准正态分布。当自由度大于30时,两种分布形状基本一致。总体均值的置信区间中的边际误差是由t score乘以估计标准误得到的。t