《第七章样本设计 样本容量的确定PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第七章样本设计 样本容量的确定PPT讲稿.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章 样本设计 样本容量的确定1 1第1页,共27页,编辑于2022年,星期一确定概率抽样的样本容量n样本容量不能决定代表性,但可影响结果的精度。n样本的精度样本的精度n样本的统计量(如对一特定问题回答的平均数)与其所代表的总体的值的接近程度。n大样本比小样本更精确,但是没有成倍的关系。n财务和统计问题财务和统计问题n一般原则:n样本越大,抽样误差越小 n样本大,耗费的成本也高n抽样成本随样本容量直线递增,抽样误差却只是以样本量增长速度的平方根递减2 2第2页,共27页,编辑于2022年,星期一确定概率抽样的样本容量n样本容量的确定通常是介于理论上的完善方案与实际上可行方案之间的一个折中方案
2、n教条式方法n以“经验性”为幌子,认为样本容量应该是“为保证精度,一般至少应该是总体的5%”n例如关于鞋子的调查:1万名铁人三项运动员;耐克对“飞人乔丹”进行调查,200万名潜在的篮球鞋购买者n简单易行,但不是一种高效率、经济的方法,教条式方法忽略了抽样的精确度问题。3 3第3页,共27页,编辑于2022年,星期一确定概率抽样的样本容量n约定式方法n认为某一个“约定”或某一个数量就是正确的样本容量。n样本容量是一个恒量,不受总体容量的影响,但也是其缺点,总体容量可能少于恒量;精度的要求也会发生变化。4 4第4页,共27页,编辑于2022年,星期一确定概率抽样的样本容量n成本基础法n将成本作为确
3、定样本容量的基础。n样本容量的确定不是将调查所获得的信息的价值作为首要考虑因素,而是把预算作为考虑因素,通常会忽视调查结果对管理决策的价值。n如何才能在不考虑成本的情况下确定样本容量?5 5第5页,共27页,编辑于2022年,星期一确定概率抽样的样本容量n传统统计方法n运用以下概念来创见一个有效的样本。n总体标准差的估计值n抽样误差的允许范围n抽样结果在特定范围内的预期置信度6 6第6页,共27页,编辑于2022年,星期一传统统计方法n差异性差异性n指受访者对某一特定问题的答案在相异性(或相似性)方面的总括。n对于有明确答案选项的资料。你购买可乐是否选择“可口可乐?”n区间性资料、具有多种选项
4、的资料汽车行驶的里程数。n受访者的回答可以制成图表。7 7第7页,共27页,编辑于2022年,星期一图7.1 年驾驶里程分布阐明了差异性n如果多数回答都接近于同一个数字,而且大多数的回答者都集中在某一小范围内,则差异性小;反之,则差异性就大 8 8第8页,共27页,编辑于2022年,星期一图7.2 分布的伸展反映了差异性总和 9 9第9页,共27页,编辑于2022年,星期一传统统计方法n差异性n差异性的基本概念就是指回答的相似程度。差异性小意味着回答相当相似,差异性大表示回答很不相似。n如果答案曲线图显示十分集中或呈“尖峰”状态,则差异性小。如果曲线图显示受访者在各种可能的答案选项间平均分布,
5、则差异性大。n测量差异性的指标标准差1010第10页,共27页,编辑于2022年,星期一n如何运用标准差来测定差异性呢?n将两个样本的标准差进行比较,以判定相关的差异性。1111第11页,共27页,编辑于2022年,星期一传统统计方法n比较两个图形,可以得出结论:n在1955年汽车拥有者的驾驶里程较少(平均),而且差异性也不大(标淮差),但现在的车主们年平均驾驶里程较多,差异性也较大。1212第12页,共27页,编辑于2022年,星期一n正态分布的特征(根据以上图形)1.正态分布呈钟形且只有一个众数2.关于均值对称,集中趋势的三个衡量标准(平均数、众数、中位数)相等3.一个正态分布的特殊性由其
6、均值和标准差决定4.正态曲线下方的面积等于11313第13页,共27页,编辑于2022年,星期一5正态曲线下方任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率6在均值的给定比例标准差范围内的概率为固定值。即所有的正态分布在平均数+-1个标准差之间的面积相同,都占曲线下方面积的68.26%,或者说占全部调查总体结果的68.26%。这叫正态分布的比例性。1414第14页,共27页,编辑于2022年,星期一n正态分布重要的原因n许多变量的概率分布趋于正态分布。爱吃快餐的人平均每月吃快餐的次数,每星期看电视的小时数,男性身高的分布等。n中心极限定理中心极限定理对于任何总体,不论其分
7、布如何,随着样本容量的增加,抽样平均数的分布趋近于正态分布1515第15页,共27页,编辑于2022年,星期一x x x xf f f f(x x x x)nf(x)=随机变量 X 的频数n=正态随机变量X的均值n=正态随机变量X的方差 n=3.1415926;e=2.71828nx=随机变量的取值(-x )正态分布1616第16页,共27页,编辑于2022年,星期一正态分布n标准正态分布n任何正态分布都可以转化为标准正态分布n均值等于0n标准差等于11717第17页,共27页,编辑于2022年,星期一置信区间的概念n是一个范围,其终点指定了对于一个问题的某一应答百分率。n正态曲线的属性是,标
8、准差的1.96倍从理论上表示95%的分布终点,标准差的2.58倍表明了99%的分布终点。n95%95%的置信区间的置信区间=1.961.96个标准差个标准差()()均值均值n99%99%的置信区间的置信区间=2.582.58个标准差个标准差()()均值均值n以95%来举例说明。1818第18页,共27页,编辑于2022年,星期一抽样分布的概念n总体分布n总体中全部单位的频率分布,平均数为,标准差n样本分布n单个样本中所有单位的频率分布,具体的分布形式依赖于总体分布。n抽样分布n一个总体中许多独立样本均值的理论分布。在大样本的情况下,其分布近似服从于正态分布。1919第19页,共27页,编辑于2
9、022年,星期一抽样分布的概念n如果样本是随机的且容量足够大,则样本均值的分布近似于正态分布n理论基础是中心极限定理:随着样本容量的增加,从任一总体中抽取的大量随机样本平均数的分布接近服从正态分布。n其均值为 ,且标准差等于:n为样本容量,为总体的标准差2020第20页,共27页,编辑于2022年,星期一平均数或百分率标准误差的概念n实际总体值与所预期的典型样本结果的差距。实际总体值与所预期的典型样本结果的差距。n平均数标准误差,即样本均值的标准差(抽样误差)。平均数标准误差,即样本均值的标准差(抽样误差)。n由于总体标准差是未知的,一般由样本标准差s代替。n例如:驾驶里程调查中,样本容量n是
10、100名驾驶者,标准差是3000公里,则平均数标准误差=300。2121第21页,共27页,编辑于2022年,星期一平均数或百分率标准误差的概念n标准误差还适用于研究百分率的调查,称之为百分率标准百分率标准误差。误差。nSp百分率标准误差;p为样本中的百分率;q=1-p;n为样本容量。例:假设抽选中的100名驾驶者中有40%的人表示其汽车上配有辐射状轮胎。则标准误差为:=4.899 2222第22页,共27页,编辑于2022年,星期一计算样本容量均值问题2323第23页,共27页,编辑于2022年,星期一计算样本容量均值问题n在简单随机抽样的条件下,样本容量为n其中其中:nZ=标准误差的置信水
11、平标准误差的置信水平n=总体标准差总体标准差nh=允许误差(可接受误差水平)允许误差(可接受误差水平)n=Z2 2h22424第24页,共27页,编辑于2022年,星期一计算样本容量均值问题n置信水平Z和误差E的确定需要由调研人员同客户进行磋商后确定,要在精确度、置信度和成本之间进行衡量。n估计总体标准误差的四种方法1.利用以前的结果2.进行试验性调查3.利用二手资料4.通过判断,把许多管理人员的判断集中起来进行分析2525第25页,共27页,编辑于2022年,星期一n例如:估计快餐族平均每月吃快餐的平均次数:与公司的管理者进行磋商后,市场调研经理认为有必要估计一下吃快餐的平均次数。考虑到管理
12、者对精确度的要求,他规定估计值不得超过实际值的0.10。这个值将作为h带入公式。此外,市场调研经理还认为,考虑全局,需要把实际总体平均值在区间以内的置信度定为95%。而若要置信度为95%,就必须是在2倍标准误差范围内(严格为1.96)。因此2作为Z值代入公式 最后确定公式中的值,幸好公司做过类似的调查。调查对象是最近30天内吃快餐的平均次数。标准差为1.39,带入样本容量的公式。经过计算,可知样本容量为722时,可以满足提出的要求。2626第26页,共27页,编辑于2022年,星期一计算样本容量比率问题n保守估计可取保守估计可取P值为.50 n给定给定 Z 和和 E,P 将得到最大可能样本将得到最大可能样本nP=0.50 将会使将会使PQ 最大最大n=Z2 PQh22727第27页,共27页,编辑于2022年,星期一