《大数据的统计学08.pdf》由会员分享,可在线阅读,更多相关《大数据的统计学08.pdf(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区大数据的统计学基础第8周大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础 讲师 何翠仪DATAGURU专业数
2、据分析社区统计推断 统计学:描述统计学与推断统计学根据样本数据推断总体数据的情况 样本均值总体均值 样本方差总体方差 样本比例总体比例大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体比例估计大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区样本比例估计总体比例 要求:1.样本要为简单随机样本 2.二项分布的条件成立 3.至少有5个成功,5个失败,即np=5,nq=5样本比例 是总体比例p的最好点估计(Point estimation)无偏而且最有效大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 美国的“全国艾滋行为调查”访问了2673位成
3、人异性恋者的随机样本。其中,有170人承认,在前一年曾有超过一个性伴侣,占样本的6.36%。(这个结果可能会存在偏差,因为有人会不愿意把自己的性行为如实告诉别人,但我们在这里假设所有人都说了实话)根据以上的数据,我们可以推断,美国所有成年异性恋者中有不止一个性伴侣的比例大约是6.36%但是如果我们再做一次调查,得到的样本比例或许会不一样,假设是6.72%。那么我们应该使用哪个数据区估计总体比例呢?大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区点估计置信区间 刚才的例子中,如果实际上成年异性恋中,有6%的人不止一个性伴侣。则真实的总体比例p=0.06。“全国艾滋行为调查”的大小
4、为n=2673的样本,如果重复抽取多次的话,得到的样本比例 的分布会很接近于正态分布(中心极限定理)分布的均值:0.06 分布的标准差:(1)=0.060.942673 0.0046 所有的样本比例 中,约有95%会落在2个标准差之内,即(p-2*(1),p+2*(1))=(0.0508,0.0692)有95%的 跟p的差距的绝对值在2*(1)之内。换句话说,95%的(-2*(1),+2*(1))区间会包含正真的总体比例p大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区点估计置信区间 中心极限定理:样本比例 近似正态分布N(p,p(1-p)/n)样本比例落在尾部的概率非常小 样
5、本比例落在阴影尾部的总概率为 样本比例落在中间部分的概率为1-大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区置信区间名称解析 置信区间(confidence interval):用来估计总体参数真实值的一个区间,通常形式:估计值误差界限 误差界限(margin of error):估计值的最大误差,使用E表示 置信度(confidence level):1-临界值(critical values):/2 置信区间边界(confidence interval limits):置信上限,置信下限大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区置信区间 ,1,所以(
6、1)0,1 1 2=1 ,故 2 1 =5,nq=5 之前的例子中,样本比例 =0.0636。那么所有成年异性恋者中,有不止一个性伴侣的人所占的比例p的95%置信区间为:2 1 =0.0636 1.960.06360.93642673=0.0636 0.0092=(0.0544,0.0728)有95%的把握(0.0544,0.0728)会包含真正的总体比例大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体比例的区间估计 更精确的计算方法:(1)0,1 1 =2 1 2=+222 2 +22+2 0=1 30 点估计:样本均值 是总体均值的最好点估计无偏而且比其他统计量更有效大
7、数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体均值的估计已知 区间估计 由(,2),得 =0,1 1 =2=2 +2=30,=14.75,=2.45,2=1.96 根据公式:E=2.45125=0.219 故所求置信区间为 2,+2 =(14.75 1.96 0.219,14.75+1.96 大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区样本容量的确定 在误差界限E和总体标准差已知的情况下:由=2得 =22 当未知时:(1)使用 极差(range)/4 来近似(2)进行预实验,使用预实验中的样本标准差S来近似(3)使用早期做的其他实验数据大数据的统计学基础
8、 讲师 何翠仪DATAGURU专业数据分析社区总体均值估计未知 适用条件:1.简单随机样本 2.总体正态分布或n30 点估计:样本均值 是总体均值的最好点估计 区间估计:/(1)1 =2,1=2,1 +2,1=+,此时,=2,1大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 某公司的全部职工中,随机抽取了23名员工,收集了他们的年龄数据,如下:34,37,37,38,41,42,43,44,44,45,45,45,46,48,49,53,53,54,54,55,56,57,60 求公司平均年龄的点估计与95%置信区间。解:(1)点估计:=34+37+57+6023=47.
9、0(2)区间估计:=23,1=22,=0.05,2=2.074 2=11=1()2=(3447)2+(3747)2+(6047)2231=52.1,=7.2 =/2=2.074 7.223=3.114 故95%的置信区间为(43.9,50.1)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体方差的估计 要求:1.简单随机样本 2.总体必须服从正态分布 点估计:样本方差是总体方差的最好点估计无偏 一般使用样本标准差估计总体标准差,尽管它是有偏的 区间估计:(1)222 11 =(1 2,121 22 2,12)=(1 2 2,12 21 21 2,12)大数据的统计学基础 讲
10、师 何翠仪DATAGURU专业数据分析社区例子 英国的硬币便士现在铸造机器的标准差为0.0165g。现想提高铸造工艺,降低便士的铸造标准差而引进了新的铸币机器。从新的机器铸造的一批硬币中随机抽取了10个硬币,测量其重量。根据测量的数据知道,这10个硬币的重量标准差为0.0125g。已知便士的重量服从正态分布,求新机器铸造的硬币的标准差的95%置信区间,并由此判断新的机器的铸造技艺是否有所改进。n=10,=0.05,故1 2,12=2.700,2,12=19.022 代入数据,101 0.0125219.022 2101 0.012522.700 两边开方,得(0.0086,0.0228)不能说
11、明铸造技艺提升大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区单侧区间估计 单侧置信区间:(置信下限,)或是(-,置信下限)总体均值的单侧置信区间:/(1)1 =,1=,1 /(1)1 =1,1 =+,1大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 从一批灯泡中随机地取5只做寿命试验,测得寿命(以h计)为:1050,1100,1120,1250,1280 设灯泡的寿命服从正态分布。求灯泡寿命平均值的95%的单侧置信区间。=0.95,n=5,1=0.05,4=2.1318,=1160,2=9950 ,1,=(1065,)大数据的统计学基础 讲师 何翠仪DA
12、TAGURU专业数据分析社区炼数成金逆向收费式网络课程 Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站 http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区ThanksFAQ时间