大数据的统计学06.pdf-淘文阁

资源描述

《大数据的统计学06.pdf》由会员分享，可在线阅读，更多相关《大数据的统计学06.pdf（43页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区大数据的统计学基础第6周大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料，所有资料只能在课程内使用，不得在课程以外范围散播，违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http:/大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯，涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等，各种高性价比课程信息，赶紧掏出您的手机关注吧！大数据的统计学基础讲师何翠仪DATAGURU专业数

2、据分析社区赌金分配在17世纪，有一个赌徒向法国著名数学家帕斯卡挑战，给他出了一道题目：甲乙两个人赌博，他们两人获胜的机率相等，比赛规则是先胜三局者为赢家，赢家可以获得100法郎的奖励。当比赛进行到第三局的时候，甲胜了两局，乙胜了一局，这时由于某些原因中止了比赛，那么如何分配这100法郎才比较公平？分析：假设继续再赌下次，则有如下结果前三局中，甲已胜了两局，乙胜了一局第四局甲胜乙胜第五局甲胜乙胜大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌金分配所以甲最终获胜的概率是3/4，乙最终获胜的概率是1/4 根据甲乙两人的获胜概率分配赌金甲的期望所得值为100*（3/4）=7

3、5法郎；乙的期望所得值100*（1/4）=25法郎若设X为甲最终获得的赌金，则从而X的期望值，也就是甲最终获得的赌金的期望值为这个故事里出现了“期望”这个词，数学期望由此而来X1000P3/41/4)法郎(7541043100大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区离散型随机变量的数学期望设离散型随机变量X的分布律为P X=，k=1,2,。若级数=1绝对收敛，则称=1为随机变量X的数学期望，记为E(X)。即E(X)=1 例：随机变量X的分布律如下则E(X)=14=0*0.2+1*0.1+2*0.5+3*0.2=1.61X0123P0.20.10.50.2就是求

4、随机变量的取值乘以相应的概率的和大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?一个射击运动员的射击水平，可以通过他的平均得分来衡量乙射手击中环数击中环数概率概率10982.05.03.0甲射手击中环数击中环数概率概率10983.01.06.0大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔如何计算平均得分？假设甲乙两人每人射击了10次，那么理论上，甲乙的得分是：那么理论上，甲的平均得分为：（8+8+8+9+10

5、+10+10+10+10+10）/10=（8*3+9*1+10*6）/10=8*0.3+9*0.1+10*0.6=9.3（环）乙的平均得分为：（8+8+9+9+9+9+9+10+10+10）/10=（8*2+9*5+10*3）/10=8*0.2+9*0.5+10*0.3=9.1（环）所以甲比乙的射击技术好甲8889101010101010乙8899999101010大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔若用X记录甲射击一次击中的环数，用Y记录乙射击一次击中的环数，则 X的期望值：8*0.3+9*0.1+10*0.6=9.3 Y的期望值：8*0.2+9*0.

6、5+10*0.3=9.1 随机变量的期望值=均值X8910P0.30.10.6Y8910P0.20.50.3与理论上的平均得分相等大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区新生婴儿得分大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区候车时间大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区(0-1)分布的数学期望若X服从（0-1）分布，参数p=0.5，求E(X)。则E(X)=0*0.5+1*0.5=0.5=p 更一般情况：E(X)=0*(1-p)+1*p=p 结论：若X服从参数为p的（0-1）分布，则E(X)=pX01P0.50.5X01P

7、1-pp大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布的数学期望体育课中小明进行投篮练习，若小明每次投中的概率是0.6，记X为3次投篮投中的次数。求E(X)。解：XB(3,0.6)，则 P(X=0)=0.4*0.4*0.4=0.064 P(X=1)=3*0.6*0.4*0.4=0.288 P(X=2)=3*0.6*0.6*0.4=0.432 P(X=3)=0.6*0.6*0.6=0.216 故E(X)=0*0.064+1*0.288+2*0.432+3*0.216=1.8=3*0.6X0123P0.0640.2880.4320.216大数据的统计学基础讲师何翠仪

8、DATAGURU专业数据分析社区二项分布的数学期望更一般地情况，若XB(n,p),则X的分布律为 =(1 )npppnpppCnpppininnpppknknnpppknknnpppknkknppCkkXPkXEnniiniinniininkknkknnkknkknknkknkknnk110)1(110)1(1)1()1(1)1()1(11000)1()1()1(!)1(!)!1()1()!1()1()!1()!1()1()!1()1()!1()!1()1()!(!1二项式定理:(+)=0令i=k-1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区连续型随机变量的数学期望将

9、离散型随机变量的定义类比到连续型随机变量上设连续型随机变量X的概率密度为f(x)，若积分()绝对收敛，则称积分()的值为随机变量X的数学期望。记为E(X)，即E =()E(X)=1类比大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区均匀分布的数学期望设XU（2，4），求E(X)。X的概率密度为 =142=12，2 恰好是2与4的中点更一般地情况，若XU(a,b)，则 =()=22()|=22 22 =+2 =+2服从均匀分布的随机变量的期望值位于区间（a,b）中点大数据的统计学基础讲师何翠仪DATAG

10、URU专业数据分析社区正态分布的数学期望设，其概率密度为则有),(2NX.,0,e21222xxfx xxxpXEdxxxde21222txtx令xxxXEde21)(222tttde212-2ttde2122tttde222=0标准正态分布的概率密度积分=1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区分布的数学期望见附表1 几种常见的概率分布表大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性美国的轮盘中常用的轮盘上有38个数字，每一个数字被选中的概率都是相等的。赌注一般押在其中某一个数字上，如果轮盘的输出值和这个数字相等，那么下赌者可以

11、将相当于赌注35倍的奖金(原注包含在内)，若输出值和下压数字不同，则赌注就输掉了。因此，考虑到38种所有的可能结果，以1美元赌注押一个数字上获利的期望值为：-1*（37/38）+35*（1/38）-0.0526 结果约等于-0.0526美元。也就是说，平均起来每赌1美元就会输掉5美分，即美式轮盘以1美元作赌注的期望值为0.9474美元。在赌博中，一场每位参与者获利期望值为0（没有净利或净亏）的游戏通常会被叫做“公平竞赛”。所以这样的赔率设计是不公平的。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性某个赌博游戏规则如下：每个参加者每次先付赌金1元，然后将三个骰子一

12、起掷出，他可以赌某个点数，譬如赌“1”点。如果三枚骰子中出现一个“1”点，庄家除把赌金1元还外，再奖1元；如果出现两个“1”点，除发还赌金外，再奖2元；如果全是“1”点，那么，除发还赌金外，再奖3元。试问这样的游戏规则对下注者是否公平？用X记参加者最终的获利。X的可能取值：-1，1，2，3 PX=-1=565656=125216 PX=1=3156216=75216 PX=2=3216256=15216 PX=3=161616=1216大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性X-1123P 125/21675/21615/2161/216 所以E(X)=-1

13、*(125/216)+1*(75/216)+2*(15/216)+3*(1*216)=-17/216 所以，平均每参与216次，会输17元。对于庄家来说，只要长期有人参与这个游戏，肯定是会赢钱。这个赌博的设计不公平。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区数学期望的性质 1.设C是常数，则有E(C)=C 2.设是一个随机变量，是常数，则有E(CX)=CE(X)3.设X，Y是两个随机变量，则有E(X+Y)=E(X)+E(Y)可以推广到任意有限个随机变量之和的情况 4.设X，是相互独立的两个随机变量，则E(XY)=E(X)E(Y)5.设Y是随机变量X的函数：Y=g(X)（g

14、是连续函数），则1）X是离散型，E Y=1()2）X是连续型，E =()()大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区方差数据的离散程度运动员选拔设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?X记甲击中环数，Y记乙击中环数 E(X)=8*0.3+9*0.2+10*0.5=9.2 E(Y)=8*0.1+9*0.6+10*0.3=9.2击中环数8910概率甲0.30.20.5乙0.10.60.3平均水平相等，考察发挥的稳定性

15、方差大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区方差数据的离散程度假设甲乙两人每人各射击了10次，理论上击中的环数则甲的方差为:1108 9.22+8 9.22+10 9.22=110 3 8 9.22+甲888991010101010乙8999999101010乙的稳定性更好大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区随机变量的方差设X施一个随机变量，若 2存在，则称EX-E(X)为X的方差，记为D(X)或Var(X)，即D(X)=Var(x)=2()称为X的标准差。若X是离散型随机变量,则 =1 2 若X是连续型随机变量，则 =2 =2=2 2

16、 +2=2 2 +2=2 2 2=D X+2 与第一周方差的化简式2=1=12 2是一样的。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区标准化大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区（0-1）分布的方差大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区均匀分布的方差大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区方差的性质 1.设C是常数，则D(C)=0 2.设X是随机变量，C是常数，则有D CX=2 ，+=3.设X，Y是两个随机变量，则有 +=+2 当X,Y相互独立时，则有D(X+Y)=D(X)+D(Y)4.D(X)=

17、0的充分必要条件是PX=E(X)=1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布的方差设随机变量XB(n,p)，求D(X)由二项分布的定义知道，随机变量X是n重伯努利试验中试验成功的次数，且每次试验成功的概率为p。引入随机变量=1,第次试验成功0,第次试验失败k=1,2n 则有=1+2+。1,2,相互独立且都服从参数为p的（0-1）分布故(1)=2=(1 )D(X)=D(1+2+)=np(1-p)大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区正态分布的方差服从标准正态分布分部积分，公式大数据的统计学基础讲师何翠仪DATAGURU专业数据分析

18、社区正态分布对于n个随机变量，若,2，=1,2,且相互独立（独立同分布），则11+22+(=1,=122)例：若XN(0,1)，YN(2,4)，且X与Y相互独立，则X+YN(2,5)例：大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区协方差与相关系数称为随机变量X与Y的协方差，记为Cov(X,Y),即Cov(X,Y)=E(XY)-E(X)E(Y)称XY=(,)()()为随机变量X与Y的相关系数相关系数用于衡量两个随机变量之间的线性相关性当X与Y相互独立时，Cov(X,Y)=EXY-XE(Y)-YE(X)+E(X)E(Y)=E(XY)-E(X)E(Y)-E(X)E(Y)

19、+E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0 此时，X与Y的相关系数也为0,称X与Y不相关大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区协方差的性质 1.Cov(aX,bY)=abCov(X,Y)，其中，a，b为常数 2.Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X1+X2,Y1+Y2)=Cov(X1,Y1)+Cov(X1,Y2)+Cov(X2,Y1)+Cov(X2,Y2)3.方差是特殊的协方差：Cov(X,X)=D(X)证明：1.Cov(aX,bY)=E(abXY)-E(aX)E(bY)=abE(XY)-abE(X)E(Y)=ab

20、Cov(X,Y)2.Cov(X1+X2,Y)=E(X1+X2)Y-E(X1+X2)E(Y)=E(X1*Y)+E(X2*Y)-E(X1)E(Y)-E(X2)E(Y)=Cov(X1,Y)+Cov(X2,Y)3.Cov(X,X)=E(X2)-E(X)2=D(X)大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区相关系数的性质 1.|XY|1 当-1XY0时，称X与Y成负相关；当0XY1时，称X与Y成正相关 2.|XY|=1当且仅当存在常数a,b使PY=a+bX=1成立。此时称X与完全线性相关大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区不相关与相互独立当XY时（即C

21、ov(X,Y)=0)我们称X与不相关相互独立不相关大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区矩大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区协方差矩阵对于n维随机变量X=(X1,X2,Xn),记cij=Cov(Xi,Xj),称矩阵=1111 为X的协方差矩阵。对于二维随机变量(X,Y),(X,Y)的协方差矩阵为()(,)(,)()协方差矩阵都是对称矩阵大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区炼数成金逆向收费式网络课程 Dataguru（炼数成金）是专业数据分析网站，提供教育，媒体，内容，社区，出版，数据分析业务等服务。我们的课程采用新兴的互联网教育形式，独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围，重竞争压力的特点，同时又发挥互联网的威力打破时空限制，把天南地北志同道合的朋友组织在一起交流学习，使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本，直线下降至百元范围，造福大众。我们的目标是：低成本传播高价值知识，构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情，请看我们的培训网站 http:/大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区ThanksFAQ时间

展开阅读全文