《大数据的统计学06.pdf》由会员分享,可在线阅读,更多相关《大数据的统计学06.pdf(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区大数据的统计学基础第6周大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础 讲师 何翠仪DATAGURU专业数
2、据分析社区赌金分配 在17世纪,有一个赌徒向法国著名数学家帕斯卡挑战,给他出了一道题目:甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。当比赛进行到第三局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?分析:假设继续再赌下次,则有如下结果 前三局中,甲已胜了两局,乙胜了一局第四局甲胜乙胜第五局甲胜乙胜大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区赌金分配 所以甲最终获胜的概率是3/4,乙最终获胜的概率是1/4 根据甲乙两人的获胜概率分配赌金 甲的期望所得值为100*(3/4)=7
3、5法郎;乙的期望所得值100*(1/4)=25法郎 若设X为甲最终获得的赌金,则 从而X的期望值,也就是甲最终获得的赌金的期望值为 这个故事里出现了“期望”这个词,数学期望由此而来X1000P3/41/4)法郎(7541043100大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区离散型随机变量的数学期望 设离散型随机变量X的分布律为P X=,k=1,2,。若级数=1绝对收敛,则称=1为随机变量X的数学期望,记为E(X)。即E(X)=1 例:随机变量X的分布律如下 则E(X)=14=0*0.2+1*0.1+2*0.5+3*0.2=1.61X0123P0.20.10.50.2就是求
4、随机变量的取值乘以相应的概率的和大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区运动员选拔 设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?一个射击运动员的射击水平,可以通过他的平均得分来衡量乙射手击中环数击中环数概率概率10982.05.03.0甲射手击中环数击中环数概率概率10983.01.06.0大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区运动员选拔 如何计算平均得分?假设甲乙两人每人射击了10次,那么理论上,甲乙的得分是:那么理论上,甲的平均得分为:(8+8+8+9+10
5、+10+10+10+10+10)/10=(8*3+9*1+10*6)/10=8*0.3+9*0.1+10*0.6=9.3(环)乙的平均得分为:(8+8+9+9+9+9+9+10+10+10)/10=(8*2+9*5+10*3)/10=8*0.2+9*0.5+10*0.3=9.1(环)所以甲比乙的射击技术好甲8889101010101010乙8899999101010大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区运动员选拔 若用X记录甲射击一次击中的环数,用Y记录乙射击一次击中的环数,则 X的期望值:8*0.3+9*0.1+10*0.6=9.3 Y的期望值:8*0.2+9*0.
6、5+10*0.3=9.1 随机变量的期望值=均值X8910P0.30.10.6Y8910P0.20.50.3与理论上的平均得分相等大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区新生婴儿得分大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区候车时间大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区(0-1)分布的数学期望 若X服从(0-1)分布,参数p=0.5,求E(X)。则E(X)=0*0.5+1*0.5=0.5=p 更一般情况:E(X)=0*(1-p)+1*p=p 结论:若X服从参数为p的(0-1)分布,则E(X)=pX01P0.50.5X01P
7、1-pp大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区二项分布的数学期望 体育课中小明进行投篮练习,若小明每次投中的概率是0.6,记X为3次投篮投中的次数。求E(X)。解:XB(3,0.6),则 P(X=0)=0.4*0.4*0.4=0.064 P(X=1)=3*0.6*0.4*0.4=0.288 P(X=2)=3*0.6*0.6*0.4=0.432 P(X=3)=0.6*0.6*0.6=0.216 故E(X)=0*0.064+1*0.288+2*0.432+3*0.216=1.8=3*0.6X0123P0.0640.2880.4320.216大数据的统计学基础 讲师 何翠仪
8、DATAGURU专业数据分析社区二项分布的数学期望 更一般地情况,若XB(n,p),则X的分布律为 =(1 )npppnpppCnpppininnpppknknnpppknknnpppknkknppCkkXPkXEnniiniinniininkknkknnkknkknknkknkknnk110)1(110)1(1)1()1(1)1()1(11000)1()1()1(!)1(!)!1()1()!1()1()!1()!1()1()!1()1()!1()!1()1()!(!1二项式定理:(+)=0令i=k-1大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区连续型随机变量的数学期望 将
9、离散型随机变量的定义类比到连续型随机变量上 设连续型随机变量X的概率密度为f(x),若积分()绝对收敛,则称积分()的值为随机变量X的数学期望。记为E(X),即E =()E(X)=1类比大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区均匀分布的数学期望 设XU(2,4),求E(X)。X的概率密度为 =142=12,2 恰好是2与4的中点 更一般地情况,若XU(a,b),则 =()=22()|=22 22 =+2 =+2服从均匀分布的随机变量的期望值位于区间(a,b)中点大数据的统计学基础 讲师 何翠仪DATAG
10、URU专业数据分析社区正态分布的数学期望 设,其概率密度为 则有),(2NX.,0,e21222xxfx xxxpXEdxxxde21222txtx令xxxXEde21)(222tttde212-2ttde2122tttde222=0标准正态分布的概率密度积分=1大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区分布的数学期望 见附表1 几种常见的概率分布表大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区赌博的公平性 美国的轮盘中常用的轮盘上有38个数字,每一个数字被选中的概率都是相等的。赌注一般押在其中某一个数字上,如果轮盘的输出值和这个数字相等,那么下赌者可以
11、将相当于赌注35倍的奖金(原注包含在内),若输出值和下压数字不同,则赌注就输掉了。因此,考虑到38种所有的可能结果,以1美元赌注押一个数字上获利的期望值为:-1*(37/38)+35*(1/38)-0.0526 结果约等于-0.0526美元。也就是说,平均起来每赌1美元就会输掉5美分,即美式轮盘以1美元作赌注的期望值为0.9474美元。在赌博中,一场每位参与者获利期望值为0(没有净利或净亏)的游戏通常会被叫做“公平竞赛”。所以这样的赔率设计是不公平的。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区赌博的公平性 某个赌博游戏规则如下:每个参加者每次先付赌金1元,然后将三个骰子一
12、起掷出,他可以赌某个点数,譬如赌“1”点。如果三枚骰子中出现一个“1”点,庄家除把赌金1元还外,再奖1元;如果出现两个“1”点,除发还赌金外,再奖2元;如果全是“1”点,那么,除发还赌金外,再奖3元。试问这样的游戏规则对下注者是否公平?用X记参加者最终的获利。X的可能取值:-1,1,2,3 PX=-1=565656=125216 PX=1=3156216=75216 PX=2=3216256=15216 PX=3=161616=1216大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区赌博的公平性X-1123P 125/21675/21615/2161/216 所以E(X)=-1
13、*(125/216)+1*(75/216)+2*(15/216)+3*(1*216)=-17/216 所以,平均每参与216次,会输17元。对于庄家来说,只要长期有人参与这个游戏,肯定是会赢钱。这个赌博的设计不公平。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区数学期望的性质 1.设C是常数,则有E(C)=C 2.设是一个随机变量,是常数,则有E(CX)=CE(X)3.设X,Y是两个随机变量,则有E(X+Y)=E(X)+E(Y)可以推广到任意有限个随机变量之和的情况 4.设X,是相互独立的两个随机变量,则E(XY)=E(X)E(Y)5.设Y是随机变量X的函数:Y=g(X)(g
14、是连续函数),则1)X是离散型,E Y=1()2)X是连续型,E =()()大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区方差数据的离散程度 运动员选拔 设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?X记甲击中环数,Y记乙击中环数 E(X)=8*0.3+9*0.2+10*0.5=9.2 E(Y)=8*0.1+9*0.6+10*0.3=9.2击中环数8910概率甲0.30.20.5乙0.10.60.3平均水平相等,考察发挥的稳定性
15、方差大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区方差数据的离散程度 假设甲乙两人每人各射击了10次,理论上击中的环数 则甲的方差为:1108 9.22+8 9.22+10 9.22=110 3 8 9.22+甲888991010101010乙8999999101010乙的稳定性更好大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区随机变量的方差 设X施一个随机变量,若 2存在,则称EX-E(X)为X的方差,记为D(X)或Var(X),即D(X)=Var(x)=2()称为X的标准差。若X是离散型随机变量,则 =1 2 若X是连续型随机变量,则 =2 =2=2 2
16、 +2=2 2 +2=2 2 2=D X+2 与第一周方差的化简式2=1=12 2是一样的。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区标准化大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区(0-1)分布的方差大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区均匀分布的方差大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区方差的性质 1.设C是常数,则D(C)=0 2.设X是随机变量,C是常数,则有D CX=2 ,+=3.设X,Y是两个随机变量,则有 +=+2 当X,Y相互独立时,则有D(X+Y)=D(X)+D(Y)4.D(X)=
17、0的充分必要条件是PX=E(X)=1大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区二项分布的方差 设随机变量XB(n,p),求D(X)由二项分布的定义知道,随机变量X是n重伯努利试验中试验成功的次数,且每次试验成功的概率为p。引入随机变量=1,第次试验成功0,第次试验失败k=1,2n 则有=1+2+。1,2,相互独立且都服从参数为p的(0-1)分布 故(1)=2=(1 )D(X)=D(1+2+)=np(1-p)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区正态分布的方差服从标准正态分布分部积分,公式大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析
18、社区正态分布 对于n个随机变量,若,2,=1,2,且相互独立(独立同分布),则11+22+(=1,=122)例:若XN(0,1),YN(2,4),且X与Y相互独立,则X+YN(2,5)例:大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区协方差与相关系数 称 为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y)=E(XY)-E(X)E(Y)称XY=(,)()()为随机变量X与Y的相关系数 相关系数用于衡量两个随机变量之间的线性相关性 当X与Y相互独立时,Cov(X,Y)=EXY-XE(Y)-YE(X)+E(X)E(Y)=E(XY)-E(X)E(Y)-E(X)E(Y)
19、+E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0 此时,X与Y的相关系数也为0,称X与Y不相关大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区协方差的性质 1.Cov(aX,bY)=abCov(X,Y),其中,a,b为常数 2.Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X1+X2,Y1+Y2)=Cov(X1,Y1)+Cov(X1,Y2)+Cov(X2,Y1)+Cov(X2,Y2)3.方差是特殊的协方差:Cov(X,X)=D(X)证明:1.Cov(aX,bY)=E(abXY)-E(aX)E(bY)=abE(XY)-abE(X)E(Y)=ab
20、Cov(X,Y)2.Cov(X1+X2,Y)=E(X1+X2)Y-E(X1+X2)E(Y)=E(X1*Y)+E(X2*Y)-E(X1)E(Y)-E(X2)E(Y)=Cov(X1,Y)+Cov(X2,Y)3.Cov(X,X)=E(X2)-E(X)2=D(X)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区相关系数的性质 1.|XY|1 当-1XY0时,称X与Y成负相关;当0XY1时,称X与Y成正相关 2.|XY|=1当且仅当存在常数a,b使PY=a+bX=1成立。此时称X与完全线性相关大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区不相关与相互独立 当XY时(即C
21、ov(X,Y)=0)我们称X与不相关相互独立不相关大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区矩大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区协方差矩阵 对于n维随机变量X=(X1,X2,Xn),记cij=Cov(Xi,Xj),称矩阵=1111 为X的协方差矩阵。对于二维随机变量(X,Y),(X,Y)的协方差矩阵为()(,)(,)()协方差矩阵都是对称矩阵大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区炼数成金逆向收费式网络课程 Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站 http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区ThanksFAQ时间