《大数据的统计学05.pdf》由会员分享,可在线阅读,更多相关《大数据的统计学05.pdf(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区大数据的统计学基础第5周大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础 讲师 何翠仪DATAGURU专业数
2、据分析社区导数基本初等函数求导公式基本初等函数求导公式 (1)0)(C (2)1)(xx (3)xxcos)(sin (4)xxsin)(cos (5)xx2sec)(tan (6)xx2csc)(cot (7)xxxtansec)(sec (8)xxxcotcsc)(csc (9)aaaxxln)(10)xxee)(11)axxaln1)(log (12)xx1)(ln,(13)211)(arcsinxx (14)211)(arccosxx (15)21(arctan)1xx (16)21(arccot)1xx 大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区不定积分 积分与
3、求导互为逆运算1、ckxkdx 2、caxdxxaa11 3、cxdxxln1 4、cxdxxarctan112 5、cxdxxarcsin112 6、cxxdxsincos 7、cxxdxcossin 8、cxxdxdxxtanseccos122 9、cxxdxdxxcotcscsin122 10、cxxdxxsectansec 11、cxxdxxcsccotcsc 12、cedxexx 13、caadxaxxln 大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区简单定积分计算 牛顿莱布尼兹公式:其中,F(x)为f(x)的原函数,即=()分部积分公法:设u(x)、v(x)在a
4、,b上具有连续导数,则()()|()()bbaaf x dxF xF bF a,则)(),(xvxubababaxduxvxvxuxdvxu)()()()()()(大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区回顾 上周的作业中,解答这道题我们设立了两个随机变量:用X记录甲投中的次数,Y记录乙投中的次数。我们写出了它们各自的分布律:X0123P0.0640.2880.4320.216Y0123P0.0270.1890.4410.343大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区回顾 这次我们尝试将X、Y取值的不同情况下的概率都计算出来 为了方便计算,我们把
5、X与Y的分布律的数据改一下 有了上表,再计算题目中的问题就变得简单了X0123P0.10.30.50.1Y0123P0.10.20.50.2联合分布律大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区二维随机变量 一般,设E是一个随机试验,它的样本空间是S=e,设X=Xe和Y=e是定义在S上的随机变量,由X与Y构成的向量(X,Y)叫做二维随机向量或是二维随机变量(Two-dimensional random vector)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区分布函数 设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:F(x,y)=P(Xx)(Y
6、y)=PXx,Yy 称为二维随机变量(X,Y)的联合分布函数(Joint probability distribution)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区分布函数的性质 1.F(x,y)是对于x和y的不减函数,即 2.0F(x,y)1,且对于任意固定的y,F(-,y)=0;对于任意固定的x,F(x,-)=0F(-,-)=0,F(,)=11212(,)(,)xxF x yF xy1212(,)(,)yyF x yF x yy2xy1(x,y1)(x,y2)x1x2(x1,y)(x2,y)y大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区分布函数的
7、性质 3.F(x,y)关于x右连续,关于y右连续,即 4.对于任意(x1,y1),(x2,y2),x1x2,y1y2,下述不等式成立:F(x2,y2)-F(x2,y1)+F(x1,y1)-F(x1,y2)00(,)(,)lim F xyF x y0(,)(,)lim F x yF x y大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例 3.1 设随机变量(X,Y)等可能地取值:(0,0),(0,2),(2,0),(2,2),求X,Y的联合分布函数.o(2,0)(0,2)解:I.I.IIIIIIIIVVx 0,或y 0时,0)(),(),(PyYxXPyxFII.II.0 x2
8、,0y2时,41)0,0(),(YXPIII.0 x2,y2时.214141)2,0(),()0,0(),(YXPYXP例子),(),(yYxXPyxF),(),(yYxXPyxF大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区IV.x2,0y 2时,214141V.x2,y2时,141414141例子),(yxF),(yYxXP)0,2(),()0,0(),(YXPYXP),(),(yYxXPyxF)2,2(),()0,2(),()2,0(),()0,0(),(YXPYXPYXPYXP大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 综上所述,得随机变量(
9、X,Y)的分布函数为F(F(x,yx,y)=)=0,x 00,x 0或或y 0;y 0;1/4,0 x2,0y2;1/4,0 x2,0y2;1/2,0 x2,y21/2,0 x2,y2及及x2,0y2;x2,0y2;1,x2,y2.1,x2,y2.大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区离散与连续.如果二维随机变量(X,Y)全部可能取到的值是有限对或是可列无限对,则称(X,Y)为离散型的二维随机变量。如果对于二维随机变量(X,Y)的分布函数F(x,y),存在非负可积函数f(x,y)使得对于任意x,y有F x,y=,称(X,Y)为连续型的二维随机变量。函数f(x,y)称为
10、二维随机变量(,)的联合概率密度(Joint probability density)。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区联合分布律 对于离散型的二维随机变量(X,Y)的所有可能取值为(xi,yi),I,j=1,2,,称PX=xi,Y=yi=pij,i,j=1,2,为随机变量X和Y的联合分布律(Joint distribution law)性质:y1y2yjXYp11p12p1jp21p22p2jpi1pi2pij1x2xix1 0 ,1,2,ijpi j,112 1ijijP大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 一个口袋中有三个球
11、,依次标有数字1,2,2,从中任取一个,不放回袋中,再任取一个.设每次取球时,各球被取到的可能性相等.以X,Y分别记第一次和第二次取到的球上标有的数字,求X,Y的联合分布律.解:(X,Y)的可能取值为(1,2),(2,1),(2,2)2()1()2,1(),(YXPYXP312231312132)2/1()2()1,2(),(XYPXPYXP)1/2()1(XYPXP312132)2,2(),(YXP大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 故X与Y的联合分布律XY12101/321/31/3o1 221(2,2)(2,1)(1,2)大数据的统计学基础 讲师 何翠仪
12、DATAGURU专业数据分析社区联合概率密度 联合概率密度的性质:1.f(x,y)0 2.,=,=1 3.设G是xOy平面上的区域,点(X,Y)落在G内的概率为PX,Y G=,4.若点f(x,y)在点(x,y)连续,则有2(,)xy=(,)大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区多维随机变量 二维随机变量可以推广到多维的情况:设E是一个随机试验,它的样本空间是S=e,设X1=X1e,X2=e,Xn=Xne是定义在S上的随机变量,由Xi构
13、成的向量(X1,X2,,Xn)叫做多维随机向量或是多维随机变量(Multidimensional random vector)对于任意x1,x2,xn,函数F(x1,x2,xn)=PX1x1,X2x2,Xnxn称为n维随机变量的分布函数大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区边缘分布 在多维随机变量中,将X,Y各自的分布称为边缘分布函数(Marginal distribution),分别记为,=P X x=P X x,Y =F(x,)=P Y y=P X 0 在X未知的情况下,抽到的人体重小于60kg的概率:P(X取任意值,Y 60)已知X=160cm的情况下,抽到抽到
14、的人体重小于60kg的概率:60 =160=(=160,60)(=160)设二维随机变量(X,Y),条件概率P(X x|Y=y)可以看做是在Y=y的条件下,X的分布函数|()大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区条件分布律 设离散二维随机变量(X,Y)的分布律为 关于和关于Y的边缘分布律分别为 则事件=|=的概率由条件概率的定义可知:称上式为在Y=yj条件下随机变量X的条件分布律,(,1,2,)ijijP Xx Yypi j(1,2,)iiijjpP Xxpi(1,2,)jjijipP Yypj(,)(|)()ijijijjjP Xx YyPP Xx YyP YyPi
15、=1,2n大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 盒子里装有3只黑球,4只红球,3只白球,在其中任取2球,以X表示取到黑球的数目,Y表示取到红球的只数。求(1)X,Y的联合分布律;(2)X=1时Y的条件分布律;(3)Y=0时X的条件分布律。解:X,Y的联合分布律为大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 由于P(X=1)=7/15,故在X=1的条件下,的分布律为 同理P(Y=0)=1/3,故在Y=0的条件下,X的分布律为:(0|1)3 7,P YX(1|1)4 7,P YX(2|1)0.P YXY013/74/7(|1)P Yk XX0
16、121/53/51/5(|0)P Xk Y大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区条件概率密度 对于连续型随机变量(X,Y),其联合概率密度为f(x,y),(X,Y)关于Y的边缘概率密度为()。若对固定的y,0,则称(,)()为在Y=y条件下X的条件概率密度(Conditional probability density),记为|=(,)()称|=|=(,)()为在Y=y条件下X的条件分布函数大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 设G是平面上的有界区域,其面积为A。若二维随机变量(X,Y)的概率密度为,=1,(,)0,其他 则称(X,Y)
17、在G上服从均匀分布。现设二维随机变量(X,Y)在圆域2+2 1上服从均匀分布,求条件概率密度|。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区定积分过程=1=2+211=12121=|1 2 1 2=21 2,1 1积分对象是x,要确定x的积分范围,此时y可以看做是一个单纯的常数,而不是自变量最后得出的函数表达式中只含有y,是y的边缘概率密度最后得到的条件概率密度是一个关于y的函数大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社
18、区各种分布的关系 联合分布可以唯一地确定边缘分布和条件分布联合分布边缘分布条件分布联合分布大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区随机变量的独立性 回顾事件的独立性:对于事件A,B,若P(AB)=P(A)P(B)成立,则称事件A,B相互独立 类比随机变量的独立性:对于随机变量X,Y,记A=Xx,B=Yy,若对于任意的x,y,都有P(AB)=P(A)P(B),即PXx,Yy=PXxPYy,即,=成立,称随机变量X和Y是相互独立的。当(X,Y)是连续型随机变量时,=等价于,=()()几乎处处成立 当(X,Y)是离散型随机变量时,=等价于 =,=大数据的统计学基础 讲师 何翠
19、仪DATAGURU专业数据分析社区例子 对于开头的例子,用X记录甲投中的次数,Y记录乙投中的次数。因为两人投篮是互不影响的,所以X与Y是相互独立的。可以根据公式 =,=验证X与Y的独立性。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区习题(1)放回抽样:(X,Y)的所有可能取值:(0,0)(0,1)(1,0)(1,1)P(X=0,Y=0)=10121012=2536;P(X=0,Y=1)=1012212=536 P(X=1,Y=0)=2121012=536;P(X=1,Y=1)=212212=136大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区习题 故放回抽
20、样时(X,Y)的联合分布律为(2)不放回抽样:P(X=0,Y=0)=1012911=4566;P(X=0,Y=1)=1012211=1066 P(X=1,Y=0)=2121011=1066;P(X=1,Y=1)=212111=166大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区习题 对于上述的X与Y,它们相互独立吗?(1)放回抽样:先求出与的边缘分布律 根据边缘分布律与联合分布律,很容易验证 =,=的正确性,所以与在放回抽样下是相互独立的。大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区习题()无放回抽样:很明显,PX=0,Y=0=45/6625/36=PX=
21、0PY=0 故在无放回抽样下,X与Y不相互独立大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区炼数成金逆向收费式网络课程 Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站 http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区ThanksFAQ时间