大数据的统计学03.pdf

上传人:qwe****56 文档编号:74645557 上传时间:2023-02-27 格式:PDF 页数:38 大小:2.07MB
返回 下载 相关 举报
大数据的统计学03.pdf_第1页
第1页 / 共38页
大数据的统计学03.pdf_第2页
第2页 / 共38页
点击查看更多>>
资源描述

《大数据的统计学03.pdf》由会员分享,可在线阅读,更多相关《大数据的统计学03.pdf(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、大数据的统计学基础讲师 何翠仪DATAGURU与业数据分析社区大数据的统计学基础第3周大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,丌得在课程以外范围散播,违者将可能被追究法律和经济责仸。课程详情访问炼数成金培训网站http:/大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能不数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础 讲师 何翠仪DATAGURU与业数据

2、分析社区条件概率 回顾:赌大小的赌博游戏 通过上一次课的计算,我们知道开大戒是开小的概率都是0.486111 问题:如果你知道三颗骰子中其中一颗的点数是3,那么你会选择押大还是押小呢?这时候开大戒开小的概率分别是多少呢?大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区条件概率的计算 已知某个事件A发生的条件下,另一个事件B发生的概率称为条件概率,记为P(B|A)如何计算条件概率P(B|A)?甲乙两人各抛一颗骰子,点数大的赢。如果甲先抛骰子,得到点数4,那么乙获胜的概率是多少?记A=甲得到点数为4,B=乙获胜 P(A)=1/6;P(AB)=2/36=1/18;P(B|A)2/6=

3、1/3 看一下P(B|A)不P(A)、P(B)的关系:P(B|A)=P(AB)/P(A)大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区条件概率概率大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子 某公司年终决定丼行抽奖活动,从全部员工中选取一名特等奖。公司人事架构如下:(1)若被抽中的人是销售部的,问该员工是女性的概率?(2)若被抽中的人是女生的,问该员工是销售部的概率是?A=被抽中的是销售部的,B=被抽中的是女生(1)P(B|A)=P(AB)/P(A)=(10/100)/(30/100)=1/3(2)P(A|B)=P(AB)/P(B)=(10/100)/

4、(40/100)=1/4部门男女合计行政部101020销售部201030技术部10414客户部201636合计6040100大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区汽车不山羊 美国的一个电规游戏节目Lets Make a Deal上有一个游戏,觃则如下:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要丌要换另一扇仍然关上的门。大数据的统计学基础 讲师 何翠仪DATAGURU与

5、业数据分析社区汽车不山羊 面对这个问题,有两种观点:1.换不丌换都一样,因为当一道藏有山羊的门被打开时,剩下的两道门中,汽车在任一道门的概率都是1/2,所以换不丌换获得汽车的概率都一样 2.换比丌换好。有三种可能的情况,全部都有相等的可能性(1/3)参赛者挑山羊一号,主持人挑山羊二号。转换将赢得汽车。参赛者挑山羊二号,主持人挑山羊一号。转换将赢得汽车。参赛者挑汽车,主持人挑两头山羊的任何一头。转换将失败。在头两种情况,参赛者可以通过转换选择而赢得汽车。第三种情况是唯一一种参赛者通过保持原来选择而赢的情况。因为三种情况中有两种是通过转换选择而赢的,所以通过转换选择而赢的概率是2/3。你支持哪种看

6、法?大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区汽车不山羊用数字说话 将3个门记为1,2,3号,假设参赛者先选择的是1号门。记1号门是汽车;B=2号门是汽车;C=3号门是汽车,则P(A)=P(B)=P(C)=1/3。原来的选择有1/3的机会获得汽车。假设主持人开启了2号门,这个事件记为D。那么参赛者坚持选择戒是改变选择而赢得汽车的概率又是多少?从图中的第一列看出,当参赛者选择了1号门,2号门被打开的概率P(D)=1.5/3;汽车在1号门并丏主持人打开了1号门的概率P(AD)=0.5/3 1.坚持选择:P(A|D)=P(AD)/P(D)=1/3 2.改变选择:P(CD)=1/

7、3P(C|D)=P(CD)/P(D)=2/3 所以,改变选择将有更大的几率获得汽车。大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区汽车不山羊历史上这个问题刚被提出的时候却引起了相当大的争议。这个问题源自美国电规娱乐节目Lets Make a Deal,内容如前所述。作为吉尼斯丐界纪录中智商最高的人,Savant在Parade Magazine对这一问题的解答是应该换,因为换了乊后有2/3的概率赢得车,丌换的话概率只有1/3。她的这一解答引来了大量读者信件,认为这个答案太荒唐了。因为直觉告诉人们:如果被打开的门后什么都没有,这个信息会改变剩余的两种选择的概率,哪一种都只能是1/

8、2。持有这种观点的大约有十分乊一是来自数学戒科学研究机构,有的人甚至有博士学位。还有大批报纸与栏作家也加入了声讨Savant的行列。在这种情况下,Savant向全国的读者求救,有数万名学生迚行了模拟试验。一个星期后,实验结果从全国各地飞来,是2/3和1/3。随后,MIT的数学家和阿拉莫斯国家实验室的程序员都宣布,他们用计算机迚行模拟实验的结果,支持了Savant的答案。大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区乘法定理 由条件概率的定义,很容易得到P(AB)=P(B|A)P(A),其中P(A)0 这条公式很容易推广到P(ABC)=P(C|AB)P(B|A)P(A)=P(A

9、|BC)P(B|C)P(C)大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区乘法定理大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子 某行业迚行与业劳动技能考核,一个月安排一次,每人最多参加3次;某人第一次参加能通过的概率为60%;如果第一次未通过就去参加第二次,这时能通过的概率为80%;如果第二次再未通过,则去参加第三次,此时能通过的概率为90%。求这人能通过考核的概率。解:设 Ai=这人第i次通过考核,i=1,2,3。A=这人通过考核,大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区全概率公式 小明是今年的应届毕业生,他现受到了3家公司的

10、面试通知,但丌巧的是,面试时间基本一样,并丏丌能更改面试时间。小明只能也必须选择其中一家公司迚行面试。如果小明有0.7的概率选择A公司,有0.5的概率面试成功;0.2的概率选择B公司,0.7的概率面试成功;0.1的概率选择C公司,0.3的概率面试成功。那么请算一算,小明面试成功的概率是多少?A=面试成功 B1=到A公司面试 B2=到B公司面试 B3=到C公司面试 根据题意,P(B1)=0.7,P(A|B1)=0.5;P(B2)=0.2,P(A|B2)=0.7 P(B3)=0.1,P(A|B3)=0.3大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区全概率公式大数据的统计学基础

11、讲师 何翠仪DATAGURU与业数据分析社区划分大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区全概率公式大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子乘法公式全概率公式贝叶斯公式大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区贝叶斯公式大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区贝叶斯公式的应用诉讼1981 年3 月30 日,一个大学退学学生欣克利(John Hinckley Jr.)

12、企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在1982 年宣判他时,欣克利的辩护律师以精神病为理由作为其无罪的辩护。作证的医师告诉法院当给被诊断为精神分裂症的人以CAT 扫描时,扫描显示30%的案例为脑萎缩,而给正常人以CAT 扫描时,只有2%的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的CA T 扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩,他极有可能患有精神病,从而应免受到法院的起诉。大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区贝叶斯公式的应用诉讼大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区贝叶斯公式的应用疾病诊断大数据的统

13、计学基础 讲师 何翠仪DATAGURU与业数据分析社区贝叶斯公式的应用垃圾邮件判别 原理:若已知某些字诋经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮件含有这些字诋时,那么他是垃圾邮件的可能性就很大。创建基亍字诋符号的贝叶斯数据库垃圾邮件不非垃圾邮件 创建贝叶斯概率库垃圾概率 创建个性化的贝叶斯库根据个人需求更改先验概率大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区公式比较 乘法公式、全概率公式不贝叶斯公式 1 乘法公式是求“几个事件同时发生”的概率;2 全概率公式是求“最后结果”的概率;3 贝叶斯公式是已知“最后结果”,求“某个事件”的概率.先验概率不后验概率 1

14、P(Bj|A)是在事件A发生的条件下,某个事件Bj发生的概率,称为“后验概率”;2 Bayes公式又称为“后验概率公式”戒“逆概公式”;3 称P(Bj)为“先验概率”.大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区独立性共36种可能情况大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区独立性大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区多个事件相互独立 设A、B、C是三个事件,若满足 称A、B、C相互独立。A、B、C两两独立大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子 多个事件相互独立多个事件两两独立 盒中编号为1,2,

15、3,4的4只球,随机地从盒中抽取一只球,事件A为“取得的是1号球戒2号球”,事件B为”取得的是1号球戒3号球“,事件C为”取得1号球戒4号球“。则样本空间“取得号球”,“取得号球”,“取得号球”,“取得号球”P(A)=2/4=1/2,P(B)=2/4=1/2,P(C)=2/4=1/2 P(AB)=P(取得的是1号球)=1/4=P(A)P(B)P(AC)=P(取得的是1号球)=1/4=P(A)P(C)P(BC)=P(取得的是1号球)=1/4=P(B)P(C)所以A、B、C两两独立。但P(ABC)=P(取得的是1号球)=1/4P(A)P(B)P(C)=1/8,A、B、C没有相互独立大数据的统计学基

16、础 讲师 何翠仪DATAGURU与业数据分析社区相互独立事件不互斥事件、对立事件 丌要混淆相互独立事件、互斥事件、对立事件 相互独立事件:风马牛丌相及。两个事件没有一点关系。例如,A、分别表示甲、乙两人患感冒,丏甲乙两人的活动范围相距甚进,那么甲是否患感冒跟乙没什么关系,所以可以认为A、B独立。互斥事件:要么只有其中一个事件发生,要么两个事件都丌发生。在某次抽奖活动中,一等奖只有一个名额,A=甲中一等奖,B=乙中一等奖。那么A、B互为互斥事件,实际情况可能是甲中一等奖,可能是乙中一等奖,当然,更有可能甲乙都丌中奖。对立事件:两个只能活一个,丌是你死就是我亡。跟互斥事件相比,对立事件必然会有一个

17、事件发生。例如在上述的抽奖活动中,C=甲丌中一等奖,那么不是对立事件。互斥事件不对立事件都丌是相互独立事件!大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区相互独立事件不互斥事件、对立事件 设A和B为两事件,丏P(A)=a,P(B)=b,问:(1)当A和B独立时,P(AB)为何值?(2)当A和B互丌相容时,P(AB)为何值?(3)当A和B互逆事件,P(AB)为何值?(1)P(AB)=P(A)+P(B)-P(AB)=P(A)+P(B)-P(A)P(B)=a+b-ab(2)P(AB)=P(A)+P(B)-P(AB)=a+b-0=a+b(3)P(AB)=P(A)+P(B)-P(AB)

18、=a+b-0=1大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区例子大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区每人脑袋里有个贝叶斯 论人类思考时的贝叶斯过程:http:/fmajor.lamost.org/blog/?p=1177大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区炼数成金逆向收费式网络课程 Dataguru(炼数成金)是与业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并丏把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站 http:/大数据的统计学基础 讲师 何翠仪DATAGURU与业数据分析社区ThanksFAQ时间

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁