《如何挖掘数据背后隐藏的真相.docx》由会员分享,可在线阅读,更多相关《如何挖掘数据背后隐藏的真相.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如何挖掘数据背后隐藏的真相在纷乱的信息时代,人们好像已经失去一种认知和辨别能力,被动地接受着各种数据的信息“攻击”。虽然统计数据很容易撒谎,但没有统计数据,撒谎更容易。2020年初新冠疫情肆虐全球之时,严谨、及时和真实的统计数据的重要性一下子凸显出来。所有人每天都会打开社交网站和新闻媒体,关注过去24小时病例的新增数据、死亡数据。各国政要不得不迅速做出几十年来最重要的决策。其中许多决定都有赖于流行病学家、医学统计学家和经济学家竞相进行的数据调查工作。新冠病毒威胁着千万人的生命,几十亿人的生活受到严重影响。流行病学家约翰约安尼迪斯在2020年3月中旬写道,新冠“可能是百年一遇的数据滑铁卢”。统计
2、人员本希望能用数据为政府的决策助一臂之力,但他们手头的数据要么不完整,要么对不上,要么样本不够,无法在这生死攸关的时刻让它们发挥应有的作用。真是没有什么情况能比新冠更生动地说明数据的重要性了。人们平时对准确、系统地收集来的数据太不以为意了。在新型冠状病毒出现之前,多年来,勤勉的统计学家辛辛苦苦地收集了大量重要问题的统计数据,供人们随时随地免费下载。但是,人们被这种免费惯坏了,往往不以为意地随口说一句“假的,都是些骗人的话”。现在好了,新冠的例子给我们上了生动的一课:没有统计数据我们会面临怎样的绝境。那么如何从充满虚假信息、不良研究和糟糕动机的世界中挖掘可贵的数据?我们从拼凑真相这本书摘取了五大
3、法则,教会大家正确运用统计数据,让“用数据沟通”变得更可信。法则一:不乱于心,不困于情学习的第一步可以从学会控制情绪开始。学会观察和反省自己的情绪。当你看到数据结果时,注意自己的反应。如果看到那些统计结果,无论是感到愤怒还是欣喜,或不敢相信,你都要停顿一下,反思一下。你不用成为一个没有感情的人,但既然可以用心感受,也一定可以用脑子思考。当我们遇到某个世界问题的统计数据,想着要不要在社交媒体上点赞转发,或者激烈驳斥时,停一下,先问自己这样一个问题:“我的情绪为何如此激动?”我们这样做不仅仅是为了自己,还有一种社会责任在里面。我们已经看到社会压力在我们的观念和思考问题的方式方面的影响有多大。我们要
4、慢点下定论,学会先控制自己的情绪和抛开立场,只关注事实本身,这样我们不仅可以更清醒地思考问题,也为他人提供了正确的思考问题模式,即我们不是以某个政治派别的成员的立场,而是以持不偏不倚态度的个体身份思考和推理问题的。我想形成这样的习惯。我希望这也是你的愿望。情绪能左右人的思考。所以当解读统计数据时,专业知识和技术固然重要,但如果不给情绪这匹野马套上缰绳,任由它带着我们时信时疑,我们终将会马失前蹄。法则二:蠕虫视角和鸟瞰视角结合试着学会从两个角度看问题:蠕虫视角和鸟瞰视角。两个视角会给你展示一些不同的东西,这可能也成为你的难题:这两种景象孰真孰假?这样的疑问会让你踏上探究之旅。我们在后面会发现有时
5、统计数据会误导我们。有时,我们自己的眼睛欺骗了我们;有时,一旦我们明白了事情的缘由,数字和眼睛所见的不符也就可以理解了。人们容易把从自己的视角看到的东西理解成事情的全貌,心理学家把这叫作“天真的现实主义”,即认为自己看到的是没有任何偏差的实情。这种一叶障目的天真的现实主义会严重误导我们。天真的现实主义会让人对很多事物产生错误理解。比如莫里民意调查机构就一系列社会问题对38个国家的近3万人做了调查。结果发现这些人可以代表我们中的大多数人对事情的了解与可靠的统计数据严重不符,以下就是列子。 我们对谋杀犯罪率的理解是错的。我们以为自2000年以来杀人案一直在上升,但在大多数接受调查的国家,这一比例一
6、直在下降。 我们以为在过去15年里死于恐怖主义的人数比15年前的要高,其实人数下降了。 我们认为28%的囚犯是移民。莫里调查估算,所有受访国家的真实比例应为15%。 我们以为每年会有20%的少女生育。这个数字其实从生物学的角度没有多少可信度。从具有生育能力的12岁开始算,一个18岁的女孩已有6次20%的生育概率,那么大多数18岁少女应该至少有一个孩子了。我们看看身边的情况,这是真的吗?莫里调查统计得出,正确的数字是每年只有2%的少女生育。 我们以为34%的人患有糖尿病,而真正的数字是8%。 我们以为75%的人用脸书。2017年调查时,这个数字是46%。新闻报道的事件,在某种程度上也是数据,它们
7、虽然不是代表性的数据,却实实在在地影响了我们对世界的看法。用卡尼曼的话说,它们就是“快数字”让人一下子就能得出结论的数字。鸟瞰视角提供的数字枯燥严谨,但全面深刻,蠕虫视角看到的数据鲜活,但较为片面,要平衡两个视角不是容易的事。我们要经常提醒自己,在了解这些东西的同时也可能忽视了另一些东西。统计学和其他学科一样,严谨的逻辑和个人经历要相辅相成,相互纠偏,只有将两者有机地结合起来才是最理想的方法。法则三:看清数据的定义当我们要理解任何统计结果的时候,我们先要想一想,这个结果实际上的含义是什么。新冠肺炎暴发引发了类似的问题。2020年4月9日,媒体报道说在过去的24小时里,英国本土有887人死于新冠
8、,但我碰巧知道这个数字是错误的。苏格兰统计学家希拉伯德做了周密调查,他告诉我,真实数字很可能到了1500人左右。5为什么数字差异如此大?部分原因是一些人死在家里,而官方只统计了那些死在医院里的人,但主要是因为那些因新冠扩容的医院来不及更新死亡人数报告,往往会滞后几天。今天,星期四,宣布的死亡数据可能是星期天或星期一的死亡人数。由于这几天死亡人数激增,告诉我们三天前的数据容易让人低估目前情况的严峻性。许多问题都是因为人们在一开始就走错了方向。他们执迷于统计上的技术问题,比如询问抽样误差和误差幅度,辩论数字算上升还是下降,相信、怀疑、分析、剖析各种数字,就是没花时间去理解那个首要的,也是最该问的问
9、题:统计对象是什么?用的什么标准?我们首先要弄清楚数据的统计对象是什么,其次才是数学计算。法则四:学会在宏观局面下看数据拉开距离看问题能让你有宏观感受。每次看到一个统计数据,你可以想想,这是一个很大的数字吗?我们以美国前总统特朗普在美墨边境建墙为例,来说说宏观感受是什么。建墙将耗资250亿美元。这个数字大吗?这听起来确实有点大,但要真正理解这个数字,你需要一些东西作为参照。例如,美国每年的国防预算将近7000亿美元,即每天20亿美元。所以建墙费用相当于美军两周的军事开支。或者,美国约有3.25亿人,250亿美元除以3.25亿人,这堵墙的造价约为每人负担75美元。这个数字是大是小,你可以自己判断
10、,但我猜有了这些比较,你的判断会更合理。拉开距离看问题能让你有宏观感受。如果可以记住一些具有标尺意义的数字,它们能给你带来很多方便。你可以用数字进行比较(一篇1万字的报告似乎很长,但一本普通的小说要长10倍),也可以算平均数(美国的国防预算是每人每年2000多美元)。这些标尺性数字,无论是你脑子已经记住的,还是你查的,都可以用来做做算数,或者按计算器也行。这是件简单的事情,但很有启发性。法则五:了解统计样本是否覆盖全面其实我们必须常问:“数据里少了谁?漏了什么?在数据方面,规模并不意味着一切。要处理好两个问题:样本误差和抽样。偏差样本误差反映的是这样一种情况:有时纯属偶然,被随机抽样的人没有反
11、映民众的真实意见。“误差范围”就是指这种风险,但是样本越大,误差会越小。1000人的随机采访对任何目的的民意测验都算大样本。民意调查还有一个更大的陷阱要避免,即抽样偏差。抽样误差是指随机挑选的样本恰巧没有反映真实状况,而抽样偏差是抽样没有覆盖全样本类型。社会有多少明目张胆的种族主义者和性别歧视者,你看看四周就知道了。但总的来说,我们统计了什么,或漏掉了谁,都是由自己选择时的粗心、不甚严重的偏见和一些无心之过造成的。除非我们亲力亲为地收集数据,否则对统计漏失能做的有限。但至少,在别人给我们提供数据时,我们可以,也应该记得问一下,哪些人或哪些内容可能遗漏了。大数据看起来很全面,也可能用途很广,但“一个都不少”是一种容易让人上当的错觉:一切尽在自己掌握中。其实我们必须常问:“数据里少了谁?漏了什么?”这只是我们对待大数据要谨慎的原因之一。大数据代表着数据收集和统计方式的巨大变化,这种变化的影响还有待我们去审视。11