《2022年大数据、小数据介 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据、小数据介 .pdf(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据( big data )正酣,小数据( iData)又来!主题概述:(一)小数据的介绍和定义(二)小数据产生的原因(1) 大数据对隐私无止境的侵犯和个体对主动保护隐私的需求。(2) 对统一全面管理分析个人数据的巨大需求. (三)小数据的特性和大数据的对比(四)小数据发展的广阔前景。(五)小数据的发展最需解决的三个大问题.蔡凯龙:大家好,我是蔡凯龙, 很高兴也很感谢秘书长易欢欢,让我有机会和大家一起在互联网金融千人会举办的早餐会来交流体会和心得。我这次主题是:小数据(iData)的大时代:数据革命的下一个前沿阵地。每一小节我都会预留点时间,欢迎大家提问题,让我们的交流碰出思想的火花吧。刚才
2、开车回来, 在路上 bloomberg 广播,说美国大 IT 行业,Google . Facebook Twitter,Apple. Microsoft. AOL, Linkedlin, Yahoo联名给国会和总统写信。要求制定政府窃取个人隐私的详细策略,并且要求有独立第三方来监督, 这个呼吁是跟 Snowden 的泄露的棱镜计划有关,因为在他泄露的计划里曾经说到美国政府公开或者非公共入侵所有美国大科技公司的数据库,监控所有的信息。 美国总统今天出来讲话, 说政府不会偷看美国公民的个人信息,只是为了反恐和监测海外活动,不会违反宪法,一定会尽力保护美国公民隐私。他提到的个人隐私,和我今天要和大家
3、交流的小数据有关。(一) 小数据的介绍和定义数据革命的最终目的,就是给每个人都配备类似于美国总统的白宫级别的服务。这不是科幻,这是数据革命即将开创的另一个前沿阵地,小数据的大时代。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 小数据 (iData), 指的是围绕个人为中心全方位的数据,及其配套的收集,处理,分析,和对外交互的综合系统。人的一举一动,一分一秒,产生的数据,包括生活习惯,身体状况,社交,财务,喜好,情绪,行为的等
4、等,全部被收集和利用和分析,并对外形成一个富有个人色彩的数据系统,统一执行交换数据, 保护隐私等多项对外功能。小数据跟大数据的根本区别在于, 小数据以单个人为唯一的对象, 重点在于深度,对个人数据全方位全天候深入精确的挖掘利用,大数据则侧重在某个领域方面,大范围大规模全面数据收集处理分析,侧重在于广度。 小数据只有围绕一个人,你就是小数据世界里的美国总统,小数据就是你的白宫办公室,它听命于你, 收集关于你全方位信息, 提供给你最贴心最完整的数据服务,同时担任对外界大数据的唯一接口。 小数据并不是大数据老酒装新瓶,把大数据思维操作模式简单套在小数据上并不适用。接下来我具体从小数据的成因,特性,发
5、展前景和问题,这四个方面来谈谈小数据是怎样作为大数据的互补和延伸的。(二) 小数据产生的原因1. 大数据对隐私无止境的侵犯和个人对主动保护隐私的需求。1993 年纽约客刊登了一副漫画:标题是:“ 互联网上,没有人知道你是一条狗” 。经过 20 年互联网,移动互联网和社交网络以及大数据的快速发展,我们已经毫无隐私成为透明人了。现在这句话应该改成:“ 不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤” 。 在数据为王的时代,个人隐私遭到肆意的践踏和侵犯。你上网买个东西,或者在社交网上发个言,很简单一个动作,瞬间同时的在政府网络监控,电话上网公司,买东西网站,社交网,搜索网站,
6、信用卡银行,还有专门收集资料的爬虫系统。等等,留下你详细的个人资料。 更可怕的是, 这些都是永久的, 任何时候都不知道会被谁调用,会被人肉搜索到。 大数据的基因里有对数据无限的渴求。因此以企业为主的大数据,在追求最大商业利益的同时,是不可能主动保护个人隐私的。可以说,大数据和个人隐私保护是天生不可调和的根本矛盾。随着隐私被侵犯的弊端逐渐浮现,各国都有不同程度的立法来保护个人隐私。但是至今为止, 实际收效甚微, 我们对隐私大规模被侵犯仍然束手无策。不过想想连德国总理默克尔, 这么一个大国最高领导人的手机都会被窃听,我们这些普通大众的隐私在国家利益和商业利润面前,又怎么能够被真正被保护呢?难怪名师
7、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - Steven Rambam, 一个互联网隐私专家曾经说过一句让人很绝望的话:Privacyis dead - get over it. “隐私已死,爱怎么着怎么着吧”这时候,迫切需要从技术上, 让个人主动而不是被动的保护自己的隐私。小数据就能很好解决个人隐私和大数据的矛盾。小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。任何对外的数据输出,都需通过预先设定授权程序。而外面大
8、数据其实不是真的对你的隐私感兴趣,就比如说大数据要分析用户对一个新车的市场,他需要同时知道你年龄性别收入等等,但是大数据最终目的不是要拿这些隐私, 而是拿这些作为大数据分析模型必须的素材,最后分析出你喜欢或者不喜欢这辆车。 其实小数据在这方面更有优势, 甚至细微到主人喜欢什么颜色, 买车主要目的是上班还是休闲等, 只要把小数据分析结果而不是隐私内容,通知给大数据。这样既能保护个人隐私,又能提供大数据最准确的信息。完美解决大数据和隐私之间的矛盾。同时小数据还能在保护隐私的监控上掌握主动。我们都知道,注册登记任何社交网,都要求你同意密密麻麻天书一般的法律条文。我相信没有人会真正认真去看这些条文,
9、因为用脚后跟想都知道, 里面法律术语晦涩难懂, 看懂了你又能怎么样,还不得乖乖 I Agree 我同意。 这都是企业合法用你数据资料的同时,用来规避法律责任的保护伞。 这可是企业雇佣庞大律师团队花巨资写出来的,我们个人在保护隐私上完全被动而且势单力薄。如果有了小数据, 这下我们从被动变主动。你企业要用我小数据,好,没问题,数据是我的,我控制能给你什么,不能给你什么。 比如你问我喜不喜欢这辆新车,我告诉你我喜欢, 但我不告诉你我年龄和家里存款。 同时外部使用我的小数据是有前提的,如果医疗健康类企业, 要知道我身高体重,没问题,需要根据我制定的规则办事,你要I Agree 我的数据使用条款,不能到
10、处传播。同时,还规定使用时间和使用范围,比如给你3 个月只能用于某个特定医疗设备研究,用完就得永久删除,否则被我小数据监测到,可以依照里面的法律条文,咱们法庭上见。小数据让个人作为个体信息的真正拥有着,通过小数据,制定个人信息的使用范围和授权,以及监督机制。任何企业组织甚至政府,都要事先同意遵守我定的规则才能使用。设想有个名人想要美国总统奥巴马约个吃饭时间,他该先和白宫办公室联系, 同意白宫办公室的条件: 不能和外界事先透露总统行踪后。同时,白宫只能跟回答比如说晚上 7 点总统有没有空, 喜不喜欢吃牛排, 而不是把总统的全部的行程安排包括总统吃什么药片都告诉对方,这个可是最高国家机密。 小数据
11、让你享受总统待遇,你的个人信息就是你的小数据王国里的最高国家机密。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 小数据还能做到绝对隐私,比如那天你累了想彻底清净一段时间,或者你要和情人老婆老公有私人空间, 你跟小数据系统下指令, 彻底停止所有个人数据监测,这下就清净了,你在数据世界就真的有一段时间人间蒸发了。2. 对统一全面管理分析个人数据的巨大需求。小数据的产生还有一个主要原因,对统一全面管理分析个人数据的巨大需求。信息时
12、代,我们被铺面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。我们最大的挑战是如何能快速,方便,一目了然的定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人, 让自己多点时间去思考,去创作,多陪小孩家人,多去体验生活。小数据通过对个人信息的全面收集,反馈,整理,分析,能提供最贴心的数据服务,提供最有价值的决策支持,甚至比你还了解你自己。你问问奥巴马谁最了解他,答案不是他太太还是他父母,一定是白宫工作人员。我举个亲身体会的很小的例子来说明未来小数据的价值。纽约这边水表都实现电子自动读数, 隔几个小时家里的水表自动发送数据到自来水公司,可以上网查看。这个是个很原始很
13、简单的数据,看起来没有任何价值。有天,我突发奇想,用大数据的思维, 把这些数据下载下来, 结合我家的出行旅游时间记录,发现了个问题。这水表显示没人在家的时候继续不断地用水,3 年来一直如此。我进一步挖掘, 把家里每天使用水的大概时间拿来对照,最后断定, 一定是某个地方悄悄的持续的漏水。 经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里,找到一个阀门没旋紧, 从这里漏水直接进下水道。 3 年多来从来没被发现。如果没有数据分析,这么隐蔽的地方不可能被发现。我计算一下,这 3 年来这个阀门浪费了 600 多美金的水费,如果我在这里住10 年,这个简单的数据分析就能省下我 2000 美金的无端
14、水浪费。这个就是小数据的个一个很简单的案例。我进一步把我可以找到的个人数据:当地温度历史, 电气水历史用量, 财务数据,健康数据,统统有机结合起来(当然数据收集废了好一番功夫)。这个很原始的小数据给我展现出我从来没有看到过的一面,在我决策过程中提供非常多有价值的分析。而这只是一个雏形,一个开始,如果有成熟的小数据系统,真正全面的把个人全部数据有机结合起来,其能发挥潜在价值不可估量。(三)小数据的特性和大数据的对比名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 -
15、 - - - - - - - - 小数据和大数据有者本质的区别, 虽然以创造数据价值为目的思维和大数据是相类似的,但是在具体方式上,还有以下几点不同1. 数据处理方式:大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。可是数据一标准化, 就失去了其数据产生时的特性和背景。而小数据的用户数据的最大特点,就是来源和使用者是同一个人,只不过存和取时间和背景不一样而已,这就让数据标准化失去存在的理由。为什么要用标准化来抹去我对数据的主观色彩呢和背景呢。比如我说“ 喜欢吃的这家店的臭豆腐 ” 。这个信息,存在我小数据的数据库里,不能单单只存标准数据:比如时间,臭豆腐形状
16、臭豆腐店地址等。这些还不够,还要把我喜欢的程度和重要性: 是非吃不可否则活不下去呢,还是一般的喜欢过两天就忘记了。还有当时的语境:是我陪老婆去吃她喜欢我也跟着喜欢,还是我恭维臭豆腐店老板,因为他是我一个朋友呢。这些都是小数据需要处理的信息,而大数据的标准化方式是无法做到的。国外这方面已经有初步的研究,Dr. Ofer Bergman 在 2003 年最先提出 “ 用户主观方式 ”(User Subjective Approach )来存储个人信息。 2009 年他在这方面开创性研究在美国信息技术学院(American Socieity for Information Science and T
17、echonology ) 一发表获得极大轰动。被美国图书馆协会 (The American Library Association) 评为当代十大科技前沿的研究方向之一2.人的作用:在大数据模式下,数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。而在小数据里,所有数据都是围绕一个人, 所以人在系统的发挥中心的作用。就比如说白宫团队再怎么庞大,都要根据总统的旨意, 很多重要决策, 还得总统拍板定夺。 虽然小数据里不可避免要使用人工智能来提供帮助,但是人工智能如今发展还没有大的跨越,远远不能胜任代替人脑的作用。 这个有利有弊,坏处就是人还要不时的参与决策。 好处就是,使用
18、者比较放心, 因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?要我选,我还真不放心,我选择后者。3.其他数据性质的区别:比如是小数据数据量相对比大数据的数据量小。小数据对数据不全部需要快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。 小数据更加注重非结构化数据的之间的关联,重深度挖掘,而大数据重在包容所有个体的数据重在广度。综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第
19、 5 页,共 13 页 - - - - - - - - - (四)小数据发展的广阔前景小数据解决大数据无法克服的保护个人隐私矛盾。在主动保护个人隐私的同时,小数据提供给大数据最直接数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。 同时小数据利用全面的个人数据优势, 结合外部大数据,提供给个人最个性化,最独特,最有价值的数据服务。Amazon 的名言 “ 最成功书籍推荐应该只有一本书,就是用户要买的下一本书” ,即使大数据的先行者如Amazon ,预测用户要买的下一本书并不容易。它最多能根据你在 amazon 的交易记录,和有限的片面的个人信息来模糊预测。如果有小数据,身为最
20、了解主人的个人数据系统,amazon 只要跟个人小数据接口查询: ”你的主人最有可能买下一本书是什么?” 小数据先查查主人设定,是否同意和amazon 交流,在不泄露个人重要隐私的前提下,做完个人分析,看看主人最近最关心什么,最需要什么类知识,列出主人最有可能买的1 本书, 告诉 amazon 。第二天,主人一开门,发现门口摆了一本自己最需要的书,上面写着:“Amazon通过和您的小数据系统交流, 得知您最可能需要这本书, 把书给您送来了, 需要就拿去,我会跟你小数据系统结账。 多方便,多和谐的一个过程啊。再拿一个大数据里被津津乐道的一个案例来说,Target 超市用孕妇怀孕可能购买的商品用户
21、购买记录, 通过构建模型分析购买者行为的相关性,能推断出孕妇的具体临盆时间。这是在大数据模式下。如果大数据和小数据配合,小数据在主人授权下, 直接把主人临盆告诉Target 的大数据不就得了,Target 可以根据接受的小数据的临盆时间,加上小数据愿意透露的主人年龄和对商品的个人偏好,能更加准确无误预测个体的购买情况。这其实已经超越预测, 应该叫洞察了把。大数据很多时候被运用在广告投放的目标客户的分析上:到底这个广告对这个人来说,是雪中送炭还是让人讨厌。 大数据时代这只能从用户以往的购买历史,旁敲侧击。然而在小数据时代,小数据直接告诉大数据,主人喜欢这个品牌那个颜色,如果不是符合主人口味的广告
22、,就不要来骚扰。在这种精确无误的洞察,就好比给决策者一个清晰透视未来的水晶球。用户,企业和政府可以最大限度的的利用大小数据的配合, 进行所有的数据活动: 个人财务投资分析, 个人健康监控,个人疾病治疗,企业策划营销,企业战略分析,政府宏观调控,公共卫生安全防范,预防犯罪等等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 13 页 - - - - - - - - - 小数据和大数据的完美结合,必将让市场营销人员,理财投资分析师(对不起啊,我的同行们 , :-),房地产中介
23、, 医生, 律师等等专业服务人员全部失业。可以这么说,大小数据,双剑合璧,天下无敌。小数据还有一个意想不到,却让人想想就睡不着觉的用途:数字永生!小数据精确记录从出生到死亡,无时不刻, 细致入微的所有细节, 它就是数字化的你,是你在虚拟世界最真实的数字投影。你的世界被数据化了,因此复制你的世界成为可能。这就涉及到人类永恒的梦想:永生。 肉体的永生还有待科技水平的提高,但是数字化个人的永生,在小数据时代就变成可能。你的小数据,就是你在数字世界里最真实的载体,即使肉体的消失, 你的小数据还能依据一生的数据历史分析, 可以对外界信息做出反应 (当然这个反应只能是依照历史,不能主动创新,否则就可怕了)
24、。对于别人来说,你的数据载体,将永恒的停止在肉体消失的一刻。如果思念一个逝去的亲人, 你可以和她留下来的小数据聊天,问她问题,向她倾诉,听她讲她的过去,小数据会根据历史记录,最完整的呈现出逝去的亲人的一举一动一颦一笑, 包括她所说和所做的, 甚至推断出她所想的。如果未来机器人和人体仿生的的进一步发展,制造出一个一模一样的人作为小数据物理载体也不是不可能。这个是不是想想就让人激动不已!(五)小数据的发展最需解决的三个大问题:1.个人数据处理的进一步研究和开发。虽然“ 用户主观方式 ” (User Subjective Approach ) 来存储个人信息是一个重大突破,但其研究也只是理论上的初步
25、构架,到真正实现还要有一段时间,需要科学家进一步探索和完善,加快其现实的运用。同时,国家要把小数据和大数据一样,作为国家的战略核心资产来投入和研发,并在法律法规上保驾护航。2. 安全保护,小数据如果安全不到位,这个问题大了,这个好比在数据世界被人绑架了。所以小数据对安全级别要求很高,这不是一个企业组织有足够的信誉和能力能做到的, 需要提到国家层面, 需要国家统一规划。 但是即使在很高级的安全保护算法里,只要是算法,都会有漏洞,所以,人的参与就成了拟补算法漏洞的法宝。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -
26、 - - - - - - 第 7 页,共 13 页 - - - - - - - - - 3. 人工智能在小数据系统里占有至关重要的作用,在白宫里的地位相当于总统办公室主任,整体处理白宫各个方面大小事务。人工智能的发展至今裹足不前,需要国家把它提升为战略地位进行科研开发和投入。人,是一切数据存在的根本。人的需求是所有科技变革发展的动力。可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。= 现场讨论集锦 = 蓝天:今天这个论题很好,有力度,有厚重,值得学习和研究。感谢蔡凯龙。也感谢欢欢引介。小数据的概念和小数据的原因与隐私保护和小数据运用的分析,很好。谢谢。蔡凯龙:谢谢大家,插播
27、一句话,大数据里国栋兄是权威,我只不过把一些想法,可能比较前卫的想法写出来,欢迎大家探讨。- 老牛:这个视角非常独特。之前我把这些通归于大数据。邹学勇(用友):大数据的核心:实时、在线、互动、全貌8 字蔡凯龙:大数据的方式没法解决个人隐私。就像邹学勇(用友)所列出的,大数据核心,必将涉猎到很多个人隐私。 而且大数据的标准化, 让数据的个人色彩和语境无法伴随数据,对于数据的所有者来说, 在一定语境下主观色彩才比枯燥单调的数据形象生动,价值高多了。- 吴甘沙:现在的问题是小数据与大数据混在一起,也没有对小数据的全生命周期管理,我觉得后者还是很有做头的。 把个人分布在互联网各个地方的数据管理起来,明
28、晰各数据使用方的许可权,并审计他们的使用情况,可以撤销或转移数据。蔡凯龙:对, 这个和小数据对个人隐私的保护思维是一致的。把所有的个人信息收集起来,谁是拥有者呢,政府监管部门吗?我觉得最有动力去保护的就是隐私的拥有者,即个人。吴甘沙:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 13 页 - - - - - - - - - 个人一定是小数据的拥有者, 这需要法律上产权的明晰, 在此之前, 各互联网服务提供者必须修改term of use 和 privacy 条款风吹江南
29、:我貌似在写支付革命就提出不谈大数据只谈小数据的章节。硬生生被删除了蔡凯龙:为什么被删除?风吹江南:说实话你是我见过第一个谈小数据概念的人。他们估计也是认为不够切合大数据热点吧。我倒觉得小数据更现实和有意义。大数据构建成本极高。 小数据都挖掘处理不好焉谈大数据。- 吴甘沙:蔡兄,有两个问题: 1.Jaron Lanier 一直在推动大公司对小数据的使用必须付出micropayment ,但应者寥寥,您怎么看;2.加州议员推动 Right to Know Act ,但被技术公司 lobbyist 挡回去了,下一步怎么发展?蔡凯龙:这两个问题问的非常好。1. 小数据让个人成为主动,掐住大数据侵犯隐
30、私的喉咙,这明显不会被企业所轻易接受。而且要付费,要接受监管,要收限制,哪有现在这么自由。企业反对也是一大问题,所以我在下面讲小数据的问题的时候,有提到需要政府在法律法规上保驾护航。2.议员推动法案被科技公司挡回去,这个原因和 1 一样,企业不愿放弃已有的对个人隐私的侵犯。接下来如何走, 我的预见是,随着大企业和政府对个人隐私的不断侵犯,民众的个人隐私保护意识越来越强,到一个临界点,出个比如2009 加拿大女孩因为个人照片隐私被侵犯而自杀的轰动事件, 就会成为导火索, 如果民众意识的崛起, 选民的压力达到了一定程度,科技公司再牛也无法lobby 议员,毕竟选民的投票决定议员的位置。老牛: 如何
31、实现呢?这是整个数据机制的变化,是对大数据的正向抑制或抵消力量,符合动物精神中的观点. 蔡凯龙:实现还很遥远, 我在最后一节有提到小数据发展的3 个必须解决的问题, 也许这些问题解决了,离实现就更加接近了。吴甘沙 : 现在的问题是个人的awareness 不够, 看了现在可穿戴计算设备的term of use ,基本上都是要把数据给第三方, 或不保证数据的保密性和安全性。用户也无奈接受了蔡凯龙:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 13 页 - - - - -
32、- - - - 个人穿戴设备的条款已经是到达入侵个人隐私的极限,所以更加显示出以后对隐私保护的重要性,相信不久随着个人穿戴设备的普及,这个必将成为热点。- 吴甘沙 : Target 这个案子除了隐私之外,我认为还有数据使用的伦理问题。它的个人刻画能够发现怀孕的情况, 也应该能发现是未成年人, 如此就不该向未成年人发关于怀孕的定向广告 . 蔡凯龙:这点提的好 . Target 应该无法从销售数据查出年龄,至少在美国对年龄这种个人隐私还是很保护, 所有只能靠大数据和小数据的配合,才能避免给未成年人发放怀孕广告。- 曾光光 : 大数据是通往奴役之路 . 各种数据孤岛会由点到线,最后自组织自演化成网,
33、每个人都在网中,享受数据便利的同时,数据隐私无处可逃。就像matrix. 脱离这张网就无法生存 . 蔡凯龙:对,以后数据革命是越来越让人像在matrix 里,不过我们对隐私被侵害并不是无能为力,这点我没有那么悲观。呵呵。吴甘沙 : 担心的是机器革命 . 微笑 蔡凯龙:机器革命等人工智能产生大飞跃才有一丁点的可能,我并不担心啊, 如果那天机器人能画出梵高的星空,那时候我一定吓得半死。- 吴甘沙 : 蔡兄,有个问题请教,现在大小数据是不分家的,大数据由小数据聚合而成,只不过一个强调集合价值(知著),一个是强调个人价值(见微)。如果分家了,大数据又从何而来呢 ? 蔡凯龙:大小集合的现状有很多的弊端,
34、比如隐私, 比如强化个人数据服务。 所以发开是一种进化。 即使分开了, 大数据也有它广阔的空间, 大数据在广度分析上小数据无法做到。几比如说你小数据有你从出生到现在所有的健康记录,你去看医生(如果医生这个职业还存在的话) 。那大数据就会把你的所有健康记录,去和全世界病患案例对比,分析,参照所有医疗研究成果,帮你找出最合适的治疗方案。谢涛令海博智能 : 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 13 页 - - - - - - - - - 我有个问题,小数据能否作为
35、大数据的不可分割的一部分来处理?就像宏数据(metadata )?这样可以用大数据上花巨款劈开的市场之路,而不用再为小数据开另外的市场之路。 我一直在思考研究大数据溯源问题,觉得独立地去用小数据这个词儿有些困难,所以有此问。觉得把小数据从大数据分隔出来也很困难。谢涛令海博智能 : 吴甘沙交叉信息。我们说得是一个意思。大小数据分开会造成很多概念问题,我一直没能想透彻。蔡凯龙:我同意,分离出来要面对很多难题,关键是,大数据,或者说Metadata 是否能解决两大小数据最核心的功能:主动保护隐私,和个人全方位个性服务。如果Metadata 在这两方面有飞跃,那小数据没有存在的必要了。不过目前我还看不
36、出来。- 赵国栋 : 看到最后,发现你不是在说小数据, 而是在谈个人的 agent, 这个 agent 是个人再网络时空的存在。蔡凯龙:可以这么理解吧,个人的agent 应该属于白宫总管,也需要对个人数据的融合,赵国栋 : 在有些场景中这个实现成本太高啦。轮询所有agent 才能得到隐私的回复蔡凯龙:这个实现可以更加简单, 国家针对全部隐私制定各种级别, 对大数据运用也分类,而个人,在小数据中可以大体设定一个对应类的级别。具体大数据和60 亿个小数据交换信息,这个现在应该几秒钟的事情吧。赵国栋 : agent 思想的难处是采集到所有小数据,要求和所有端的程序有接口。如果有个人爬虫,或许可以解决
37、小数据源的问题蔡凯龙:个人爬虫是个人隐私泄密的帮凶,赵兄如何让个人爬虫防止隐私泄密呢?赵国栋 : 也是。没想到啥好办法!- 曾光光 : 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 13 页 - - - - - - - - - 蔡凯龙 “ 我总结下:人,是一切数据存在的根本。人的需求是所有科技变革发展的动力。 可以预见, 不远的将来, 数据革命下一步将进入以人为本的小数据的大时代 ”我赞同,大数据加小数据结合。数据需求定制化,个性化肯定是趋势。但数据仓库还是得由大数据
38、加工才能出来。就象生产加工必须有原材料。我觉得,云用大数据,端用小数据。收集数据时,端的小数据汇成云的大数据。环往复,云的数据越来越庞大,端得数据越来越精细。这一切都是自组织,自我演进。我把它称为所谓数据进化论,和达尔文生物进化论同理。我准备搞一篇“ 数据进化论 ” 的文章,多多指导哈蔡凯龙:非常同意个性化的趋势,不仅科技,连娱乐也是,现在选秀造星,就是个性化趋势的表现。你这个提法很有新意,云+端曾光光 : 我的数据进化论主要思想就是,和生物进化论相似, 从单细胞到智慧生物, 数据是否可以这样进化?从简单的0.1 演化到可以自我优化的智慧数据。 并给出演化路径。如果真写出来,可以和失控匹敌。从
39、简单到复杂,从端到云,从点到网,从荒芜到无序到有序,从粗糙到精细,从了无生气到能思考,最终达到自由王国。谢涛令海博智能:曾光光 “ 我觉得,云用大数据,端用小数据。” 这句话有道理,但是不能这样分。云里面搞分析必须用到小数据,但是端有加密密码的载体,加密后上载,每次云端需要用到个人数据时需要去用户端得到允许,这倒也是一个思路!谢涛令海博智能:蔡凯龙,你这个结论是非常深刻的,我完全同意。换一种说法,大数据就是智慧的基础, 所有都是围绕人的生活和人的工作,只有把人的方方面面管好, 才有意义。为此,我提出了一个词儿,叫“ 人流” ,把这个 “ 人流” 跟“ 信息流 ”“物流” 等结合起来,就是 “
40、多流合一 ” 大数据。我们几个一起写篇文章吧,谁愿意跟我合作?蔡凯龙:“ 人流” 哈哈哈啊,能不能不要这么有歧义。我们可以多多交流,集思广益。谢涛令海博智能:哈哈哈,你把 “ 人流” 想歪了又回来的?也因此我觉得这个“ 人流” 可以用来跟 “ 大数据” 配套。吴甘沙 : 人流的提法很棒,学界也开始认识了,世界一流的大数据研究室伯克利AMPLab ,这个 P 就是 people 谢涛令海博智能 : 吴甘沙好啊,大家一起研究“ 人流” ,做到多流合一赵国栋 : 今天脑力碰撞, 微笑微笑 曾光光 : 今天学到不少,启发很大。感谢感谢. 娄焱 : 名师资料总结 - - -精品资料欢迎下载 - - -
41、- - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 13 页 - - - - - - - - - 感谢分享!对于我这样的互联网非专业人员来说,至少让我们对个人隐私保护的解决方案有了信心。谢谢丰盛的早餐会强 谢尔曼 : 诺奖获得者斯蒂格里茨 (Stiglitz)就在其信息经济学的论著中提出信息在经济世界的核心价值, 但是信息不对称又似乎是一个难解的问题。小数据与大数据的结合能够改善这种不对称!名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 13 页 - - - - - - - - -