《大数据蕴含大价值.pptx》由会员分享,可在线阅读,更多相关《大数据蕴含大价值.pptx(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据蕴含大价值大数据蕴含大价值河北移动业务支撑中心河北移动业务支撑中心目录河北移动的机会应对大数据的技术2什么是大数据?13“大数据”和“小数据”的不同思考?为什么现在会有“大数据”,以前难道没有?为什么现在大数据倾向用专门的解决方案,为什么以前不?为什么大数据发源于互联网,而不是传统数据密集型企业? 大数据解决方案要深度定制,但是人:硬件人员、Hadoop平台人员、工具人员、运维人员 31物:何种节点的规模才能达到规模效应?几个节点的Hadoop算不算大数据?云计算的资源动态调配如何实现? 基于性价比的选择买产品:如果定制的效益不如付出的成本,那么采购标准的第三方产品是更好的选择。“小数据
2、”大多是这类情况定制:如果定制的效益超过付出的成本,那么倾向自己进行定制。比如Google、Facebook等我们的选择?“大数据Big Data”很热门“大数据Big Data”,大概是爆红速度仅次于云计算的科技新名词,过去一年来,云计算虽然还是很热门的话题,但更热门的是大数据,情况就像几年前厂商不约而同在谈云计算一样。业界逐步开始区分大数据和云计算两个概念。前者主要指业务问题、创新机会和技术平台,后者主要指按需付费、资源动态调配、自服务的商业模式。从大数据Big Data和云计算Cloud Computing在Google上的搜索趋势(100代表最大搜索量)上看,对大数据的关注已经逐步超过
3、了云计算。对大数据的需求主要集中在分析Analytics和使用方面。Gartner:Hype Cycle for Emerging Technologies, 2012典型的大数据传感器RFID从2005年的1.3亿增加到2010年的30亿互联网Google每天处理大约24PB的数据社交网络Facebook每天处理25TB的数据Twitter每天处理7TB的数据电信中国移动每天产生10TB+话单、30TB+上网日志和100TB+信令数据金融每交易周期,纽约证券交易所捕获1TB的交易信息零售沃尔玛每小时要处理100万笔电子交易记录科研欧洲核子研究中心的强子对撞机每秒产生40TB数据政府美国政府拥
4、有848PB数据,居于美国第二位数据量井喷,据统计,全球90%的数据都是在过去两年中生成的。互联网、社交网络、传感器、科研、金融正在产生越来越多的数据。互联网上的一分钟大数据的特征3V有人说大数据的特征是3V,有的说是3V+1V(价值),有的说是3V+1C(处理复杂性),但是3V是跑不了的,这些体现了大数据不同于传统数据的特点。数据大(Volume),例如Facebook每天在30万台服务器上处理25Tb数据时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生大数据众生态在全球经济的很多
5、领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。 大数据:下一个创新、竞争和生产率的前沿 麦肯锡全球研究所 2011年5月在对全球 100 个国家及地区从事 30 个行业的 3000 名高管进行的调查中,有60%的受访者表示无法有效利用所有数据。而近期 IBM 对 64 个国家及地区从事 19 个行业的 1700 名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,71%的首席营销官表示他们的企
6、业没有做好充分准备来应对大数据的挑战。 IBM - 麻省理工斯隆管理学院评论 2011年大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。2012年大数据将直接或间接拉动全球960亿美元IT支出,预计这一数据2013年将达到1200亿美元,2016年达到2320亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的20倍。拥有相应技能的人才非常稀缺,但需求旺盛。Gartner 2012年10月大数据各家看点有人认为大数据是大麻
7、烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展麻烦各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上PB的数据,真麻烦!挑战传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!机遇在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!大数据已经上升到美国政府国家战略2010年12月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了规划数据未来的专门报告,该报告把数据收集和使用的工作,
8、提到了战略的高度。“如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战。应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”2012年3月29日,奥巴马政府又进一步推进了其“大数据战略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”Big Data Research and Development Initiative,以推动大数据
9、的提取、存储、分析、共享和可视化。美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据。“与数俱进”:联合国发布大数据政务白皮书联合国于2012年7月10日在纽约总部发布了一份大数据政务白皮书大数据促发展:挑战与机遇,总结了各国政府如何利用大数据更好地服务和保护人民。大数据时代已经到来 大数据对于联合国和各国政府来说是一个历史性的机遇,报告解释了大数据如何帮助政府更好地响应社会和经济指标变化,例如收入、失业、食品价格等。以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例
10、,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。 该报告是联合国“全球脉搏”项目的产物。“全球脉搏”是联合国发起的一个全新项目,旨在利用消费互联网的数据推动全球发展。利用自然语言解码软件,可以对社交网络和手机短信中的信息进行情绪分析,从而对失业率增加、区域性开支降低或疾病暴发等进行预测。建议联合国成员国建设“脉搏实验室”“Pulse Labs”网络开发大数据的潜在价值。驾驭大数据能够改变什么?传感器、智慧地球2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获 得的实时数据进行计算机模拟,制作
11、的海啸影响模型出现在各大网站。1962年,经过“圣灰星期三”风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。2005年,浮标上安装了更高端的传感器,用来监测海浪方向。2009年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。还记得后天里面那个场景?驾驭大数据能够改变什么?情感分析、舆情分析通过对BBS、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。通过分析15万条关于刘翔的微博,分词并析取出其
12、中使用的字词。在分析中,我们发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析在所有关于刘翔的微博中出现的最显著的名词和形容词。结点越大表明越多人使用过这个词。两个结点离得越近表明它们一起出现在同一用户微博中的频率越高。我们在构造出的这个图中,可以非常明显地发现刘翔支持者所用的词语(右下)以及批评者所有的词语(左上)的巨大区别。驾驭大数据能够改变什么?语言、文字分析奥巴马和罗姆尼辩论情况分析。驾驭大数据能够改变什么?社会化网络分析分析在社交网络上谈论的情况以及分享的购物情况,来发现失业率变化情况和经济发展状况。驾
13、驭大数据能够改变什么?社交网络分析、微博营销电信行业、传媒业借助社交网络分析,对客户的通话数据、微博连接进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录和微博信息,而是分析各用户所处的社交网络。圈子识别关键成员识别传播影响分析重入网用户识别双机双卡用户识别六度空间理论关系强度分析驾驭大数据能够改变什么?客户特征与交叉销售以及更多今年年初,美国一名男子闯入了他家附近的 Target 店铺(Target 是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券,她才 17 岁啊!”店铺经理不知道发生了什么,
14、立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为 Target 发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。纽约时报报道更多:反恐(万维信息触角计划与建言计划),库存管理(沃尔玛的Retail Link)、卖数据!大数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。驾驭大数据能够改变什么?算法交易、欺诈检测 欺诈检测:监控信用卡使用,当检测的信用卡在很短的时间内并且相距甚远的位置已连续被使用,检测到欺诈行为,拒绝卡的使用 算法交易:及时发现存在的交易机会,每次一
15、小笔,毫秒级交易,每天进行数量众多的交易。已经成为趋势金融交易是最能体现大数据的Velocity特性的,机会稍纵即逝,甚至券商对连接到交易主机的网线长度都有至关重要的诉求。算法交易成为趋势,但也导致了一次小型的股灾。数字竞选团队我们会在此次竞选活动中对每个事件进行数据分析。”团队聘请了一大批分析员,人数规模甚至达到了2008年竞选时数据分析部门的五倍(据了解大概100多人)整合信息资源奥巴马竞选团队的一位官员表示:“我们知道,民主党的问题就在于拥有了大多的数据库,且没有哪两个数据库是相同的”。因此,在总统竞选前的18个月,竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消
16、费者、社交媒体以及“摇摆州”主要的民主党投票人的信息进行整合。竞选结果预测奥巴马的数据分析团队此前曾在关键州收集数据,并建立了4条投票数据流,用于拼凑出当地选民的详细数据模型。奥巴马的数据分析团队可以更清楚的了解每类人群和地区选民在任何时刻的投票倾向。开辟第二战场奥巴马竞选团队首次利用Facebook这些社交网络进行大规模的游说,就像此前挨家挨户敲门拉票的方式一样。数据还帮助奥巴马竞选团队更好的作出了广告购买的决策。在选择广告投放渠道时,他们没有依靠外部顾问,而是基于内部数据得出结论。奥巴马连任的机密:“大数据”制胜的四大法宝目录河北移动的机会应对大数据的技术2什么是大数据?13应对“大数据”
17、的技术世界正在从“大量”的“小数据”,向“少量”的“大数据”演进。原来按通用需求所设计的产品越来越不实用,专用化和深度定制成为应对大数据挑战的技术趋势。代码和数据不分类代码+文件通用关系数据库+应用代码层次型数据库网状型数据库数据库技术数据处理技术OLTP数据库内存数据库OLAP数据库MPP数据库科学计算数据库NOSQLHadoop/MR流处理初始期IT系统较少,较为专业,采取深度定制、耦合的方式,软硬件由同一厂商提供。发展期IT系统暴增,软件行业开始形成,通用数据库得到大量应用,提供标准化和分层。大数据期IT系统整合、减少,但是数据量和复杂度变大。平台技术开始重新由通用变为专用,并且通过深度
18、耦合得到更高的效率。根据我们自身情况主要关注的四项技术没有银弹,大数据时代也是如此。就我们的大数据需求来说,需要主要关注四项技术/产品,它们的主要特点、代表产品和解决的大数据问题如下:复杂多表关联分析非结构化数据处理响应实时性SLA保证数据规模实时数据处理高可靠性低成本易于运维流处理NoSql关系型数据仓库Hadoop Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘 MPP数据库:结构化、关联性分析、即席分析 NoSql:结构化或非结构化存储与实时查询 流处理:实时数据处理过滤,规则匹配四种技术之Hadoop/MRHadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少
19、的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点 处理各种结构的数据 灵活的处理方式,通过Java编写MR框架 易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言) 对灵活的查询的支持和响应速度 流水线操作优化 Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开展四省试点四种技术之MPP DB2004年以后出现了一些新型的MPP DB,
20、例如Green Plum、Vertica、Aster Data等。它们借鉴云计算的成功,设计为部署在低成本的X86通用硬件上,通过副本的方式保证高可用。由于其share nothing架构以及SQL接口均为成熟技术,轻易获得了大量厂商和工具的支持。优点 接口友好,支持度高,兼容性强 可以处理复杂的查询 查询响应时间快缺点(对原生解决方案而言) 只能处理结构化数据 高并发查询和操作困难 由于其Hash数据分布方式、对数据的保存、并发等精妙的设计方式限定了可扩展性。通常没有经过专门优化的话限定在100节点之下。案例:联通、eBay产品:GP/Vertica等储备:完成了新型数据仓库测试节点1节点2
21、节点3本节点存储备份节点存储本节点存储备份节点存储本节点存储备份节点存储本节点存储备份节点存储以太网交换机CPUMEMCPUMEMCPUMEMCPUMEM四种技术之NoSQL随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。优点 为少量大并发数据写入和读出优化 数据模式可以灵活变更 可扩展性强缺点(对原生解决方案而言) 与应用深度耦合,高度定制化,对应用要求较高 接口一般为私有案例:亚马逊、LinkedIn产品:
22、Hbase/MongoDB储备:云详单查询的试点四种技术之Stream其他技术在处理时效性方面都无法达到实时或准实时的地步,但是在某些场景,比如算法交易、欺诈检测、实时营销等方面,需要从大量的信息中及时发现潜在模式,这种情况下,就要使用流处理的技术Stream。优点 基本内存处理,速度快 可并行,可扩展 编程方式灵活,可以处理复杂结构数据缺点 不保证事务完整 难以处理某些大数据类型,比如需要查表之类的案例:XX银行产品:Storm /S4储备:正在开展流处理研究河北移动有各种各样的“大数据”需求数据特征处理特征使用特征1. 数据单位存储价值不同l高价值:CRMBOSS的各类资料数据、账单、清单
23、l低价值:日志、网页l中价值:高价值中长期数据和低价值收敛数据20%的结构化数据提供80%的价值。2. 实时要求不同分钟、小时、日、周、月3. 数据类型不同结构化、半结构化、非结构化1. 调度模式不同批量任务、小批量任务、流式处理2. 加工特征不同l 关联整合处理l 汇总,抛弃输入l 汇总,不抛弃输入l 关联+汇总l 更新,不保留历史1. 使用角色不同业务人员:低操作能力IT分析师:中操作能力数据科学家:高技术能力2.使用方式不同消息型:向一线推送浏览型:决策层简单处理型:业务人员复杂处理探索型:分析师高级编程型:不直接使用型:机器处理Ad-hoc类使用成为趋势企业级数据中心具有典型的大数据发
24、展趋势,即3V特征(volumn海量、variety多样、velocity高速处理)。如何应对经分海量数据处理压力,需要分析企业级数据中心的数据特征、使用特征和处理特征。将上述四种基础能力池化,开放提供给不同的需求使用不同的需求可能会使用不同的技术,同一个需求也有相近的几种方式可以选择,而且这些大数据技术都在不断的发展之中。为了保持架构的灵活性,应该采取云计算的方法,将这些技术能力池化,通过“市场”这支看不见的手来调节需求,做好资源的动态划拨。企业数据中心SaaSDaaSIaaSRaaSX86 资源池存储资源池高性能硬件资源池MPP数据库池Hadoop池NoSQL池(软件即服务)(资源即服务)
25、(数据即服务)(基础设施即服务)PaaS(平台即服务)ETL工具数据质量管理元数据管理自助分析工具自助服务自助取数自助分析数据导入导出常规应用集团客户分析终端分析流量分析.网络资源池流处理池目录应对大数据的技术河北移动的机会3什么是大数据?12抓住大数据机遇,实现信息运营,探索移动互联网新盈利模式l在线统计功能按模块开放给合作伙伴,模块包括:互联网舆情分析、热点业务分析、终端类型占比、移动商盟商家排名、用户偏好分析等等l合作伙伴可在线订购和开通各个模块l如果现有数据信息产品不能满足合作伙伴的需求,那么合作伙伴可在线提出帮扶申请l帮扶方式有两种,一是定制信息产品;二是由辅助运营团队制定针对性解决
26、方案并线上交付l各种行业报告都以书店形式进行售卖l合作伙伴可以预览和订购,但所有下载报告均设置有信息安全权限在线统计分析购买行业报告提出专项帮扶需求河北移动企业级数据中心首先实现对内的服务,然后应当对外开放,像淘宝开放平台那样吸引外部开发者进驻,在不影响客户隐私的前提下充分挖掘大数据价值,发现商机,并将大数据应用推给那些需要他们的人和企业,比如零售、交通、旅游等等。互联网业界思想借鉴马云的目标:未来将让整个社会去分享数据。我们的目标:让整个企业分享数据。需要容纳变化的支撑模式,大数据的处理技术,孕育和适应业务变化。数据时代:核心不再是分析数据,而是分享数据。数据是越用越值钱,不像是一瓶水,你喝
27、过我不能再喝。数据是你用过增值,他用过再增值。信息时代:基于我比别人聪明的基础上面的,收集了很多数据,编好以后给别人,这称之为信息处理过的。数据是相信别人比我聪明,你把原始数据交给别人了,让比你聪明的人去处理。联通的大数据实践互联网服务提供商早就建立了自己的大数据平台,比如阿里云、腾讯云平台、新浪云平台。就连同为电信运营商的中国联通也开始将大数据平台投入应用。 Hadoop/NoSQL平台(目前172个节点)集中采集各省的上网日志,提供智能管道、网络优化、客户服务、用户分析、外部监管五大应用 MPP DB平台(二期扩容至220个节点)联通集中化经分一期试用了GP搭建分布式数据库平台,二期即将进
28、行扩容,对BOM的三域数据进行统一加工和分析呈现电信的大数据战略集团大数据规划思路1、基于云资源池进行建设;2、构建主数据仓库集群、深度分析库集群以及hadoop云平台;3、考虑到多厂家数据库的问题,构建透明访问层;4、数据采集处理,未考虑实时处理的需求,主要在于其不直接面向生产一线,更多的是数据融合分析;5、系统管理采用统一的云管维平台;他省大数据规划思路统一数据接入中心统一云化ETL预处理平台能力服务中心关系数据仓库分布式数据库(MPP库)统一数据访问数据封装基础功能组件应用组装配置对外服务支撑分析应用中心基础分析应用挖掘分析应用自助分析应用实时分析应用数据质量管理中心实时库B域数据源O域
29、数据源M域数据源互联网数据实时信令数据101111111、增加实时库,进行实时数据处理;2、保留原来的关系型数据仓库;3、构建统一的Hadoop预处理平台;4、基于具体的网络分析应用-四网协同,接入网络数据源;河北移动企业级数据中心愿景 企业级数据中心是通过数据拉通企业各IT系统的平台,通过制定数据标准,数据融合分析,信息服务等手段向IT系统、业务人员、管理层、终端客户提供数据服务,推动战略转型提升精细化管理水平l 成本收益精细化l 资源分配精细化l 员工绩效精细化l 业务拓展精准化l 营销效益最大化l 营销商机最多化提升营销精准化效果l 丰富数据产品l 数据转化资产l 推动资产变现提升数据开
30、放能力目标目标愿景:以数据为核心驱动管理变革,构建企业精细化运营管理生态体系。企业级数据中心数据从数据到知识的挑战和跨越知识&信息开放式平台高性能要求低成本建设定义原则警惕!大数据也可能是大麻烦大数据改变了原有商业软硬件购买方式,没有了工业标准可以依靠,一切都是深度定制,在人员需求和合作伙伴方面均有不一样的特征需要考虑。 防止被合作伙伴绑定因为大数据方案都是专业的,深度定制的,缺乏标准的。贸然采用某一合作伙伴的产品不仅不能达到深度定制,贴近实际需求的目的,而且会带来被深度绑定的危险,更换合作伙伴将变得难上加难。况且,辛辛苦苦与合作伙伴打造出来的产品顷刻间就会被售卖到竞争对手手中,没有任何技术优
31、势可言,这也是互联网企业这种以IT为核心竞争力的企业选择自行开发的原因。 注意成本结构变动大数据时代,占据IT构建成本主要部分的小型机、磁盘阵列将被廉价的X86所代替,原来七/三开的硬软件支出将变为三/七开。在享受这一部分成本降低的同时,应注意补充资源到软件部分,投入更多的开发、运维和架构人员去进行各种软件的集成与深度定制,应对不可靠、大规模硬件环境带来的挑战。思考和抉择:p 像传统那样购买p 像互联网公司一样自己干投入资源和人员,提前布局,应对大数据挑战21世纪什么最珍贵,当然是人才!大数据的上下层精密耦合和平台的深度定制,将比传统解决方案更加需要人才。从来没有一个企业是依靠合作伙伴为主成功
32、建立了大数据平台,也没有一个企业是购买产品来解决了大数据问题。除非我们认为IT后续将同质化,否则应该从现在就开始储备。人才培养资源投入提前布局1. 培养专家。培养MPP数据库、Hadoop、NoSQL的专家2. 培养架构师。培养懂得中国移动大数据需求的架构师3. 培养开发运维人员。培养在深度定制和工具开发方面的人才,组建开发团队。1. 首先建立实验平台。对技术进行验证和熟悉2. 其次建立大数据平台,逐 步 补 充 M P P 、Hadoop、NoSQL、流处理等多种能力在其中1. 开展预研课题。开展MPP数据库测试、Hadoop平台架构研究、NoSQL选型、流处理研究等多项预研课题。2. 利用现有环境进行试点,积累经验。对云ETL、云数据库、流处理等多项技术利用现有的一经和省经进行尝试。谢 谢谢 谢