《大数据专题.pptx》由会员分享,可在线阅读,更多相关《大数据专题.pptx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、!有人预言说未来将会是三分技术,七分数据,得数据者得天下。!大数据,是当今公众津津乐道的一个热词,人们纷纷在探讨大数据所带来的科技进步及所蕴含的巨大价值,甚至有人把大数据形容为未来世界的石油,更有人夸张的宣称掌握了大数据的人,就可以像上帝一样来俯瞰整个世界。Big Data,its more than what you think 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内到达撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。近几年,被热炒的大数据,不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。2021年马云卸任阿里
2、集团CEO的职位时曾说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。你想像不到。你想像不到。到底有到底有多少多少 这个世这个世界的数据界的数据 近年来,全球数据存储量呈现爆炸式增长,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前世界上90%以上的数据是最近几年才产生的。据中为咨询预测,到2021年,全球数据量将到达35ZB相当约90亿块4TB硬盘容量。根据国际数据公司IDC的测算,似乎没有足够的磁盘空间存储。就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2021年
3、将增至29EB,年复合增长率逾20%。非结构化数据开展更猛。2005年为22EB,2021年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。那么,庞大的数据到底来自哪里呢?!据统计,国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。而大数据并非现在才出现,比方在古代的人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB(Peta Bytes)巨量资料。那为什么一直到近几年大数据这颗塬子弹才爆发呢。现今要处理的资料量更庞大、资料产生跟处理速度
4、更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速开展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是大数据一词因应而生。大数据的特点 Volume(大量)Velocity(高速)Variety(多样)veracity(真实性)数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据本钱很高,但有待挖掘价值大。大数据的
5、挖掘和处理。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据进行分布式数据挖掘SaaS,但它必须依托云计算的分布式处理、分布式数据库PaaS和云存储、虚拟化技术IaaS。大数据的挖掘和处理必须用到云技术。科学技术及互联网的开展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB开展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端
6、和互联网的普及更是加快产生数据。越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的数据,从而提供了对他们的愿望和潜在需求的有用信息。使用者自身产生的数据信息。人们通过电邮、短信、微博、QQ等产生的文本信息。至今最大的数据是音频、视频和符号数据。这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。大数据的采集大数据的采集大数据的采集大数据的采集 数据采集:ETL工具负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换
7、、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的根底。数据存取:关系数据库、NOSQL、SQL等。根底架构:云存储、分布式文件存储等。数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI,Artificial Intellig
8、ence)的核心课题之一。统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析最优尺度分析、bootstrap技术等等。数据挖掘:分类 Classification、估计Estimation、预测Prediction、相关性分组或关联规那么Affinity grouping or association rules、聚类Clustering、
9、描述和可视化、Description and Visualization、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)模型预测:预测模型、机器学习、建模仿真。结果呈现:云计算、标签云、关系图等。大数据的主流技术大数据处理之一:采集利用数个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。大数据处理之二:导入/预处理统计与分析主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。大数据处理之三:统计/分析统计与分析这局部的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/OI
10、/O会有极大的占用。大数据处理之四:挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测PredictPredict的效果,从而实现一些高级别数据分析的需求。大数据技术环境:在新兴信息技术的推动下逐渐趋向成熟云计算 云计算效劳和云应用在云平台的支撑下让庞大的数据得以保存和处理。移动互联网 移动互联网能更准确、更快地收集用户信息,比方位置、生活信息等数据。社交网络 提供大量的UGC、内容、音频、文本信息、视频、图片等非结构化数据。物联网 物联网的不断应用与开展促使数据大量增长。大数据分析离不开数据质量和数据管理,高质量的
11、数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的根底就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最根本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法可以称
12、之为真理才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。1.Analytic Visualization可视化分析2.Data Mining Algotiyhms数据挖掘算法3.Predictive A
13、nalytic Capabilities预测性分析能力4.Semantic Engines语义引擎5.Data Quality and Master Data Management数据质量和数据管理数据分析的五个根本方面 大数据与物联网、移动互联网、社交网络、云计算等主流技术结合,缺一不可,相辅相成,才能越走越远、据统计,目前全球120家运营商中约有48%的运营商正在实施大数据业务,其中主流业务也涉及数据产生、数据采集、数据存储、数据处理、数据分析、数据展示及数据应用多个方面,典型大数据技术及应用产品包括用于大数据组织与管理的分布式文件系统Hadoop、分布式计算系统MapReduce;用于大
14、数据分析的数据挖掘工具SPSS;用于大数据应用效劳的阿里巴巴推出的数据分享平台、Google推出的数据分析平台等。大型以Internet为核心的公司,如Amazon,Google,eBay,Twitter 和Facebook正使用海量信息的外部特性认识消费行为,预测特定需求和整体趋势。目前,国内新建了许多大数据中心,规模不一。在中国,百度和阿里巴巴的大数据中心名气较大,此外,罗克佳华在鄂尔多斯和山西太原建设的大数据中心凭借北部省份的能源优势,建成5万平方米的全国单体面积最大的大数据中心,是目前亚洲最大的云计算中心。大数据开展的现状“读心术、“未卜先知,都是大数据分析头上的耀眼光环。不管你信不信
15、,“数据真的会说话。人们在互联网上的一切行为都会留下数据,而通过对这些数据的分析,就能够得到消费习惯、职业、喜好甚至性格等信息。在这些信息的根底上,政府可以治理交通,减少犯罪率,而企业那么可以利用这些数据进行有针对性的营销,提升业绩。虽然目前大数据分析还处于开展的初级阶段,要从海量的非结构性数据中提取出有用信息并不是一件容易的事儿,但是很多企业已经开始利用大数据分析并推出了相关的应用和产品。2021年的春运,央视首次推出了“据说春运特别节目,基于“百度迁徙提供的可视化大数据效劳,实时播报国内春节人口的迁徙情况,例如最热门的迁出城市,最热门的迁入城市等等。有趣的“大数据经典数据案例 啤酒与尿布
16、沃尔玛在对消费者购物行为分析时发现,男性顾客在购置婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己。如今,“啤酒尿布的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。QQ圈子把前女友推荐给未婚妻 2021年3月腾讯推出QQ圈子,按共同好友的连锁反响摊开用户的人际关系网,把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼。网站根据你的购物搜索进行商品广告推送 我们上淘宝买了东西之后,阿里巴巴能够轻而易举地得到我们的购物行为、和浏览数据,通过云计算分析后,进行精准的行为预测,然后进行商品信息推送。国内最大的婚恋交友网站 作为一家婚恋网站,百合网不仅需要
17、经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,背后也大有挖掘的价值。关于大数据的一设想数据平安数据平安目前大数据的开展是数据量的暴增、大数据技术及应用的更新。但是,大数据涉及的相关技术还不太成熟,软件及硬件漏洞时有发生。同时,大数据外在所处的网络环境高度开放,使用人员多且杂。同时,已有的针对网络平安建立的相关法律法规相对缺乏,全社会对于网络平安确保也缺乏足够重视。内在及外在的多重因素造成大数据时代的网络环境比以往任何时候都要复杂,大数据平安问题也应运而生,数据平安问题及隐私泄露问题表达的尤为明显。比方,许多智能 应用程序是免费的,如果想要
18、免费效劳,那么你将不可防止的成为大数据流里的常客。大数据时代窃取及贩卖数据的黑色产业链不断加速升级。由于大量数据的聚集,数据间相互关联,给黑客更多可乘之机,一旦其成功将获得数据量更多并且类型更丰富的数据,贩卖的途径扩大,将带来更大范围的数据平安问题及隐私泄露。为解决此类问题的发生,应从问题发生的源头即数据存储的平安防护上解决。实现大数据平安,从技术的角度出发,有以下几个方向:1、研究、制定及实施大数据平安标准2、研究大数据平安关键技术3、基于大数据研究网络平安分析技术 大数据的意义和前景 大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西
19、,是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和根底设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活效劳,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织,对国家治理模式、对企业的决策、
20、组织和业务流程、对个人生活方式都将产生巨大的影响。大数据的时机与挑战 大数据的读写常常都是瓶颈,过去都是用更多的磁碟、更多的交换器来解决,但也导致耗电等问题。如果能把数据放在记忆件,不但性价比要比放到磁碟上省很多,而且可以省不少时间,尤其是数据如果是在TB等级,放在记忆件会比放在磁碟上,来得更有意义。此外,异质运算值得重视,甚至连GPU也可拿来做大数据分析。其实目前仍有许多大数据分析的需求,如医学影像分析、异质运算系统软件与效能工具、建构台大计资中心高效能大数据丛集、国科会大数据先导计画、植物工厂及资安监控与数据分析,都是大数据分析可以发挥的空间。大数据的应用或计算其实并不复杂,主要的挑战是数据量太大,如果能设计出加速的方法,就会很有价值。产业其实对软硬件整合并不陌生,在终端设备上也有表现不错的业者,但对於大数据的应用与研究方才起步,缺乏跨领域的团队与经验,唯有改变想法,用软件研发的思维,才能掌握先机,迎接大数据的挑战。作为物联网专业的我们选择大数据作为我们以后工作的方向,还是有很大优势的,有许多时机和挑战等着我们。谢谢欣赏!