《大数据关键技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据关键技术ppt课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、大数据时代的诞生二、大数据关键技术三、大数据与高等教育四、我们开展的相关研究 大数据与云计算 大数据是云计算的核心内容 大数据改变世界HPC:HPC: High-High-Performance Performance ComputingComputingHTC:HTC: High-High-Throughput Throughput ComputingComputingP2P:P2P: Peer to PeerPeer to PeerMPP: MPP: Massively Parallel Massively Parallel ProcessorsProcessors一张哈勃望远镜捕捉下
2、来的高清相片,高达数十个G字节 大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构。VolumesVolumes(GB-TB-PB-EB-ZB-)GB-TB-PB-EB-ZB-)Variety Variety ( all-structure, semi-structure, ( all-structure, semi
3、-structure, non- struture )non- struture )Velocity Velocity ( speed, frequency)( speed, frequency)Value Value (information )(information ) 1.大数据采集与预处理2.大数据存储及管理3.大数据计算模式与系统4.大数据分析与挖掘5.大数据可视化计算6.大数据隐私与安全7.大数据应用技术 大数据采集所说的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数
4、据知识服务模型的根本。Big Data- 12 - 对比项对比项结构化数据结构化数据非结构化数据非结构化数据半非结构化数据半非结构化数据定义定义 有数据结构描述信息的数据 不方便用固定结构来表现的数据 介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系结构与内容的关系 先有结构、再有数据 只有数据,没有结构 先有数据,再有结构示例示例 各类表格 图形、图像、音频、视频信息 HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者 管理信息系统(结构化数据) Web
5、信息系统(非结构化,半结构化) 物理信息系统(传感器,多媒体数据) 科学实验系统(仿真数据) 主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。 异构数据集成技术 WEB中实体识别技术 DeepWeb技术(Web中不能被传统的搜索引擎索引到的那部分内容) 传感器网络融合技术 -数据清洗和质量控制工具: D
6、ata Flux, Data Stage,InformaticalPowe Center. 精确性(数据符合规定的精度) 一致性(数据之间不能存在相互矛盾) 完整性(数据的值不能为空) 同一性(数据的标识是唯一的) 时效性(数据的值反映了实际的状态) 真实性(数据不能是虚假的) 数据源的选择和高质量原始数据的采集方法(建立数据源质量评估模型) 多源数据的实体识别和解析方法 数据清洗和自动修复方法(清除错误,修复信息) 高质量数据整合方法(智能模式抽取和匹配) 数据演化的溯源管理(追踪数据演化过程) 主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统
7、(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。 存储规模大(PB,EB) 存储管理复杂(多结构) 数据服务的种类和要求高(性能,可靠性) 分布式文件系统 分布式数据库 访问接口和查询语言 (MapReduce编程接口,Pig Latin 等)数据结构: 结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性
8、数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件- 21 - - 22 - 产品名称产品名称应用场景应用场景接口方式接口方式扩展能力扩展能力X86X86平台平台LinuxLinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL110台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持E
9、xadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于专有一体机硬件支持 大数据计算模式 根据大数据的各种不同数据特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。 (MapReduce, RDD, GPA等) 数据结构(all,semi,non) 数据获取处理方式(batch,stream) 数据处理类型(analysis,mining) 实时性或相应性能(real,non-real) 迭代计算(iterative) 数据关联性(simple, graph) 并行计算体系结构(cluster,memory) 计算模式 系统大数据查询分析计
10、算HBase,Hive,Cassandra,IImpala,Shark,Hana批处理计算Hadoop,MapReduce,Spark流式计算Scribe,Flume,Storm,S4,Spark Steaming迭代计算Haloop,iMapReduce,Twister,Spark图计算Pregel,Giraph,Trinity,PowerGraphX内存计算Dreml,Hana,Spark1. 数据分区2. 计算分区3. 决定主从服务器4. 读取输入数据5. Map函数6. 排序与分组(根据键值)7. Combiner函数(合并本地数据)8. Partitioning函数(相同键值划分到一
11、个区)9. 同步与通信(所有服务器同时完成)10.排序与分组11.Reduce函数Logical Data Flow in 5 Processing Steps in MapReduce Process(Key, Value) Pairs are generated by the Map function over multiple available Map Workers (VM instances). These pairs are then sorted and group based on key ordering. Different key-groups are then pro
12、cessed by multiple Reduce Workers in parallel. A Word Counting Example on DistributionLinking the Map Workers and Reduce Workers by Key Matching in Partitioning FunctionsFig.6.5 Dataflow Implementationof MapReduceHIVEPig!ZooKeeper分布式文分布式文件系统件系统海量数据海量数据存储存储大规模计算大规模计算智能分析智能分析算法算法 Hadoop平台改进后将与其他计算模式和平
13、台共存 (Hadoop2.0) 混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。 (Spark:迭代、批处理、内存计算、流式计算、shark、图计算) 内存计算将成为高实时性大数据处理的重要技术手段和发展方向。 (Hana,Spark)大数据挖掘面临的挑战1.数据量膨胀(TB)2.数据深度分析需求的增长(路径分析,时间序列分析,图分析,What-if分析等)3.自动化、可视化分析需求的出现 (自动查询,自动分析等) 机器学习,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。 统计方法,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别
14、、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。 神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。 数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 改进已有数据挖掘和机器学习技术(并行,分布); 开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术; 突破基于对象的数据连接、相似性连接等大数据融合技术; 突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。 R和Hadoop的深度集成 Weka和MapReduce的集成 基于Hadoop的数据挖掘开
15、源程序库 (Apache Mahout项目) 大数据挖掘算法的提出 (大数据关联、聚类、分类、神经网络算法) 大规模图数据分析方法(基于内存算法, 基于集群算法) 更加复杂、更大规模的分析和挖掘 (时间序列分析,大规模图分析,大规模社会计算等) 大数据的实时分析和挖掘 (几十TB的实时挖掘问题还没有解决) 大数据分析和挖掘的基准测试 (了解各种大数据分析和挖掘系统的优缺点) 可视化分析 数据挖掘算法 预测性分析 语义引擎 数据质量和数据管理 数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。 统计、分类、聚类、孤
16、立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。改进算法使得这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。 预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。 在大数据时代,除了直接的统计或者数据挖掘的方式,可视化通过交互式视觉表现的方式来帮助人们探索和解释复杂的数据。数据 可视化 图像 感知和认识 知识设置 探
17、索数据 可视化 用户 数据流线化(大数据分为相互独立的子块依 次处理SPSD) 任务并行化(一个算法分成多个独立的任务模块平行处理MPSD) 管道并行化(同时处理面向不同数据的任务的多个独立任务模块MPMD) 数据并行化(数据分块后进行平行处理 SPMD) 原位分析(内存进行分析,而不再硬盘) 可视化中的人机交互(提供界面,专家参与) 协同与众包可视分析(多用户协调工作) 可扩展性与多级层次问题(在不同层面不同解析度下浏览分析) 不确定分析和敏感性分析(了解数据不确定来源和风险) 可视化与自动数据计算挖掘的结合(直观与计算结合) 面向领域和大众的可视化工具库(领域需求不同) 大数据时代的安全问
18、题更加复杂(集中) 使用过程中存在安全问题(黑客) 对大数据需求高的团体面临更多安全挑战 基于位置的隐私暴露严重 缺乏相应的法律法规保证 大数据的共享问题(有效性和加密性) 真实数据的动态性变化 多元数据的融合挑战(来自工作、生活) 文件访问控制技术 基础设备加密 匿名化保护技术 加密保护技术 基于数据失真的技术 基于可逆的置换算法 NoSQL有待进一步完善 开展对 APT攻击的研究 对多元数据融合提出新的安全隐私保护技术 保护分布式系统所有站点的安全 社教网络加强安全隐私保护 数据采集、存储、分析安全三权分立 高级持续性威胁。 利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式。A
19、PT攻击的原理相对于其他攻击形式更为高级和先进,其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集。在此收集的过程中,此攻击会主动挖掘被攻击对象受信系统和应用程序的漏洞,利用这些漏洞组建攻击者所需的网络,并利用0day漏洞进行攻击。 大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒
20、体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。 电子商务(消费、团购、支付) 网络广告(效果、相应) 网络新闻(搜索、爱好、习惯) 旅行预订(游客、景点、饭店) 及时通信(关注、热点、民意) 网络视频(爱好、习性) 联通(Hadoop技术查询与分析支撑系统) 移动(BC-Hadoop大数据平台,BC-PDM&ETL并行数据挖掘,BI-PAAS大数据应用平台) 电信(智慧城市,物联网加大数据) 实体-行为模型(聚类分析) 信息萃取技术(语音识别、视频分析、嗅探、VPN网络) 人机结合分析 组建国家网络安全力量 研发防御网络武器 制定数据采集政策 居民健康档
21、案数据管理 电子病历的发掘与利用 基因组学数据应用 健康应用 医疗数据分析 精神卫生应用 交通监控信息 GPS GIS 交通卡 高速公路收费 水电气 社教网络 大数据的去冗降噪技术 大数据的新型表示方法 高效率低成本的大数据存储 大数据的有效融合 非结构化和半结构化数据的高效处理 适合不同行业的大数据挖掘分析工具和开发环境 大幅度降低数据处理、存储和通信能耗新技术 数据资源化 解决大数据隐私问题 大数据与云计算深度融合 产生基于海量数据的智能 产生大数据分析的革命化方法 大数据安全 数据科学兴起 形成数据共享联盟 更大的数据 大数据催生新职业 大数据分析只能预测一个人或者事件未来很有可能进行的行为或发生的可能性 大数据获取的是相关关系,而因果关系需要人类去分析和查证 任何事情过犹不及,大数据不是万能的。 也有人说大数据是新的泡沫。84 大数据应用前景广阔,课题繁多; 宜先行展开数据挖掘的研究; 数据预处理是一件值得推敲的难事; 应及早展开对Hadoop+HDFS体系的研究; 不同应用对软件环境和工具需求不同; 大数据处理人才是关键。