《(5.2.1)--智能信息处理技术(二).pdf》由会员分享,可在线阅读,更多相关《(5.2.1)--智能信息处理技术(二).pdf(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、of43智能信息处理技术Intelligent Information Processing Technology第2讲 基于大数据技术的数据挖掘和知识发现大数据和大数据技术基于大数据的数据挖掘知识表示和知识发现物联网数据挖掘举例2AlphaGoAlphaGo战胜围棋冠军,大数据显威力战胜围棋冠军,大数据显威力320162016年年1 1月月2727日,日,AlphaGoAlphaGo完胜欧洲完胜欧洲围棋冠军樊麾围棋冠军樊麾2016年3月9日到15日,AlphaGo战胜世界围棋冠军李世石2017年5月23日到27日,AlphaGo战胜排名世界第一的世界围棋冠军柯洁1.1 大数据和大数据技术数据
2、产生方式发生翻天覆地的变化人类的生产生活越来越依赖数据的支持1.人类的日常生活已经与数据密不可分2.科学研究进入了“数据科学”时代3.各行各业也越来越依赖大数据手段来开展工作41.1 大数据和大数据技术30501612805408001200180079003500005000100001500020000250003000035000400002004200520062007200820092010201120152020(EB)(年份)全球数据总量变化图5我们进入了大数据时代1.1 大数据和大数据技术“大数据”(Big Data)的搜索指数数据来源:百度指数 baidu“大数据”这个词从2
3、012年才引起关注,之后搜索量便迅猛增长。大数据又称为海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。61.1 大数据和大数据技术1C4V多样(Variety)快速(Velocity)价值密度低(Value)复杂度(Complexity)数据量大(Volume)存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽,数据的来源更加多样。对数据的处理和分析的难度大。数据增长速度快,而
4、且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。大数据的特点71.1 大数据和大数据技术大数据技术涉及的不同层面及其功能8技术层面技术层面功能功能数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL
5、数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全1.2 数据挖掘91.1 大数据和大数据技术9分布式存储分布式处理GFSHDFSBigTableHBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQL Azure)MapReduce大数据两大核心技术1.2 基于大数
6、据的数据挖掘10 数据数据挖掘(挖掘(Data MiningData Mining,DMDM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域。数据挖掘就是从数据库的大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。数据挖掘的定义1.2 基于大数据的数据挖掘11数据挖掘的主要方法1.2 基于大数据的数据挖掘12数据挖掘运用的技术 数据挖掘研究与开发的
7、边缘学科特性,极大地促进了数据挖掘的成功和广泛应用。近年来,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法分析、高性能计算等许多领域的大量技术。1.2 基于大数据的数据挖掘13大数据挖掘的特征 大数据挖掘在一定程度上降低了对传统数据挖掘模型以及算法的依赖。大数据挖掘在一定程度上降低了因果关系对传统数据挖掘结果精度的影响。大数据挖掘能够在最大程度上利用互联网上记录的用户行为数据进行分析。1.2 基于大数据的数据挖掘14大数据挖掘的新方法(1)深度学习1.2 基于大数据的数据挖掘15大数据挖掘的新方法(2)知识计算 要对数据进行高端分析,就需要从大数据中先抽
8、取出有价值的知识,并把它构建成可支持查询、分析和计算的知识库。基于大数据的知识计算是大数据分析的基础,也是近年来国内外工业界、学术界研究的一个热点。知识库的构建 多元知识的融合 知识库的更新1.2 基于大数据的数据挖掘16大数据挖掘的新方法(3)社会计算 广义而言,社会计算是指面向社会科学的计算理论和方法,狭义而言,社会计算是面向社会活动、社会过程、社会结构、社会组织及其作用和效应的计算理论和方法。在线社会网络的结构分析 在线社会网络的信息传播模型1.2 基于大数据的数据挖掘17大数据挖掘的新方法(4)特异群组挖掘 大数据特异群组挖掘具有广泛应用背景,在证券交易、智能交通、社会保险、生物医疗、
9、银行金融和网络社区等领域都有应用需求,对发挥大数据在诸多领域的应用价值具有重要意义。1.3 知识表示和知识发现18 知识表示知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。知识表示是知识组织的前提和基础,任何知识组织方法都是要建立在知识表示的基础上。知识发现知识发现,是所谓数据挖掘的一种更广义的说法,即从各种媒体表示的信息中,根据不同的需求获得知识。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。1.4 物联网数据数据挖掘应用举例(1)19 “雪亮工程雪亮工程”是以县、乡、村三级综治中心为指挥平台、以综治信息化
10、为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。它通过三级综治中心建设把治安防范措施延伸到群众身边,发动社会力量和广大群众共同监看视频监控,共同参与治安防范,从而真正实现治安防控“全覆盖、无死角”。1.4 物联网数据数据挖掘应用举例(2)20车联网1.4 物联网数据数据挖掘应用举例(3)21基于大数据的综合健康服务平台大数据存储数据源层技术支撑层业务层交互层用户层个人用户网络医院独立体检机构社区卫生服务机构区域医疗信息平台新农合医保社保大数据处理基于大数据的健康评估技术基于大数据的个性化诊疗技术面向普遍人群的通用型健康服务面向特定人群的主题式健康服务面向决策、科研等机构的循证医学数据服务面向健康服务机构的信息服务医疗卫生机构专业健康服务机构决策机构科研机构健康服务相关机构个人用户疾控中心门户网站呼叫中心移动终端平台接入API开放应用平台服务第三方检测机构大数据集成、存储安全隐私数据标准小结22 当前,大数据已经与物联网、云计算、人工智能一起成为信息技术产业中最受关注的热点领域。人类社会已经步入了物联网、云计算、大数据、智能化的时代,随着大数据从概念渗透转向应用发展,大数据产业正处在蓬勃发展的孕育期与机遇期,大数据技术将在开源环境下不断提升。谢 谢!23