《信息与智能科学导论-教案-08.ppt》由会员分享,可在线阅读,更多相关《信息与智能科学导论-教案-08.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.大数据导论大数据导论王燕王燕天津科技大学天津科技大学1Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论主要内容主要内容8.1大数据概论大数据概论8.2大数据的处理流程大数据的处理流程8.3大数据的应用领域大数据的应用领域2Tianjin University of Science&Technology人
2、工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.1大数据概论大数据概论数据从数据从Web2.0阶段的用户自主原创生成,转阶段的用户自主原创生成,转变为由感知系统自动生成数据的阶段,数据已变为由感知系统自动生成数据的阶段,数据已经成为企业最有价值的资产。经成为企业最有价值的资产。3Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的爆发式增长使数据的存储单位的规模越数据的爆发式增长使数据的存储单位的规模越来越大,用来表示数据存储容
3、量的计算机存储来越大,用来表示数据存储容量的计算机存储单位见表单位见表8-1。4存储单位名称缩写符号换算关系Byte(字节)B1 Byte(B)=8 bitKilo Byte(千字节)KB1 KB=1024BMega Byte(兆字节)MB1 MB=1024 KBGiga Byte(吉字节)GB1 GB=1024 MBTera Byte(太字节)TB1 TB=1024 GBPeta Byte(拍字节)PB1 PB=1024 TBExa Byte(艾字节)EB1 EB=1024 PBZetta Byte(泽字节)ZB1 ZB=1024 EBYotta Byte(尧字节)YB1YB=1024 ZB
4、Bronto Byte(千秭字节)BB1 BB=1024 YBNona Byte(暂未定名)NB1 NB=1024 BBDogga Byte(暂未定名)DB1 DB=1024 NBCorydon Byte(暂未定名)CB1 CB=1024DBTianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(1)应用程序生成数据阶段)应用程序生成数据阶段数据数据的产生方式是被动的的产生方式是被动的5Tianjin University of Science&
5、Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(2)用户原创产生数据)用户原创产生数据阶段阶段数据由数据由用户自主原创生成用户自主原创生成6Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据产生的数据产生的3个个阶段阶段(3)数据感知阶段)数据感知阶段数据由数据由感知系统自动感知系统自动生成生成7Tianjin University of Science&Technology
6、人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(1)结构化数据)结构化数据结构化结构化数据数据具有较强的结构模式,有固定格式具有较强的结构模式,有固定格式和有限和有限长度长度关系型数据库中的数据表就是结构化数据关系型数据库中的数据表就是结构化数据8学生编号姓名性别年龄是否团员籍贯2018100201赵军男18是湖南长沙2017100202刘石磊男19否湖北武汉2017100203曹坚毅男18是天津2017100204曾小惠女18是北京Tianjin University of Science&Technology人工智能学院
7、人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(2)半结构化)半结构化数据数据半结构化数据是一种弱化的结构化数据半结构化数据是一种弱化的结构化数据形式形式这类数据中的结构特征相对容易获取和这类数据中的结构特征相对容易获取和发现发现。这这类数据中的结构特征相对容易获取和发现,类数据中的结构特征相对容易获取和发现,通常采用通常采用XML、JSON等标记语言来表示,等标记语言来表示,HTML也可以认为是一种半结构化的数据。也可以认为是一种半结构化的数据。9Tianjin University of Science&Technology人工智能
8、学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据的数据的3种种类型类型(3)非结构化数据)非结构化数据非结构化数据是指不遵循统一的数据模式或者非结构化数据是指不遵循统一的数据模式或者模型,不定长、无固定格式的模型,不定长、无固定格式的数据数据系统日志、文档、图像、音频、视频等数据都系统日志、文档、图像、音频、视频等数据都属于非结构化数据属于非结构化数据10Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据产生的背景大数据产生的背景大
9、数据摩尔定律:数据每隔大数据摩尔定律:数据每隔12个月增长个月增长50%随着物联网、移动互联网、感应网络等新数据随着物联网、移动互联网、感应网络等新数据源的出现,同时也导致非结构化、半结构化数源的出现,同时也导致非结构化、半结构化数据呈爆发式增长。预计到据呈爆发式增长。预计到2020年,全球将拥有年,全球将拥有44ZB的数据量,比的数据量,比2010年增长了近年增长了近50倍倍11Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的概念和特征大数据的概念和特征目前通常认
10、为大数据具有目前通常认为大数据具有“4V”特征特征数据规模庞大(数据规模庞大(Volume)数据种类繁多(数据种类繁多(Variety)数据变化频繁(数据变化频繁(Velocity)数据价值密度低(数据价值密度低(Value)12Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.2大数据的处理流程大数据的处理流程大数据的处理流程可以理解为:在合适工具的大数据的处理流程可以理解为:在合适工具的辅助下,对异构的数据源进行采集和集成,然辅助下,对异构的数据源进行采集和集成,然后
11、按照一定的标准进行存储,并利用适当的数后按照一定的标准进行存储,并利用适当的数据分析技术对存储的数据进行分析,从中提取据分析技术对存储的数据进行分析,从中提取有益的价值并利用恰当方式将结果展现给终端有益的价值并利用恰当方式将结果展现给终端用户。用户。13Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论1.数据采集数据采集与预处理与预处理如果要从数据中获取价值,首先需要从现实世如果要从数据中获取价值,首先需要从现实世界中采集信息,并对信息进行计量和界中采集信息,并对信息进行计
12、量和记录记录。大数据的来源多种多样,而不同来源的数据的大数据的来源多种多样,而不同来源的数据的采集方式也不相同。采集方式也不相同。14Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(1)对现实世界的测量)对现实世界的测量这类数据是通过感知设备获得的,例如,医疗这类数据是通过感知设备获得的,例如,医疗影像数据,二维码或条形码扫描数据,摄像头影像数据,二维码或条形码扫描数据,摄像头监控数据,用于监测天气、水、智能电网的传监控数据,用于监测天气、水、智能
13、电网的传感数据以及应用服务器日志等。感数据以及应用服务器日志等。15Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(2)人类的记录)人类的记录这类数据是由人录入计算机形成的,主要包括这类数据是由人录入计算机形成的,主要包括关系型数据库中的数据和数据仓库中的数据,关系型数据库中的数据和数据仓库中的数据,如企业资源计划(如企业资源计划(ERP)系统、客户关系管理)系统、客户关系管理(CRM)系统等产生的数据。)系统等产生的数据。另一类典型的数据来源就是
14、人类用户在使用信另一类典型的数据来源就是人类用户在使用信息系统过程中记录的行为,包括微博、微信、息系统过程中记录的行为,包括微博、微信、搜索引擎、电子商务平台等。搜索引擎、电子商务平台等。16Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的来源大数据的来源(3)计算机生成)计算机生成这类数据是计算机通过模拟现实世界生成的数这类数据是计算机通过模拟现实世界生成的数据。例如,通过计算机动态模拟城市交通、生据。例如,通过计算机动态模拟城市交通、生成噪声、流量等信息。成噪声
15、、流量等信息。17Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法根据数据源特征的不同,数据的采集方法根据数据源特征的不同,数据的采集方法多种多样多种多样。(1)传感器)传感器18Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(2)系统日志)系统日志系统日志由系统运行产生,以特殊的文件格式
16、系统日志由系统运行产生,以特殊的文件格式记录系统的活动,包含系统的行为、状态以及记录系统的活动,包含系统的行为、状态以及用户与系统的交互等。用户与系统的交互等。19Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论Hadoop采用采用Chukwa收集和分析集群自身的日志信息收集和分析集群自身的日志信息Agent运行在每个客户端上,负责采集原始数据,并发送给运行在每个客户端上,负责采集原始数据,并发送给Collector。Collector接收接收Agents发送的数据,并定时
17、写入集群的存储发送的数据,并定时写入集群的存储空间中。空间中。MapReducejobs定时启动,负责对集群中的数据分类、排定时启动,负责对集群中的数据分类、排序、去重和合并,实现分析和归档数据。序、去重和合并,实现分析和归档数据。20Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(3)网络爬虫)网络爬虫网络爬虫是指为搜索引擎下载并存储网页的程网络爬虫是指为搜索引擎下载并存储网页的程序,爬虫顺序地访问初始队列中的一组网页链序,爬虫顺序地访问
18、初始队列中的一组网页链接,并为所有网页链接分配一个优先级。爬虫接,并为所有网页链接分配一个优先级。爬虫从队列中获得具有一定优先级的从队列中获得具有一定优先级的URL,下载该,下载该网页,随后解析网页中包含的网页,随后解析网页中包含的URLs,并将这些,并将这些新新URLs添加到队列中。这个过程一直重复,直添加到队列中。这个过程一直重复,直到爬虫程序停止为止。到爬虫程序停止为止。21Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论【例【例8.1】使用使用Python爬取京东商
19、城中所有爬取京东商城中所有“电电视视”商品的商品名称和价格信息。商品的商品名称和价格信息。22Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的采集方法大数据的采集方法(4)众包)众包众包指的是一个公司或机构把过去由员工执行的众包指的是一个公司或机构把过去由员工执行的工作任务,以自由、自愿的形式外包给非特定的工作任务,以自由、自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。(而且通常是大型的)大众志愿者的做法。23Tianjin University o
20、f Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论24【例【例8.2】使用使用Python获取获取“人人猎头人人猎头”网首页网首页最新职位的第一页的职位名称信息。最新职位的第一页的职位名称信息。Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论大数据的预处理大数据的预处理现实世界中的数据经常是不完整、不一致的现实世界中的数据经常是不完整、不一致的脏脏数数据据,无法直接进行数据挖掘,或挖掘结果不,无
21、法直接进行数据挖掘,或挖掘结果不尽如人意。数据的预处理是指对所采集的数据尽如人意。数据的预处理是指对所采集的数据进行分类,或分组前进行审核、筛选、排序等进行分类,或分组前进行审核、筛选、排序等必要的处理。必要的处理。25Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据预处理有多种方法:数据预处理有多种方法:(1)数据清洗、去掉噪声和无关)数据清洗、去掉噪声和无关数据数据(2)数据集成)数据集成将多个数据源中的数据结合起来进行一致的存将多个数据源中的数据结合起来进行一致的
22、存储储。在例在例8.1和例和例8.2中,最终可以将爬取的页中,最终可以将爬取的页面数据根据实际需要保存到面数据根据实际需要保存到Excel文件或者相应文件或者相应的关系型数据库中,如的关系型数据库中,如MySQL、Oracle数据库,数据库,并可以对永久保存的数据进行多次数据挖掘与并可以对永久保存的数据进行多次数据挖掘与分析。分析。26Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论数据预处理有多种方法:数据预处理有多种方法:(3)数据变换)数据变换把原始数据转换成适合进行
23、数据挖掘的形式。把原始数据转换成适合进行数据挖掘的形式。(4)数据规约)数据规约主要方法包括数据立方体聚集、维度归约、数主要方法包括数据立方体聚集、维度归约、数据压缩、数值归约、离散化和概念分层等。据压缩、数值归约、离散化和概念分层等。27Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论2.数据管理数据管理数据管理技术是指对数据进行分类、编码、存数据管理技术是指对数据进行分类、编码、存储、索引和查询,是大数据处理流程中的关键储、索引和查询,是大数据处理流程中的关键技术,负责
24、数据从落地存储(写)到查询检索技术,负责数据从落地存储(写)到查询检索(读)。(读)。28Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论一一.分布式分布式文件系统文件系统典型的分布式文件系统有典型的分布式文件系统有GFS和和HDFS。(1)GFS(GoogleFileSystem)是)是Google公司为公司为了存储海量数据而设计的了存储海量数据而设计的专用专用文件系统文件系统。29Tianjin University of Science&Technology人工智能学
25、院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论一个一个GFS包括一个主服务器(包括一个主服务器(Master)和多个块服务)和多个块服务器(器(ChunkServer)。一个)。一个GFS能够同时为多个客户能够同时为多个客户端应用程序(端应用程序(Application)提供文件服务。文件被划)提供文件服务。文件被划分为固定的块(每个块均由一个不变的、全局唯一的、分为固定的块(每个块均由一个不变的、全局唯一的、64位的位的Chunkhandle标识,标识,Chunkhandle在块创建时在块创建时由由Master分配),由主服务器安排存放到块服务器的分配),由
26、主服务器安排存放到块服务器的本地硬盘上,出于可靠性考虑,每一个块被复制到多本地硬盘上,出于可靠性考虑,每一个块被复制到多个个ChunkServer上。在默认情况下,保存上。在默认情况下,保存3个副本。个副本。主服务器会记录存放位置等数据,并负责维护和管理主服务器会记录存放位置等数据,并负责维护和管理文件系统,包括块的租用、垃圾块的回收以及块在不文件系统,包括块的租用、垃圾块的回收以及块在不同块服务器之间的迁移。同块服务器之间的迁移。30Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能
27、科学学导论(2)HDFSHadoop的分布式文件系统(的分布式文件系统(HadoopDistributedFileSystem,HDFS)的功能是进行数据的存储、)的功能是进行数据的存储、管理和出错处理。管理和出错处理。31Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论二二.NoSQL数据库数据库NoSQL(NotonlySQL)数据库泛指非关系)数据库泛指非关系型的数据库型的数据库。NoSQL数据库解决了大规模数数据库解决了大规模数据集合多重数据种类带来的挑战,尤其是大
28、据集合多重数据种类带来的挑战,尤其是大数据应用难题。数据应用难题。常用的常用的4类类NoSQL数据库包括键值(数据库包括键值(Key-Value)存储数据库、列存储数据库、文档型)存储数据库、列存储数据库、文档型数据库和图形数据库。数据库和图形数据库。32Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论三三SQLonHadoop2004年,年,Google公司首先推出了以公司首先推出了以MapReduce为代表的非关系数据管理技术,作为面向大数为代表的非关系数据管理技术,作
29、为面向大数据分析和处理的并行计算模型,很快引起了工据分析和处理的并行计算模型,很快引起了工业界和学术界的广泛关注。业界和学术界的广泛关注。Hadoop技术很快技术很快也影响了数据库研究领域,就像数据库使用也影响了数据库研究领域,就像数据库使用SQL语言一样,很多工具的开发目标是能在语言一样,很多工具的开发目标是能在Hadoop上使用上使用SQL。33Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论3.数据处理数据处理面向大数据处理的数据查询、统计、分析、挖面向大数据处理的数
30、据查询、统计、分析、挖掘等需求,催生了不同的计算模式,适用于不掘等需求,催生了不同的计算模式,适用于不同领域的产品同领域的产品。主要主要的计算模式的计算模式包括包括批处理计算、流计算、图批处理计算、流计算、图计算和查询分析计算。计算和查询分析计算。34Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论(1)批处理计算批处理计算批处理计算主要面向离散计算场景,计算的数批处理计算主要面向离散计算场景,计算的数据是静态数据,数据在计算前已经被获取并保据是静态数据,数据在计算前已经被
31、获取并保存,在计算过程中不会发生变化存,在计算过程中不会发生变化。例如,电商领域统计一年的销售额,上一年的例如,电商领域统计一年的销售额,上一年的数据已经存在并且不会增加或者被修改,因此数据已经存在并且不会增加或者被修改,因此允许不必立即返回结果。允许不必立即返回结果。35Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论MapReduce是典型的批处理计算系统,它最早是典型的批处理计算系统,它最早是由是由Google公司研究提出的,是一种面向大规公司研究提出的,是一种面向大
32、规模数据处理的并行计算模型和方法。模数据处理的并行计算模型和方法。在在MapReduce中,一次计算主要分为中,一次计算主要分为Map(映(映射)和射)和Reduce(规约)两个阶段。(规约)两个阶段。36Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论(a)待计算的大数据分成多个数据块分别存储于各个待计算的大数据分成多个数据块分别存储于各个计算节点中。当计算作业提交之后,该作业会被划分计算节点中。当计算作业提交之后,该作业会被划分成若干成若干Map任务和若干任务和若干Re
33、duce任务,并由计算控制节任务,并由计算控制节点负责任务的调度和分配。点负责任务的调度和分配。(b)各节点上的数据首先经过各节点上的数据首先经过Map阶段的计算,形成阶段的计算,形成中间结果(通常采用键值对中间结果(通常采用键值对Key-Value的方式)保存于的方式)保存于负责执行负责执行Map任务的本地节点中。任务的本地节点中。(c)中间结果经过排序后分给各中间结果经过排序后分给各Reduce任务。各任务。各Reduce任务的计算节点从各任务的计算节点从各Map任务计算节点处读取任务计算节点处读取各自各自Reduce计算所需的中间结果,然后计算得出最终计算所需的中间结果,然后计算得出最终
34、的结果并输出。的结果并输出。37Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论【例【例8.3】使用使用MapReduce进行单词计数进行单词计数。注:注:需要将需要将mapper.py程序的输出作为程序的输出作为reducer.py的输入,使用操作系统的流的输入,使用操作系统的流API,完成程序的执行,命令为:完成程序的执行,命令为:pythonmapper.py|sort|pythonreducer.py38Tianjin University of Science&T
35、echnology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论(2)流流计算计算在很多实时应用场景中,如实时交易系统、实在很多实时应用场景中,如实时交易系统、实时诈骗分析、实时广告推送、社交网络实时分时诈骗分析、实时广告推送、社交网络实时分析等,数据量大,实时性要求高,而且数据源析等,数据量大,实时性要求高,而且数据源实时不间断。反应时间经常要求在秒级以下,实时不间断。反应时间经常要求在秒级以下,甚至毫秒级,这就需要一个高度可扩展的流式甚至毫秒级,这就需要一个高度可扩展的流式计算解决方案计算解决方案。现有的大数据流计算系统有现有的大数据流计算系统有
36、Twitter的的Storm系统、系统、Yahoo的的S4(SimpleScalableStreamingSystem)系统、)系统、Facebook的的DataFreewayandPuma系统等。系统等。39Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论(3)图图计算计算许多大数据都是以大规模图或网络的形式呈现的,许多大数据都是以大规模图或网络的形式呈现的,如社交网络、传染病传播途径、交通事故对路网如社交网络、传染病传播途径、交通事故对路网的影响的影响等等。图计算最常见
37、的应用就是统计社交网络中人物间图计算最常见的应用就是统计社交网络中人物间的关系,并基于传播关系挖掘分析出结论数据。的关系,并基于传播关系挖掘分析出结论数据。典型的图计算系统有典型的图计算系统有Google公司的公司的Pregel。40Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论(4)查询分析查询分析计算计算在大数据的许多应用中,查询海量数据并要在在大数据的许多应用中,查询海量数据并要在一两秒内得到查询结果,就需要使用专门的大一两秒内得到查询结果,就需要使用专门的大数据查
38、询分析软件,这些软件既可以满足交互数据查询分析软件,这些软件既可以满足交互式查询分析,又具有非常高的实时性。式查询分析,又具有非常高的实时性。在实时和交互式计算中,在实时和交互式计算中,Google的的Dremel系统系统是最典型的。是最典型的。41Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论4.数据数据可视化可视化数据可视化通过将数据转化为图形图像提供交数据可视化通过将数据转化为图形图像提供交互,可以帮助用户更有效地完成数据的分析、互,可以帮助用户更有效地完成数据的分
39、析、理解。常见的柱状图、饼状图、直方图、散点理解。常见的柱状图、饼状图、直方图、散点图、折线图等都是最基本的统计图表,也是数图、折线图等都是最基本的统计图表,也是数据可视化最为常见和基础的应用。据可视化最为常见和基础的应用。42Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论【例【例8.4】使用使用Python的的Matplotlib组件绘制可组件绘制可视化直方图显示例视化直方图显示例8.3中的结果。中的结果。43Tianjin University of Science&
40、Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论在大数据可视化方面,除使用在大数据可视化方面,除使用Python的的Matplotlib模模块外,用户还可使用大量工具,用户可以根据数据块外,用户还可使用大量工具,用户可以根据数据的类型以及可视化数据的目的来选择可视化工具的类型以及可视化数据的目的来选择可视化工具。高高维数据可视化工具维数据可视化工具Tableau。文本文本可视化工具可视化工具Wordle。网络网络可视化工具可视化工具Gephi。可编程可编程可视化工具可视化工具D3。44Tianjin University of Sc
41、ience&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论8.3大数据的应用领域大数据的应用领域目前我国已开始大力推动互联网、大数据、人目前我国已开始大力推动互联网、大数据、人工智能和实体经济的深度融合。结合大数据的工智能和实体经济的深度融合。结合大数据的后发优势和通用技术性,大数据相关技术被广后发优势和通用技术性,大数据相关技术被广泛应用在企业生产、政府管理、社会治理及民泛应用在企业生产、政府管理、社会治理及民生改善等各个领域。大数据的应用领域可大致生改善等各个领域。大数据的应用领域可大致分为政务大数据、金融大数据、工业大数据、
42、分为政务大数据、金融大数据、工业大数据、营销大数据和健康医疗大数据等。营销大数据和健康医疗大数据等。45Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论1政务大数据政务大数据就政府而言,大数据必将成为宏观调控、国家就政府而言,大数据必将成为宏观调控、国家治理、社会管理的信息基础。政府的大数据在治理、社会管理的信息基础。政府的大数据在大数据应用领域一直占据重要地位,它集中了大数据应用领域一直占据重要地位,它集中了80%的高价值数据的高价值数据。政务大数据又可细分为:舆情监管、
43、城市治安、政务大数据又可细分为:舆情监管、城市治安、网络监管、网络安全、刑侦应用、指挥调度、网络监管、网络安全、刑侦应用、指挥调度、行政审批、精准扶贫、环境监测、食品药品、行政审批、精准扶贫、环境监测、食品药品、监管和追溯、数据的汇聚、数据标准的统一、监管和追溯、数据的汇聚、数据标准的统一、数据整合、平台搭建、数据安全等领域。数据整合、平台搭建、数据安全等领域。46Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论47Tianjin University of Science
44、&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论2金融大数据金融大数据金融大数据推动了金融创新,以余额宝为代表的金融大数据推动了金融创新,以余额宝为代表的互联网货币基金、宽客技术引领的量化投资的金互联网货币基金、宽客技术引领的量化投资的金融大数据的应用产品服务和经营模式进入金融领融大数据的应用产品服务和经营模式进入金融领域的各个环节域的各个环节。目前,金融大数据已经被广泛应用在银行、保险、目前,金融大数据已经被广泛应用在银行、保险、量化投资、资产管理、金融监管等领域中。量化投资、资产管理、金融监管等领域中。48Tianjin Un
45、iversity of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论49Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论3工业大数据工业大数据各类工业生产应用系统中所产生的海量数据,实各类工业生产应用系统中所产生的海量数据,实时性较强,通常面向具体需求,互用性和价值密时性较强,通常面向具体需求,互用性和价值密度较低,可以借助大数据的数据挖掘和分析技术度较低,可以借助大数据的数据挖掘和分析技术进
46、行问题洞察,实现实时决策和流程优化。进行问题洞察,实现实时决策和流程优化。工业大数据的应用领域可细化为:智能运维、智工业大数据的应用领域可细化为:智能运维、智慧工厂、流程优化、机器人技术、自动驾驶等。慧工厂、流程优化、机器人技术、自动驾驶等。图图8-14所示为工业大数据驱动下的企业运行分析所示为工业大数据驱动下的企业运行分析与决策支持。与决策支持。50Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论51Tianjin University of Science&Techno
47、logy人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论4营销大数据营销大数据营销大数据来源于企业和个人的特征,包括统计营销大数据来源于企业和个人的特征,包括统计学特征数据、行为特征数据、以评分评价体现的学特征数据、行为特征数据、以评分评价体现的好恶特征数据,并在此海量数据的基础上进行客好恶特征数据,并在此海量数据的基础上进行客户画像、挖掘识别需求,将特定的产品和服务推户画像、挖掘识别需求,将特定的产品和服务推送给有需求的客户,获取商业价值送给有需求的客户,获取商业价值。营销大数据的应用领域具体包括基于搜索引擎的营销大数据的应用领域具体包括基于搜索引擎
48、的搜索广告、基于电商和娱乐类应用的推荐展示类搜索广告、基于电商和娱乐类应用的推荐展示类广告、基于社交类应用的社交广告等细分领域,广告、基于社交类应用的社交广告等细分领域,多以网络广告的形式呈现。多以网络广告的形式呈现。52Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论53Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论5健康医疗大数据健康医疗大数据所有
49、与医疗卫生和生命健康活动相关的数据集合所有与医疗卫生和生命健康活动相关的数据集合构成了健康医疗大数据,是覆盖社会成员人口和构成了健康医疗大数据,是覆盖社会成员人口和全生命周期、涉及国家公共卫生安全和生物信息全生命周期、涉及国家公共卫生安全和生物信息安全的海量数据集合,包含但不限于诊疗数据、安全的海量数据集合,包含但不限于诊疗数据、研发数据、患者数据和支付数据等研发数据、患者数据和支付数据等4大类。大类。54Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论55Tianjin University of Science&Technology人工智能学院人工智能学院 计算机公共基础系计算机公共基础系信息信息与与智能科智能科学学导论小结小结56本章介绍了大数据产生的背景,大数据的概念本章介绍了大数据产生的背景,大数据的概念和特征,大数据的处理流程以及大数据的应用和特征,大数据的处理流程以及大数据的应用领域等。通过学习本章的内容,并完成后续实领域等。通过学习本章的内容,并完成后续实验,读者可以深入理解大数据的基本概念及其验,读者可以深入理解大数据的基本概念及其应用。应用。