清华-人工智能之数据挖掘-2019.1-179页.pdf.pdf

上传人:pei****hi 文档编号:874000 上传时间:2019-08-13 格式:PDF 页数:180 大小:42.79MB
返回 下载 相关 举报
清华-人工智能之数据挖掘-2019.1-179页.pdf.pdf_第1页
第1页 / 共180页
亲,该文档总共180页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《清华-人工智能之数据挖掘-2019.1-179页.pdf.pdf》由会员分享,可在线阅读,更多相关《清华-人工智能之数据挖掘-2019.1-179页.pdf.pdf(180页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 图表目录 图 1 数据挖掘是知识发现的过程之一. 3 图 2 数据挖掘过程基本步骤. 5 图 3 Data Mining 知识图谱 . 7 图 4 2013-2018 KDD 研究性论文投稿与接收情况 . 8 图 5 2013-2018 KDD 工业界论文投稿与接收情况 . 8 图 6 柯洁乌镇大战 AlphaGo 撼负后的微博热议 . 45 图 7 两个微博名人的微博点赞数据的箱型图. 48 图 8 组数较大组距较小的频率分布直方图. 49 图 9 相同均值和方差的不同数据. 55 图 10 k=3 的 K-means 算法迭代过程 . 56 图 11 神经元. 62 图 12 神经网络.

2、 63 图 13 Girvan-Newman 算法结果 . 71 图 14 基于优化 Q 值的算法结果 . 72 图 15 Louvain 算法步骤 . 73 图 16 Skip-Gram 模型架构 . 76 图 17 话题模型的概率图. 79 图 18 大数据处理平台技术架构图. 80 图 19 基于开源系统的大数据处理平台架构. 81 图 20 全球学者分布地图. 84 图 21 国内学者分布地图. 84 图 22 数据挖掘领域全球 Top1000 学者迁徙图 . 85 图 23 数据挖掘全球 Top1000 学者机构分布 . 85 图 24 数据挖掘全球 Top1000 学者 h-ind

3、ex 分布图 . 86 图 25 数据挖掘全球 Top1000 学者性别比 . 86 图 26 两阶段的交互推荐方法. 126 图 27 视频推荐(左)和视频搜索(右). 127 图 28 方法框架. 127 图 29 视频推荐的评测结果. 128 图 30 YouTube-8M 数据集上的视频检索 . 128 图 31 抽取系统的架构图. 129 图 32 数据偏差. 129 图 33 数据集的实验结果. 130 图 34 不同 submodular 的比较结果 . 131 图 35 共享表示层. 131 图 36 UCI 数据集的实验结果 . 132 图 37 Google 数据的实验结果

4、 . 132 图 38 PG 模型、MPG 扩展版本 . 133 图 39 在线系统的 A/B 测试 . 133 图 40 框架结构. 134 图 41 实验结果. 134 图 42 Microsoft Bing 的可视化搜索 . 136 图 43 算法展示. 137 图 44 降维过程. 137 图 45 RBE 模型 . 138 图 46 Rosetta 的两阶段抽取架构 . 139 图 47 系统的总体设计. 142 图 48 DPG-FBE . 142 图 49 阿里巴巴的可视化搜索. 143 图 50 可视化搜索系统的离线学习(左)在线搜索系统的总体架构(右). 143 图 51 基

5、于注意力机制网络和 RNN 的深度架构 . 144 图 52 排序过程. 144 图 53 电子商务网站中商品的表示学习. 145 图 54 SI 辅助信息 . 145 图 55 多级级联排名模型. 146 图 56 鲲鹏的总体架构. 146 图 57 conv-RNN 框架 . 147 图 58 局部匹配图. 148 图 59 关系增强的实体表示. 149 图 60 生成有意义的医疗关系. 149 图 61 提供实时停车可用性信息的框架图. 150 图 62 研究城市中人的活动. 151 图 63 大规模实际招聘数据系统. 152 图 64 Data Mining 全局热点 . 153 图

6、65 Data Mining 近期热点 . 153 图 66 Data Mining 早期热点 . 153 图 67 2007 至今 Data Mining 与 Health Care 领域交叉分析 . 155 图 68 Data Mining 与 Health Care 未来 3 年交叉研究趋势预测 . 156 表 1 数据挖掘和 KDD 对比图 . 2 表 2 数据挖掘分类表. 3 表 3 两个比较受欢迎的微博名人在 2018 年 3 月到 2018 年 5 月间的一部分微博 数据. 46 表 4 LDA 模型中的变量和标记 . 79 1 摘要摘要 数据挖掘 (Data Mining) 是

7、一个跨学科的计算机科学分支。 它是用人工智能、机器学习、 统计学和数据库的交叉方法在大规模数据中发现隐含模式的计算过程。基于大数据时代的背景,本研究报告对数据挖掘这一课题进行了简单梳理,包括以下内容: 数据挖掘的概念与研究概况。数据挖掘的概念与研究概况。首先从数据挖掘的定义、分类、过程与功能四个方面介绍了数据挖掘;整理并分析了数据挖掘领域顶级会议 ACM SIGKDD 近六年的信息。 数据挖掘的算法与实现。数据挖掘的算法与实现。按照数据挖掘应用的方向,从大数据、机器学习、社会网络、自然语言与统计数据分析五个方面介绍了数据挖掘的算法。基于大数据的数据挖掘主要介绍了数据采集层、数据存储层、数据处理

8、层和服务封装层四个层的基本架构,和部分大数据平台实例;基于机器学习的数据挖掘主要介绍了非监督学习方法与监督学习方法,重点是监督学习方法,包括训练集、验证集与测试集、决策树模式、kNN 算法、神经网络、回归分析;社会网络中的大数据挖掘主要介绍了图的基本要素、图的度量算子,并从行为分析算法、社区发现算法等方面介绍了社交网络上的算法; 自然语言中的数据挖掘先介绍了词的表示分析,并从语言模型与话题模型两个层面进行算法介绍; 统计数据分析与前三个方面均有交叉,主要从数据描述性分析、回归分析、关联分析、聚类分析三个方面进行介绍。最后具体分析了数据挖掘领域顶级会议 SIGKDD 最近几年在数据挖掘基础理论、

9、社交网络分析和图数据挖掘、大数据挖掘等几个方面的国内外的主要研究成果。 数据挖掘领域专家介绍。数据挖掘领域专家介绍。基于 AMiner 数据,对数据挖掘领域专家进行深入挖掘和介绍。 包括顶尖学者的全球与中国分布、 迁徙概况、 学者机构分布、 h-index分析,并依据 AMiner 评价体系,从代表学者与近十年代表学者两个层面选取学者进行详细介绍。 数据挖掘的应用领域与发展趋势。数据挖掘的应用领域与发展趋势。数据挖掘无论是在科学领域还是工程领域、理论研究还是现实生活中,其应用都十分广泛,有着极为广阔的发展前景。本文对其在物流业、旅游业、零售业等相关领域的应用情况进行了介绍,并基于AMiner

10、数据,对近期数据挖掘领域研究热点进行可视化分析,对未来数据挖掘方向进行了预测:隐私保护、可视化、与专业领域结合、多媒体数据挖掘等。 2 1 概述篇概述篇 1.1 数据挖掘基本概念数据挖掘基本概念 数据挖掘(Data Mining),是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的一个关键步骤。数据挖掘的广义观点:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法1。数据挖掘是一门综合的技术,涉及统计学、数据库技术和人工智能技术的综合,它的最重要的价值在于用数据挖掘技术

11、改善预测模型。 早期数据挖掘并不是作为单独学科存在, 追溯到30年前, Gregory I. Piatetsky-Shapiro(也是 KDnuggets 的创始人)等人于 1989 年 8 月在美国底特律的国际人工智能联合会议(IJCAI)上召开了一个专题讨论会(workshop),首次提出了知识发现(Knowledge Discovery in Database,KDD)这一概念。KDD 涉及数据库、机器学习、 统计学、 模式识别、 数据可视化、 高性能计算、 知识获取、 神经网络、信息检索等众多学科和技术的集成,再后来的 30 年间 KDD 逐渐形成了一个独立、蓬勃发展的交叉研究领域。

12、后来经过若干年的培育, 1995 年, 在加拿大蒙特利尔正式召开了第一届 “知识发现和数据挖掘”国际学术会议 KDD。1995 年在美国计算机 ACM 年会上,开始把数据挖掘视为知识发现 KDD 的一个基本步骤。随后成立了 ACM 专委会SIGKDD 以及对应的国际数据挖掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 简称 SIGKDD),到目前为止 SIGKDD已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用,详见 1.2 近年 SIGKDD 概况。 数据挖掘的对象可以

13、是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web 数据,此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。2 数据挖掘是 KDD 的一个关键步骤,下表对二者做一比较。 表 1 数据挖掘和 KDD 对比图 输出不同 共同点 数据挖掘 模型 输入的都是学习集(learning sets) 目的都是尽可能多的自动化数据挖掘过程 知识发现 规则 1 http:/www.kdd.org/curricul

14、um/index.html 2 王惠中,彭安群 数据挖掘研究现状及发展趋势 J 工矿动化,2011(2) 3 一般文件数据仓库知识清理与集成选择与转换数据挖掘评估与表示图 1 数据挖掘是知识发现的过程之一 早期比较有影响力的发现算法有: IBM 的 Rakesh Agrawal 的关联算法 (IBM Fellow、 后来 MS Technical Fellow、 第一届 ACM SIGKDD 的创新奖得主) 、 UIUC大学韩家炜(Jiawei Han)教授等人的 FP Tree 算法(第四届 ACM SIGKDD 的创新奖得主)、澳大利亚的 John Ross Quinlan 教授的分类算法

15、(第十一届 ACM SIGKDD 的创新奖得主)、密西根州立大学 Erick Goodman 的遗传算法。同时已经有一些国际知名公司纷纷加入数据挖掘技术研究的行列,如:美国的 IBM 公司于 1996 年研制的智能挖掘机 Intellingent Miner,用来提供数据挖掘解决方案,此后出现了 SPAA 公司的 Enterprise Miner、SGI 公司的 SetMiner、Sybase 公司的Warehouse Studio, 还有 CoverStory、 EXPLORA、 Knowledge Discover Workbench、DBMiner、Quest 等等。 1.1.1 数据挖

16、掘分类数据挖掘分类 表 2 数据挖掘分类表 分类方依据 分类 按挖掘的数据库类型 文字型 网络型 Time 型 Space 型 按挖掘的知识类型 高抽象层 原始数据层 多个抽象层 按所用技术类型 模式识别 神经网络 可视化 统计学 面向数据库或仓库技术 l 按挖掘的数据库类型分类按挖掘的数据库类型分类 由于数据库有约定俗成的分类方式,例如数据模式、数据类型、应用环境等分类种类,以上几种数据库都有属于自己特有的数据挖掘技术;数据库之间可以互相对应,根据数据库类型定义数据挖掘技术的方法可行。数据挖掘技术若按照数据类型进行分类,可以分为文字型、网络型、Time 型、Space 型等。3 3 王桂芹,

17、黄道 数据挖掘技术综述 J 电脑应用技术 2007 (69):10-11. 4 l 按挖掘的知识类型分类按挖掘的知识类型分类 数据挖掘技术可以按照数据挖掘技术的功能划分, 可划分为分析数据的内在规律、分析数据间的内在联系、定义描述等。一个数据挖掘全过程会同时由以上二个、三个或者多个功能组成。数据挖掘还可以划分为广义知识、原始层知识、多层知识等类别。也就是专业术语所说的高抽象层、原始数据层、多个抽象层等类别。经典的数据挖掘技术通常能够找到多层知识。数据挖掘技术也能够按照其内在规律和奇特的异常性进行分类。通常来说,数据的内在规律可以通过分析相关性数据、找出数据之间的内在联系、定义描述、集合类的对象

18、为多个类和估算等方法挖掘4。 l 按所用的技术类型分类按所用的技术类型分类 数据挖掘按照技术类型划分为:模式识别、神经网络和可视化、机器学习、统计学、面向数据库或仓库技术等;也可按照数据分析方法划分为:建模并模拟神经网络、进化算法、集合类似的对象为多个类、分类树、推演规律等。大型的数据挖掘系统通常包含二种或三种以上挖掘方法, 或者吸取多种挖掘方法的优点来处理数据挖掘。 l 按应用分类按应用分类 数据挖掘技术应用的领域不同, 分类也不同。 比如生物医学行业、 交通行业、金融行业、 通信行业、 股市行业等都有自己合适的且已广泛应用的数据挖掘方法。因此不可能做到用同一个数据挖掘技术应用到各个行业领域

19、。 1.1.2 数据挖掘过程数据挖掘过程 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的,可实用的信息,并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。 数据挖掘过程中各步骤的大体内容如下: 第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。 第二步:数据准备。数据准备分为三个阶段。数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操

20、作的类型。数据的转换:将数据转换成一个分析模型。这个分析模型是4 JiaweiHan, MichelineKamber, JianPei, et al. 数据挖掘:概念与技术M. 机械工业出版社, 2012. 5 针对挖掘算法建立的。 建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 逻辑 数据库被选择 的数据预处理 后的数据被转换 的数据被抽取 的信息被同化 的信息选择预处理转换挖掘分析和同化图 2 数据挖掘过程基本步骤 第三步:进行数据挖掘。对得到的经过转换的数据进行挖掘。 第四步:结果分析。解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。 第五步:

21、知识的同化。将分析所得到的知识集成到所要应用的地方去5。 1.1.3 数据挖掘功能数据挖掘功能 目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述,特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测。 1.1.4 大数据与数据挖掘大数据与数据挖掘 大数据是近年随着互联网、物联网、通信网络以及人类社

22、交网络快速发展的结果,成为一个交叉研究学科,和数据挖掘紧密相连。一方面大数据包含数据挖掘的各个阶段,即数据收集、预处理、特征选择、模式挖掘、表示等;另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施; 最后大数据的迅速发展也使得数据挖掘对象变得更为复杂, 不仅包括人类社会与物理世界的复杂联系,还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用,传统数据挖掘算法必须满足对真实数据和实时数据的处理能力, 才能从大量无序数据中获取真正价值。 5 王桂芹,黄道.数据挖掘技术综述C全国第 18 届计算机技术与应用学术会议论文集,2007 6 大数据具有 4V 特性,对 4V 特性的

23、解释有多种,包括美国国家标准技术研究院 NIST 的解释:即规模庞大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化多样(Variability)。IBM 给出了类似的解释,但 Variability变成了真实性(Veracity),后来将数据价值(Value)引入了进来,成为了大数据的 5V 特性。麦肯锡全球研究机构(McKinsey Global Institute)后来给出了大数据定义,综合了“现有技术无法处理”和“数据特征定义”定义,这也是目前比较公认的定义: 即规模庞大 (Volume) 、 种类繁多 (Variety) 、 变化频繁 (Veloci

24、ty)和价值(Value)。 大数据的快速发展极大的促进了数据挖掘领域的发展。 1.2 数据挖掘知识图谱数据挖掘知识图谱 本节分析了近年来数据挖掘领域的高水平学术论文, 挖掘出了包括社交网络、大数据、情报分析、聚类分析、文本挖掘、用户行为、推荐系统、离群检测、专家系统等相关关键词近年来全球活跃的学术研究。此外,结合知识图谱技术,本报告将以上研究领域表示为三级图谱结构,具体分析和处理的方法如下: 1. 使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图谱,将文章分配到相应领域; 2. 依据学科领域对论文文献进行聚类,并统计论文数量作为领域的研究热度; 3. 领域专家按照领域

25、层级对学科领域划分等级,设计了三级图谱结构,最后根据概念热度定义当前研究热点。 下图是数据挖掘二级知识图谱的可视化表示,三级详细数据可以参见本报告附录,或到 https:/ 中直接下载原始数据。 7 图 3 Data Mining 知识图谱 1.3近年近年SIGKDD概况概况 国际知识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称 SIGKDD)是数据挖掘领域的顶级国际会议,由ACM 的数据挖掘及知识发现专委会负责协调筹办。会议内容涵盖数据挖掘的基础理论、算法和实际应用,SIGKDD 主会期间,

26、除了学术研究论文,自 2010 年起还设有面向工业和政府应用的专题研讨会,以及工业应用博览的邀请报告会。 SIGKDD 发展的历史可以追溯到 1989 年,一系列关于知识发现及数据挖掘的研讨会从那时开始组织。自 1995 年以来,SIGKDD 以大会的形式连续举办了24 届,论文的投稿量和参会人数呈现出逐年累增的趋势。由于 SIGKDD 的学科交叉性和广泛应用性,吸引了来自统计、社会网络分析、机器学习、大数据挖掘、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互及高性能计算等众多领域的学者。 SIGKDD 每年的大会都会吸引大量的研究界和工业界的投稿。 图 4 和图 5 分别给出了

27、KDD 近几年研究性论文(Research Track)和工业界论文(Industrial Track,最近改为 Applied Data Science Track)的投稿和录用情况。总的来说研究性论文投稿相对比较稳定,录用率也一直在 14%-20%之间;而工业界论文近年呈现明显快速增长趋势。 尤其 2018 年达到近 500 篇投稿。 投稿录用率也降到 20%8 以下。这与近年深度学习、人工智能、大数据等相关算法在工业界大量应用密不可分。 图 4 2013-2018 KDD 研究性论文投稿与接收情况 图 5 2013-2018 KDD 工业界论文投稿与接收情况 下面就近几年 SIGKDD

28、大会分别做一个简单概述,相信读者能够对整个SIGKDD 乃至数据挖掘领域有个更深入的了解。 (1)SIGKDD 2013 2013 年 8 月 11-14 日,第 19 届知识发现与数据挖掘大会(SIGKDD 2013)在美国芝加哥召开,此次大会的主题是大数据挖掘。 SIGKDD 2013 大 会 的 主 席 是 前 通 用 汽 车 高 级 研 究 经 理 Ramasamy Uthurusamy 博士和伊利诺伊芝加哥大学的 Robert L. Grossman 教授,研究性程序委员会主席由来自德克萨斯奥斯丁大学的 Inderjit S. Dhillon 教授和 Google 的Yehuda K

29、oren 博士担任,另外有 50 名高级程序委员会委员和 300 名程序委员负责论文评审。吸引了来自全球 50 多个国家 1200 多人参加。 7261036819784748983125151160142130181-40.0% -20.0% 0.0% 20.0% 40.0% 60.0% 020040060080010001200201320142015201620172018Research TracksubmittedacceptedSUB annual growthACC annual growth1361971893313904963444686686112-20.0%0.0%20.

30、0%40.0%60.0%80.0%0100200300400500600201320142015201620172018Applied Data Science TracksubmittedacceptedSUB annual growthACC annual growth9 SIGKDD 2013 大会收到来自 50 多个国家的 726 篇论文投稿,每篇文章由至少 3 名审稿人评审,然后由相应领域的高级程序委员协调讨论并推荐,最后由程序主席决定是否接收。最终录用论文 125 篇(录用率约 17.2%),其中大会报告论文 66 篇(仅 9.1%)、张贴报告论文(Poster Presentation)59 篇。 SIGKDD 2013大会邀请了微软的Raghu Ramakrishnan 、 斯坦福的Andrew Ng 、威斯康辛的 Stephen J. Wright 以及 Google 的 Hal Varian 四位在产业界与学术界均产生重要影响的专家进行大会主题报告。 SIGKDD 2013 的具体获奖情况如下: l 最佳研究性论文最佳研究性论文 最佳论文奖最佳论文奖 Simple and Deterministic Matrix Sketching 简易及确定性矩阵草图 作者作者:Edo Liberty 摘

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 可研报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁