《人工智能之可视化.pdf》由会员分享,可在线阅读,更多相关《人工智能之可视化.pdf(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 可视化研究报告 主 编:曹 楠 编 辑:何 杨 蒲 杰 目录目录 1.1.概述篇概述篇 .1 1 1.1 基本概念 1 1.2 可视化发展历程 2 1.3 可视化呈现的设计标准 5 2.2.技术篇技术篇 .6 6 2.1 数据可视化(Data Visualization)6 2.2 可视化图形库 21 2.3 国内知名可视化实验室 22 2.4 可视化领域的顶级会议和期刊 23 3.3.人才篇人才篇 .2525 3.1 学者情况概览 25 3.2 国外学者简介 28 3.3 国内学者简介 34 4.4.应用篇应用篇 .3939 4.1 社交媒体可视化 39 4.2 体育数据可视化 40 4.
2、3 医疗数据可视化 42 5.5.趋势篇趋势篇 .4545 图表目录图表目录 图 1 可视化发展历程.2 图 2 拿破仑进军莫斯科的历史事件.3 图 3 1933 年 Henry Beck 设计的伦敦地铁图.3 图 4 科学可视化的早期可视化流水线.7 图 5 CT(左)MRI(右).7 图 6 飞机翼流可视化.8 图 7 信息可视化参考模型.11 图 8 2D 散点图.12 图 9 基于投影的多维可视化与平行坐标多维可视化.12 图 10 集成了散点图和柱状图的平行坐标工具 FlinaPlots.13 图 11 GitHub 欧洲用户分布示意图.14 图 12 细节级呈现.14 图 13 压
3、缩的邻接矩阵.14 图 14 电影故事情节的可视化.15 图 15 法国 1864 年红酒出口.16 图 16 可视化领域词云.17 图 17 DAViewer 和 DocuBurst 文本语义结构树.17 图 18 推特用户线上社交活动的射线布局及基本信息.18 图 19 主题河流图.18 图 20 事件河流图.19 图 21 可视分析学内容.20 图 22 美国各州失业率等值线图(左)与溪流图(右).22 图 23 IEEE 可视化会议官网.24 图 24 IEEE 可视化与计算机图形学.24 图 25 全球可视化领域 TOP 学者分布图.25 图 26 可视化领域 TOP 学者中国分布.
4、26 图 27 全球可视化领域 TOP 学者迁徙图.27 图 28 全球可视化领域 TOP 学者分布机构统计 TOP10.27 图 29 全球可视化领域 TOP 学者 h-index 分布.27 图 30 全球可视化领域 TOP 学者男女性别比例.28 图 31 可视化全球研究趋势图.45 表 1 可视化呈现的设计标准.5 表 2 科学可视化分类.9 表 3 全球可视化领域 TOP 学者分布国家 TOP5.26 表 4 社交媒体可视化介绍.39 表 5 体育数据可视化.40 表 6 医疗数据可视化.43 1 1.概述篇概述篇 本章节从阐述可视化基本概念出发,简要介绍可视化的发展历程、研究内容、
5、设计原则与设计标准。1.1 基本概念 可视化是把数值或非数值类型的数据转化为可视的表示形式,并获得对数据更深层次认识的过程。可视化将复杂的信息以图像的形式呈现出来,让这些信息更容易、快速地被人理解,因此,它也是一种放大人类感知的图形化表示方法。可视化充分利用计算机图形学、图像处理、用户界面、人机交互等技术,以人们惯于接受的表格、图形、图像等形式,并辅以信息处理技术(例如:数据挖掘、机器学习等)将复杂的客观事物进行图形化展现,使其便于人们的记忆和理解。可视化为人类与计算机这两个信息处理系统之间提供了一个接口,对于信息的处理和表达方式有其独有的优势,其特点可总结为可视性、交互性和多维性。目前,数据
6、可视化数据可视化针对不同的数据类型及研究方向,可以进一步划分为科学数据可视化、信息可视化,以及可视分析学三个子领域。这三个领域即紧密相关又分别专注于不同类型的数据及可视化问题。具体而言,科学可视化科学可视化是针对科学数据的可视化展现技术。科学数据,例如,医疗过程中由 CT 扫描生成的影像数据、风洞实验而产生的流体数据、以及分子的化学结构等,是对物理世界的客观描述,往往是通过科学仪器而测量得到的数据。这类数据的可视化主要关注于如何以清晰直观的方式展现数据所刻画的真实物理状态。因此,科学可视化往往呈现的是三维场景下的时空信息。信息可视化信息可视化注重于如何以图形的方式直观展现抽象数据,它涉及到了对
7、人类图形认知系统的研究。在这里,抽象数据(例如:图形数据、多维度数据、文本数据等)往往是对各应用领域所产生数据的高层次概括,记录的是抽象化的信息。针对这样的数据,信息可视化着眼于多维度信息的可视编码技术,即如何以低维度(2D)的图形符号来直观展现并揭示抽象数据中所隐藏的潜在规律与模式;可视分析可视分析学学是多领域技术结合的产物,旨在结合并利用信息可视化、人机交互、以及数据挖掘领域的相关技术,将人的判断与反馈作为数据分析中重要的一环,从而达到精准数据分析、推理及判断的目的。可视化的重要性在于,通过提供对数据和知识的展现,建立用户与数据系统交互的良好沟通渠道,利用人类对图形信息与生俱来的模式识别能
8、力,通过以直观的图像化方式展现数据,从而帮助用户快速发觉数据中的潜在规律,并借助分析人员的领域知识与经验,对模式进行精准分析、判断、推理,从而达到辅助决策的目的。目前可视化技术在各行各业中均得到了广泛的应用。其中,可视化技术在信息安全、智慧医疗、电子商务、机器学习、智慧城市、文化体育、数字新闻、气象预报、地质勘测等诸多领域产生了非常广泛的应用,并逐渐成为这些领域当中越来越重要的组成部分。当下可视化存在的挑战是:如何进一步深入挖掘人类对于图形、动画、以及交互的感知 2 及认知模式,从而进一步完善可视化的相关理论;如何打破“手工作坊”式的针对每一个问题,单独定制数据可视化设计方案的传统模式,大规模
9、批量创造生成风格化的可视展现;以及,如何根据用户的数据分析任务与需求自动推荐合适的可视化展现方式。主要的研究趋势:海量、异构、时变、多维数据的可视化展示方案;可视化在可解释性深度学习领域的应用;自动可视化生成技术的研究;基于形式概念分析理论的知识可视化方法;可视化模式识别;整体可视与局部详细可视相结合的新方法研究等。1.2 可视化发展历程 图 1 可视化发展历程 19 世纪世纪-19 世纪中叶:现代图形学设计世纪中叶:现代图形学设计雏形雏形 十九世纪前叶,因为受视觉表达方法创新的影响,统计图形及专题绘图领域应用得到快速发展。目前,我们看到的绝大多数统计图形都是在这一时间段被发明的。同期,因政府
10、开始着重关注人口、教育、犯罪、疾病等领域,数据的收集整理范围明显扩大,超乎以往的社会管理方面的数据被收集起来用于社会分析。1801 年英国地质学家 William Smith 绘制了第一幅地质图,引领了一场在地图上表现量化信息的潮流。这一时期,数据的收集整理从科学技术和经济领域扩展到社会管理领域,对社会公共领域数据的收集标志着人们开始以科学手段进行社会研究。与此同时科学研究对数据的需求也变得更加精确,研究数据的范围也有明显扩大,人们开始有意识地使用可视化的方式来尝试研究、解决更广泛领域的问题。19 世纪中叶世纪中叶-末期:数据末期:数据图形图形绘制绘制发展加速发展加速 在十九世纪中叶,统计图形
11、、概念图等概念迅猛发展,此时的人们已经掌握了整套统计数据可视化工具,数据可视化领域发展进入了加速期,随着数字信息对社会、工业、商业直至交通规划的影响不断增大,欧洲开始着力发展数据分析技术。一群学者发起的统计理论给出了更多种数据的意义,数据可视化迎来了它历史上的第一个发展加速期。统计学理论的建立是可视化发展的重要一步,此时数据由政府机构进行收集,数据的来源变得更加规范化。随着社会统计学的影响力越来越大,在 1857 年维也纳的统计学国际会议上,学者就已经开始对可视化图形的分类和标准化进行讨论。不同数据图形开始出现在书籍、报刊、研究报告和政府报告等正式场合之中。这一时期法国工程师 Charles
12、Joseph Minard 绘制了多幅有意义的可视化作品,被称为“法国的 Playfair”,他最著名的作品是用二维的表达方式,展现六1919世纪世纪-1919世纪中世纪中叶叶现代图形学设计现代图形学设计雏形雏形1919世纪中叶世纪中叶-末期末期数据图形绘制发数据图形绘制发展加速展加速2020世纪世纪-2020世纪中世纪中叶叶停滞期停滞期19501950-19741974复苏复苏19751975-20112011科学计算可视科学计算可视化、信息可视化化、信息可视化相继相继诞生诞生20122012-至今至今基于大数据的可基于大数据的可视化视化 3 种类型的数据,用于描述拿破仑战争时期军队损失的统
13、计图(见图 2)。1879 年,Luigi Perozzo绘制了一张 1750-1875 年瑞典人口普查数据图,以金字塔形式表现了人口变化的三维立体图,此图与之前所看到的可视化形式有一个明显的区别在于:开始使用三维的形式,并使用彩色表示了数据值之间的区别,提高了视觉感知。在对这一时期可视化历史的探究中发现,数据来源的官方化,以及对数据价值的认同成为了可视化快速发展的决定性因素,当时几乎所有的常见可视化元素都已经出现。并且在这一时期出现了三维的数据表达方式,这种创造性的成果对后来的研究有十分突出的作用。图 2 拿破仑进军莫斯科的历史事件 20 世纪世纪-20 世纪中叶:世纪中叶:停滞期停滞期 2
14、0 世纪的上半叶,随着数理统计这一新数学分支的诞生,追求数理统计严格的数学基础并扩展统计的疆域成为这个时期统计学家们的核心任务。数据可视化成果在这一时期得到了推广和普及,并开始被用于尝试着解决天文学、物理学、生物学的理论新成果,Hertzsprung-Russell 绘制的温度与恒星亮度图成为了近代天体物理学的奠基之一;伦敦地铁线路图的绘制形式如今依旧在沿用(如图 3 所示);E.W.Maunder 的“蝴蝶图”用于研究太阳黑子随时间的变化。然而,这一时期人类收集、展现数据的方式并没有得到根本上的创新,统计学在这一时期也没有大的发展,所以整个上半叶都是休眠期。但这一时期的蛰伏与统计学者潜心的研
15、究才让数据可视化在本世纪后期迎来了复苏与更快速的发展。图 3 1933 年 Henry Beck 设计的伦敦地铁图 4 1950-1974:复苏复苏 从 20 世纪上半叶末到 1974 年这一时期被称为数据可视化领域的复苏期,在这一时期引起变革的最重要的因素就是计算机的发明,计算机的出现让人类处理数据的能力有了跨越式的提升。在现代统计学与计算机计算能力的共同推动下,数据可视化开始复苏,统计学家JohnW.Tukey 和制图师 Jacques Bertin 成为可视化复苏期的领军人物。JohnW.Tukey 在二战期间对火力控制进行的长期研究中意识到了统计学在实际研究中的价值,从而发表了有划时代
16、意义的论文“The Future of Data Analysis”,成功的让科学界将探索性数据分析(EDA)视为不同于数学统计的另一独立学科,并在 20 世纪后期首次采用了茎叶图、盒形图等新的可视化图形形式,成为可视化新时代的开启性人物。Jacques Bertin 发表了他里程碑式的著作Semiologie Graphique。这部书根据数据的联系和特征,来组织图形的视觉元素,为信息的可视化提供了一个坚实的理论基础。随着计算机的普及,上世纪六十年代末,各研究机构逐渐开始使用计算机程序取代手绘的图形。由于计算机的数据处理精度和速度具有强大的优势,高精度分析图形已不能用手绘制。在这一时期,数据
17、缩减图、多维标度法 MDS、聚类图、树形图等更为新颖复杂的数据可视化形式开始出现。人们尝试着在一张图上表达多种类型数据,或用新的形式表现数据之间的复杂关联,这也成为这一时期数据处理应用的主流方向。数据和计算机的结合让数据可视化迎来了新的发展阶段。1975-2011:科学计算可视化、信息可视化:科学计算可视化、信息可视化相继相继诞生诞生 这段时期,计算机成为数据处理的一个重要工具,数据可视化进入了新的黄金时代,随着应用领域的增加和数据规模的扩大,更多新的数据可视化需求逐渐出现。二十世纪七十年代到八十年代,人们主要尝试使用多维定量数据的静态图来表现静态数据,八十年代中期出现了动态统计图,最终在上世
18、纪末两种方式开始合并,致力于实现动态、可交互的数据可视化,动态交互式的数据可视化方式成为新的发展主题。数据可视化的这一时期的最大潜力来自动态图形方法的发展,允许对图形对象和相关统计特性的即时和直接的操纵。这一时段初期就已经出现交互系统,通过调整控制来选择参考分布的形状参数和功率变换。这可以看作动态交互式可视化发展的起源,并推动了这一时期数据可视化的发展。2012-至今:基于大数据的可视化至今:基于大数据的可视化 步入 21 世纪互联网数据量猛增,人们逐渐开始对大数据的处理进行了重点关注。之后全球每天的新增数据量就已经开始以指数倍膨胀,用户对于数据的使用效率也在日益提升,数据的服务商开始需要从多
19、个维度向用户提供服务,大数据时代就此正式开启。2012 年,我们进入数据驱动的时代。人们对数据可视化技术的依赖程度也不断加深。大数据时代的到来对数据可视化的发展有着冲击性的影响,继续以传统展现形式来表达庞大的数据量中的信息是不可能的,大规模的动态化数据要依靠更有效的处理算法和表达形式才能够传达出有价值的信息,因此大数据可视化的研究成为新的时代命题。我们在应对大数据时,不但要考虑快速增加的数据量,还需要考虑到数据类型的变化,这种数据扩展性的问题需要更深入的研究才能解决;互联网的加入增加了数据更新的频率和获取的渠道,而实时数据的巨大价值只有通过有效的可视化处理才可以体现,于是在上一历史时期就受到关
20、注的动态交互的技术已 5 经向交互式实时数据可视化发展。综上,如何建立一种有效的、可交互式的大数据可视化方案来表达大规模、不同类型的实时数据,成为了数据可视化这一学科的主要的研究方向。1.3 可视化呈现的设计标准 一份优秀的可视化设计应该满足以下几项标准,如表 1 所示:表 1 可视化呈现的设计标准 Faithfulness(信)Expressiveness(达)Elegance(雅)保证展现数据准确性 有效且精准地呈现数据 保证数据呈现的美观性,增强数据呈现的艺术效果,符合审美规则 6 2.技术篇技术篇“One picture is worth thousand words.”(一张图胜过千
21、言万语)这句谚语已经充分描绘出了图形包含内容之多,传递信息效率之高。研究发现,人类从外界获得的信息约有 80%以上来自于视觉系统,当大数据以十分直观的可视化图形形式,展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧。虽然较为简单的数据可视化形式,已经出现了数个世纪,但大量被人们使用和重视却是在近数十年内,部分原因是现今的可视化工具越来越容易被大众所使用,同时随着互联网等行业的兴起,线上数据量呈现爆炸式增长,人们对可视化图形的需求与日增强,运用到可视化技术的频率增高。可视化技术也在顺应需求,不断被更新迭代,从最初的数据可视化衍生出科学可视化、信息可视化,基于上述技术
22、又衍生出了可视分析。本章节主要从数据可视化技术出发,对其包含的科学可视化、信息可视化和可视分析学来进行可视化技术层面的简单介绍。2.1 数据可视化(Data Visualization)据 2018 年 4 月 25 日消息,IDC(International Data Corporation)预测,全球数据总量预计 2020 年达到 44 个 ZB,我国数据总量将达到 8060 个 EB,占全球数据总量的 18%。面对如此庞大的数据量,人类分析数据的能力却要远远小于获取数据的能力。造成这一局面的原因不单单在于与日俱增的数据量,同时其高维、多元源、多态等特性,也为人类分析数据带来不小的挑战。数
23、据可视化是帮助人类分析数据的手段之一,它借助人类的视觉感知与认知能力,能够十分有效地传达丰富的、极易被隐藏的信息,对人类分析数据起到辅助的作用。正如本报告1.2 章节写到,当下的数据可视化技术基于计算机科学的快速发展,同时其运用计算机图形学、人机交互等技术,将采集到的数据转化为可识别的图形或视频,将具有价值的信息反馈给用户。用户再使用可视化交互工具进行数据分析,进一步将数据升华为知识。传统统计分析或者数据挖掘经常将数据变得简化、抽象,这使得数据集真实的结构被隐藏起来,而数据可视化却弥补了这个弊端,它真实还原了数据集的结构,甚至还在其基础上针对数据细节做出了进一步增强。基于陈为等人编写的数据可视
24、化、刘世霞等人发表的A Survey on Information Visualization和其他学者发表的论文,当下主流观点将数据可视化视为科学可视化与信息可视化的统称。数据可视化包括了科学数据处理的科学可视化与抽象、非结构化信息的信息可视化两个分支。科学可视化带有空间坐标与几何信息的三维空间测量数据、医学影像数据等,其研究重点关注在如何有效呈现数据中几何、拓扑和形状特征。信息可视化是抽象的、非结构化、非几何的数据。基于数据分析的重要性,人们选择将可视化与分析结合,便形成了可视分析学。因此,数据可视化的主要分支包括了科学可视化、信息可视化和可视分析学。7 2.1.1 科学可视化(Scien
25、tific Visualization)科学可视化是可视化领域最早、最成熟的一个跨学科研究与应用领域。1987 年,由布鲁斯麦考梅克等众研究者撰写的美国国家科学基金会报告科学计算之中的可视化对于可视化领域具有重大的奠基意义。此后科学可视化的概念出现。科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。由于数据的规模通常超过图形硬件的处理能力,所以如何快速呈现数据中包含的集合、拓扑、形状特征和演化规律是其核心问题。科学可视化面向的领域包括自然科学,如物理、化学、气象气候、航空航天、医学、生物等学科,这些学科通常需要对数据和模型进行解释、操作与处理
26、,旨在找出其中的模式、特点、关系以及异常情况。科学可视化设计有可视化流程的参考体系模型,并运用在数据可视化的系统中。图 4 是科学可视化的早期可视化流水线。这条流水线其实是数据处理与图形绘制的嵌套组合。图 4 科学可视化的早期可视化流水线 目前,科学可视化的基础理论与方法已经相对成形。最初关于它的研究都主要集中在真实世界的物理化现象,所以数据通常表达在三维空间。科学可视化基于数据类别,可大致分为标量、向量、张量三类。(1)标量场可视化标量场可视化 标量,也被称为“无向量”,是指那些只具有数值大小,而没有方向,没有正负之分的物理量。这些量之间的运算遵循一般的代数法则,称作“标量”。如质量、密度、
27、温度、能量、路程、速率、体积、时间、热量、电阻、功率等物理量。标量场指维度空间内每一个采样点的数据场,它的获得途径包括医学断层扫描设备得到的 CT(计算机断层扫描)、MRI(核磁共振成像)影像,CT 照片实际上是一个二维数据场,照片的灰度表示了某一物体的密度。将这些数据按一定顺序排列起来,就构成一个三维数据场。图 5 CT(左)MRI(右)原始数据数据分析预处理数据过滤关注数据映射几何数据绘制图像数据 8(2)向量场可视化向量场可视化 在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(Magnitude)和方向的量。在物理学和工程学中,几何向量更常被称为矢量。向量场在每一个采样
28、点是一个向量。向量场可视化的主要关注点是流体模式和关键特征区域。向量场可视化的应用主要在计算流体动力学中速度场可视化。任何涉及到流的学科都可以采用向量场可视化,如社会科学中人口的流动、飞机翼流可视化等。图 6 飞机翼流可视化 除了通过拓扑或几何方法计算向量场的特征,对向量场直接进行可视化的方法包括三类:粒子对流法 将向量转换为一帧或多帧纹理图像,提供直观的影像展示 图标编码单个或简化后的向量信息(3)张量场可视化张量场可视化 张量概念是矢量概念的推广,矢量是一阶张量。张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。张量场可视化方法分为三类:基于纹理的方法 这种方法是将
29、张量场转换为静态或动态图像序列,呈现张量场的全局属性。首先将张量场简化为向量场,继而采用线积分法、噪声纹理法等方法显像。基于几何的方法 这种方法能够刻画某类张量场属性的几何表达,其中的图标法采用某种几何形式表达单个张量,如椭球和超二次曲面;超流线法 Hyper streamline 将张量转换为向量(如二阶对称张量的主特征方向),再进行积分,形成流线、流面或流体。基于拓扑的方法 这种方法计算张量场的拓扑特征,特征包括关键点、奇点、灭点、分叉点和退化线等。9 按顺序将感兴趣区域剖分为具有相同属性的子领域,并建立对应的图结构,实现拓扑简化、拓扑跟踪和拓扑显示。基于拓扑的方法可有效地生成多变量场的定
30、性结构,快速构造全局流畅结构,适合于数值模拟或实验模拟生成的大尺度数据。上述的标量场可视化、向量场可视化和张量场可视化分类并不是科学数据处理的全部内容。包括文本、影像和带有语义的信号均为科学可视化的处理对象,且呈现空间变化多样。科学可视化分类总结如表 2 所示:表 2 科学可视化分类 分类分类 介绍介绍 方法方法 标量场可视化 标量是单个数值,即在每个纪录的数据点三都有一个单一的值。标量场指二维、三维或四维空间中每个采样处都有一个标量值的数据场。来源包括:从扫描或测量设备获得,如医学断层扫描设备获取的 CT,MRI 三维影像;从计算机或机器仿真中获得,如从核聚变模拟中产生的壁内温度分布 将数值
31、直接映射为颜色或透明度。等值面方法:根据需要抽取并连接满足的点集,并连接为线或面。直接体绘制方法:将三维标量数据场看成能产生、传输和吸收光的媒介,光源透过数据场后形成半透明影像。向量场可视化 在每一个采样点是一个向量,为一维数组,向量场可视化的主要关注点是其中蕴含的流体模式和关键特征区域。向量代表某个方向或趋势,例如来源于测量设备的风向和漩涡等;来源于数据仿真的速度和力量等 粒子对流法:模拟粒子在向量场中以某种方式流动,获得的几何轨迹可以反映向量场的流体模式。将向量场转换为一帧或多帧纹理图像,为观察者提供直观的影像展示。采用简化易懂的图标编码单个或简化后的向量信息,可提供详细信息的查询与计算。
32、张量场可视化 张量是矢量的推广,标量可以看作 0 阶张量,矢量可看作 1 阶张量 纹理:将张量场转换为静态图像或动态图像序列,图释张量场的全局属性。几何:显式地生成刻画某类张量场属性的几何表达。拓扑:计算张量场的拓扑特征,依次将感兴趣区域剖分为具有相同属性的子区域,并建立对应的图结构,实现拓扑简化、拓扑跟踪和拓扑显示。(数据来源:陈为,沈则潜,&陶煜波.(2013).数据可视化.电子工业出版社 2013 年版.)科学可视化技术的意义重大,它加速了研究者对数据的处理能力,使得日益增长的大数据得到最有效的运用。同时也增强了研究者们观察事物规律的能力,在得到计算结果的同时,也能了解计算过程中发生的各
33、种现象,通过改变参数,观察其影响,对计算过程实现引导和控制。科学可视化面向的领域包括自然科学,如物理、化学、气象气候、航空航天、医学、生物等各个学科,这些学科通常需要对数据和模型进行解释、操作与处理,旨在找出其中的模式、特点、关系以及异常情况。IEEE Scientific Visualization,SciVis 2018 部分获奖论文:10 Best Paper Award Title:Deadeye:A Novel Preattentive Visualization Technique Based on Dichoptic Presentation Authors:Andrey Kre
34、khov,Jens Krger Paper-link:https:/ieeexplore.ieee.org/document/8440097 Best Paper Honorable Mention Title:Labels on Levels:Labeling of Multi-Scale Multi-Instance and Crowded 3D Biological Environments Authors:David Kouil,Ladislav molk,Barbora Kozlkov,Hsiang-Yun Wu,Graham Johnson,David S.Goodsell,Art
35、hur Olson,Eduard Grller,Ivan Viola Paper-link:https:/ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8440077 Title:Firefly:Illumination Drones for Interactive Visualization Authors:Sergej Stoppel,Magnus Paulson Erga,Stefan Bruckner Paper-link:https:/ieeexplore.ieee.org/document/8440109 Test of Time
36、 Awards Title:Texture splats for 3D scalar and vector field visualization(1993)Authors:Roger Crawfis,Nelson L.Max Paper-link:https:/ Title:Acceleration techniques for GPU-based volume rendering(2003)Authors:Jens H.Krger,Rdiger Westermann Paper-link:https:/ 2.1.2 信息可视化(Information Visualization)自 18
37、世纪后期数据图形学诞生以来,抽象信息的视觉表达手段一直被用来揭示数据及其他隐匿模式的奥秘。20 世纪 90 年代期间出现的图形化界面则使得人们能够直接与可视化信息进行交互,从而推动了信息可视化研究。信息可视化通过人类的视觉能力,来理解抽象信息的含义,从而加强人类的认知活动,达到能够驾驭日益增多的数据的能力。目前学术界对信息可视化的一个普遍认同定义为:对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力,与传统计算机图形学以及科学可视化研究不同,信息可视化的研究重点更加侧重于通过可视化图形呈现数据中隐含的信息和规律,所研究的创新性可视化表征旨在建立符合人的认知规律的心理映像(men
38、tal image)。经过了 20 余年的发展,信息可视化已经成为人们分析复杂问题的强有力工具。信息可视化处理的对象是抽象的、非结构化数据集合,其核心问题主要包含高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。其表现形式通常在二维空间,因此关键问题是在有限的展现空间中以直观的方式传达大量的抽象信息。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此需要根据特定数据分析的需求,决定数据元素在空间的布局。图 7 是由 Card 等提出的经典信息可视化参
39、考模型(Reference Model)。目前几乎所有著 11 名的信息可视化系统和工具包都支持这个模型,且绝大多数系统在基础层兼容,只是在实现中存在细微的差异。信息可视化是从原始数据到可视化形式再到人的感知认知系统的可调节的一系列转换过程:转换-将原始数据转换为数据表形式;映射-将数据表映射为可视化结构,由空间基、标记、以及标记的图形属性等可视化表征组成;视图变换-将可视化结构根据位置、比例、大小等参数设置显示在输出设备上。图 7 模型中的关键变换是可视化映射。从基于数学关系的数据表映射为能够被人视觉感知的图形属性结构。一般来说,数据本身并不能自动映射到几何物理空间,因此需要人为创造可视化表
40、征或隐喻来代表数据的涵义,并且根据建立的可视化结构特点设置交互行为来支持任务的完成。可视化结构在空间基中通过标记以及图形属性对数据进行编码。可视化映射需满足两个基本条件:一是真实的表示并保持了数据的原貌,并且只有数据表中的数据才能映射至可视化结构当中;二是可视化映射形成的可视化表征或隐喻是易于被用户感知和理解的,同时又能够充分地表达数据中的相似性、趋势性、差别性等特征,即具有丰富的表达能力。在信息可视化近 20 多年来的发展历程中,如何创造新型并且有效的可视化表征以达到一眼洞穿的效果,一直是该领域追求的目标和难点,在大数据时代仍然是信息可视化领域的关键所在。此外,信息可视化可以理解为编码(en
41、coding)和解码(decoding)两个映射过程:编码是将数据映射为可视化图形的视觉元素,如形状、位置、颜色、文字、符号等;解码则是对视觉元素的解析,包括感知和认知两部分。一个好的可视化编码需同时具备两个特征:效率和准确性。效率指的是能够瞬间感知到大量信息,准确性则指的是解码所获得的原始真实信息。图 7 信息可视化参考模型 信息可视化处理的对象是抽象的、非结构化的数据集合,包括但不限于文本、图表、地图等。传统的信息可视化表现形式通常在二维空间,如何在有限的展现空间中以直观的方式传达大量的抽象信息是一个关键问题。信息可视化相较科学可视化更加关注抽象、高维的数据,此类数据一般不具有空间中位置的
42、属性。信息可视化的方法与所针对的数据类型有着密切的关系,所以按数据类型大致可以分为如下几类:(1)多维数据可视化(多维数据可视化(Multidimensional Data Visualization)12 多维数据可视化,用于描绘现实世界中复杂问题和对象的数据通常是多变量的高维数据,将其在二维屏幕上呈现出来是可视化面临的挑战。多维数据可视化的方法包括数据降维到低纬度空间,使用相关联的多试图同时表现不同维度等等。其广泛存在于基于传统关系数据库以及数据仓库的应用中,例如企业信息系统以及商业智能系统。多维数据分析的目标是探索多维数据项的分布规律和模式,并揭示不同维度属性之间的隐含关系。Keim 等
43、人归纳了多维可视化的基本方法,包括基于几何图形、基于图标、基于像素、基于层次结构、基于图结构以及混合方法。其中,基于几何图形的多维可视化方法是近年来主要的研究方向。大数据背景下,除了数据项规模扩张带来的挑战,高维所引起的问题也是研究的重点。散点图(scatter plot)是最为常用的多维可视化方法。二维散点图将多个维度中的两个维度属性值集合映射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值。例如,可通过不同形状、颜色、尺寸等来代表连续或离散的属性值,如图 8 所示。图 8 2D 散点图 图 9 左,VaR 将各维度属性列集合通过投影函数映射到一个方块形图形标记中
44、,并根据维度之间的关联度对各个小方块进行布局。基于投影的多维可视化方法一方面反映了维度属性值的分布规律,同时也直观展示了多维度之间的语义关系。图 9 右展示的是平行坐标(parallel coordinates),它是研究应用中最为广泛的一种多维可视化技术,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息。图 9 基于投影的多维可视化与平行坐标多维可视化 13 图 10,研究者将平行坐标与散点图等其他可视化技术进行集成,提出了平行坐标散点图 PCP(Parallel Coordinate Plots)。散点图和柱状图被同时集成在平行坐标中,以便于从多个角度同时使用多种可视化
45、技术进行分析。图 10 集成了散点图和柱状图的平行坐标工具 FlinaPlots(2)图形数据可视化(图形数据可视化(Graphical Data Visualization)图形是由元素和元素之间的连接组成的数据的抽象表现。社会交往、地图轨迹和电子通讯都可以被建模为图形。根据 Landesberger 等人的观点,图形基于时间依赖性可分为静态和动态两类。静态图形可视化 静态图形可视化主要基于节点链接的图形可视化技术和其他可替代技术,如矩阵可视化。几个世纪以来,节点链接一直是最常被用于图的可视化的表示形式。研究人员被它们的直观性和强大的功效所吸引,并已经利用这种表示形式引入了各种技术。然而,近
46、期的可视化工作表明,研究人员已经逐渐将注意力从寻找新的布局算法转移到研究各种现实世界应用中的可用性。例如,Burch 等人进行了一项用户研究,是关于比较节点链接图与空间填充表示的可读性。他们发现填充空间的结果更节省空间,但会更难以解释。正交树状布局在部分完成工作上要明显优于放射树状布局。Yuan 等人认为,好的布局不能简单地通过自动算法实现,而是需要通过用户亲自输入。因此,他们提出了一个框架,可以自动接合和维护多个用户提交的单个子图的布局。另一个热门的话题关于通过减少混乱,提高可用性。在众多减少视觉混乱的解决方案中,边缘捆绑仍然是最受欢迎的一种解决方案。最近,Selassie 等人提出了一种有
47、向图的捆绑技术。在他们的系统中,边缘捆绑到不同的组中,用以增强连通性和对称性的定向模式(图 11),这在以前的方法中并没有显示出来。同时,Ersoy 等人提出了基于骨架的边缘捆绑。他们计算了边缘分布的骨架,并用它来捆绑边缘。其他减少混乱的方法包括密度估计、节点聚合和细节级呈现。Zinsmaier 等人提出了一种新的方法,将这些技术结合起来,在生成布局的同时,获得了比其他方法更好的时间性能(图 12)。14 图 11 GitHub 欧洲用户分布示意图 图 12 细节级呈现 传统的矩阵表示法因为其边缘的视觉编码不重叠,适合于稠密图的可视化。然而,它对于稀疏图可能是无效的。最近 Dinkla 等人设
48、计了“压缩邻接矩阵”,目的是将稀疏图(如基因调控网络)可视化。在它们的表示中,每一个弱连接组件都被视为一个单独的网络,并放在一起以生成一个整洁、紧凑的可视化(图 13)。图 13 压缩的邻接矩阵 动态图形可视化 动态图形可视化在不断的发展。动画可以有效的保持一个意境地图(Mental map),用自然的方式来说明随时间变化事物发生的改变。通过动画技术对动态图形进行可视化已经有无数次的尝试。然而,Archambault 等人的研究表明,维持一个意境地图并不能帮助我们深入了解动画动态图。因此,最近的方法更多地关注在如何用静态的方式呈现动态图。以静态方式编码时间维度,时间轴和组图(Small mul
49、tiples)是两种较常见的选择。一种基于时间轴的方法,是将时间编码作为一个坐标轴,然后在时间轴上的每个时间点绘制并排的图形。因此,图形的表示方法变成将 2D 节点链接图的图形从视觉上压缩到一维 15 的空间中,但这不仅大大降低了可读性,同时一定程度上造成了视觉上的混乱。为了解决这个问题,Burch 等人为可伸缩的动态图形可视化开发了平行边缘抛雪球算法。在他们的系统中,图形的时间变化被编码成由边缘分布合成为纹理。Tanahashi 和 Ma 使用通用算法生成一个清晰且美观的故事情节可视化,如图 14 所示。但是他们的方法无法实现实时的人机交互。为了解决这个问题,StoryFlow 被开发出来去
50、创造更优的故事情节分布,同时也解决了人机实时交互的问题。图 14 电影故事情节的可视化 有研究人员提出了基于组图的可视化,通过人机交互,让用户可以选择多个聚焦区域,并为选好的数据选择合适的布局。大型的动态图形是极度复杂的,使用单一的可视化技术并不足够。基于这种方法,用户可以在不同的可视化之间自由切换,以适应分析的焦点或感兴趣区域的特征。因此,信息可视化可以分为时空数据可视化和文本数据可视化。时空数据可视化(时空数据可视化(Spatio-temporal Data Visualization)时空数据可视化,是指带有地理位置与时间标签的数据。时间与空间是描述事物的必要因素,因此,地理信息数据和事