《配电网设备状态的文本化数据可视化.docx》由会员分享,可在线阅读,更多相关《配电网设备状态的文本化数据可视化.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、配电网设备状态的文本化数据可视化摘要:针对配电网规模的日益扩大,带来了越来越多的配电网设备状态数据,用户从海量的数据信息中洞察到配电网的整体情况存在困难的问题,提出了配电网设备状态的文本化数据可视化系统的设计方案。介绍了标签云的可视化方法,并从提取关键词、计算单词尺寸、布局算法和分析布局算法效果等层面提出了基于词频统计的文本化数据可视化方案,展示了文本化数据可视化的结果图景。关键词:配电网;设备状态;文本化数据可视化系统随着经济建设的进程逐步加快,人们对电能的需求不断攀升,电网规模日益扩大,配电网设备在运行时产生的状态数据信息越来越多。众所周知,实时监控与分析配电网设备状态数据,有利于避免配电
2、网设备发生故障,最大程度地减少配电网设备的损失。但是,用户要想在海量的数据信息中洞察到配电网的整体情况存在着宏大的难度。为了帮助用户更好地理解和分析配电网设备状态的数据信息,建立一个能直观呈现数据信息的可视化系统势在必行。可视化系统基于人的视觉敏感度,能将抽象数据转化成直观的图形或图像,具有交互性特点的技术。该技术假如应用于配电网设备状态文本化数据中,将能加强用户对配电网设备状态的形象化认知,提高用户提取、分析、处理数据的速度。本文将针对配电网设备状态数据进行可视化讨论,并提出配电网设备状态的文本化数据可视化系统设计方案。重点介绍标签云的可视化方法,并从提取关键词、计算单词尺寸、布局算法和分析
3、布局算法效果等层面提出基于词频统计的文本化数据可视化方案,展示文本化数据可视化的结果图景。文本化数据可视化由于人工处理文本信息的速度较慢,因而需借助文本分析技术以提高信息处理的效率。目前,可挖掘并提取文本信息的技术存在不少,然而这些文本分析技术在帮助人们分析数据方面仍存在一定的缺陷。文本化数据可视化技术是一种基于人的图像敏感度,以视觉符号的形式呈现大量文本中的文字或数据,进而帮助人们迅速把握关键信息的技术。在文本化数据可视化的研究领域,主要包括的类别为基于文本内容、文本关系和多层信息的文本化数据可视化。基于文本内容的文本化数据可视化可分为基于词频的可视化和基于词汇分布的可视化。基于文本内容的文
4、本化数据可视化能处理单个特定的文本和文档集合等对象,主要目的是帮助用户迅速把握文本的整体内容和重点信息,同时指导用户对文本信息进一步理解。基于文本关系的文本化数据可视化的主要研究对象包括文本内部或文本与外部之间的关系,如文本内部的语义构造、主题的类似性、文本与外部的引用等。基于文本关系的文本化数据可视化一般使用树状图或网络图展示文本或数据。基于多层信息的文本化数据可视化侧重于结合信息的多个层面,研究用户从更多层面和更深层次理解文本数据的方法。如一则新闻的热门将根据时间的推移发生变化。其中文本数据的其它层面指的便是新闻的热度和时间因素。标签云的可视化方法当配电网设备故障时,往往通过文字语言的方式
5、记录配电网设备和线路中的问题。而以文字而并非构造化的数据来描绘,将降低人工处理信息的速度和效率,同时导致数据处理的出错率升高,难以确保信息的准确度。为了解决该难题,配电网设备状态文本化数据可视化设计将运用基于词频统计的可视化手段显示文本数据,同时采用标签云的文本可视化方法。下面将阐述标签云的实现经过。第一步,预处理阶段。在提取完相关文本信息后,应寻找出文本中表示特征的重点信息,并用于可视化的数据展示。同时,需提取出对文档主要内容具有代表性的关键词和关键词的权重值,进而勾画出文本信息的大致轮廓,帮助用户从整体上了解文本信息的主要内容。第二步,可视化的设计和展示阶段。该阶段的主要工作是根据从文本中
6、提炼出的特征信息,有针对性地设计可视化的整体布局。针对标签云的方法,单词的大小、位置和颜色等信息应重点关注。这些关键信息的考量有利于从细节上完善文本或数据的可视化设计和展示,实现重点突出、主题鲜明的目的。第三步,数据信息的呈现阶段。在该阶段,文本和数据信息将呈现给用户,同时通过交互的形式积极采纳用户对文本或数据信息的反应,使信息得到进一步完善和补充,最大化地知足用户对文本信息理解和分析的需要。基于词频统计的文本化数据可视化设计方案以上主要阐述了文本化数据可视化的基本概念和主要类型,并对标签云可视化方法的实现途径进行了重点讲明。下面将针对配电网的设备状态,从提取关键词、计算单词尺寸、布局算法、分
7、析布局算法效果等层面提出基于词频统计的文本化数据可视化设计方案。提取关键词在一篇文档中,关键词是指能代表文档基本内容和主要思想的词语。一般而言,衡量文档词语重要性的方法是权重法,如布尔权重法、熵函数和权重法。本文将采用权重法提取关键词,该方法具有算法简便、准确度和召回率高等优势。其基本思路是文档中占据权重较高的单词出现的次数相对较多,即频率较高,而该单词出现的次数和范围在别的文档中则相对较少,即文档占总文档的比例的倒数的对数较低。和分别为:,式中,为调节因子;为单词在文档中出现的总次数;为全部单词在文档中出现频率的最大值;为文档的总数目;为包括单词的文档数量。其中,的值越小,单词出现的文档数目
8、越多。将和结合起来对最终单词权重进行计算,有:在运用进行关键词提取的经过中,将配电网设备状态所有缺陷的描绘都整理成一个文档。计算单词尺寸作为视觉属性,单词的尺寸能凸显单词在文档中的重要程度。一般而言,在标签云的方法中,根据频度或权重依次递减的顺序对单词进行排序。通常单词的频度或权重越大,其尺寸就越大,这将放大权重较大的单词,凸显其重要性。一般地,网页在正文中往往选用或的字体,由于标签云最后需在屏幕上显示,因而字体的最大尺寸将设置为,最小设置为。在单词权重值的计算中,计算结果已得到归一化的处理,权重取值位于至的区间,那么通过权重值就能容易地计算出单词在屏幕上显示的尺寸。布局算法本文将使用方法实现
9、标签云,该方法能凸显权重大的单词,最大化地利用文档空间,实现良好的文档布局效果。在配电网设备状态的文本化数据可视化系统设计中,本文将运用单词摆放算法,根据权重值大小依次递减的顺序对单词进行排序,即首先将权重最大的关键性的单词摆放到离布局中心近期的位置,其次摆放剩下的关键性的单词。假如文档检测到摆放的单词与之前摆放的单词重复,那么将该单词调换到新的地方,再对重复的单词进行二次检测。循环以上步骤,假如全部的关键词都合理地放置在相应的位置且不存在重叠的现象,那么整个流程结束。在布局算法实现的经过中,值得注意的是重叠检测和对单词进行二次摆放的策略。重叠检测是影响布局算法效率的重要因素。通常来讲,提高重
10、叠检测算法速度的主要方法是层次包围盒,其主要工作理念是空间分解,在挑选出长方形、圆形等几何特性较简单的包围盒后,根据包围盒面积大小依次递减的顺序将包围盒进行分解,进而得到原来图形的几何属性。可通过建立树的数据构造来表示包围盒的层次关系,最后继续测试包围盒重叠处。在调整位置的策略方面,本文选择的是朝着方向从近到远地移动关键词的位置,直到找到不产生重叠的区域。该策略的优点在于最先摆放的单词将一直处于中心区域。详细而言,在调整位置的经过中,本文使用了在阿基米德螺线处移动的策略。阿基米德螺线是指假如点在射线中做匀速运动,以匀速的角速度绕着点旋转,那么点的运动轨迹就是阿基米德螺线。阿基米德螺线的主要特点
11、是每两条曲线相隔。基于此特点,在调整位置时可使寻找到的新位置在螺旋线上朝着距离中心较远的方向转移,以使处于布局中心处的单词严密相连。假如在直线上而不是在阿基米德螺线上移动,那么难以到达提高空间利用率的要求。分析布局算法效果布局算法效果的衡量需借助一定的评估参数,本文采用的可量化的评估参数分别是布局算法的实际运行时间、词语与界面中心之间的平均距离和可覆盖全部词语的最小矩形面积。可视化结果在配电网设备状态的文本化数据可视化系统中,最终应呈现一幅可视化的效果图景,即单词均匀集中在一个平面,平面整体简洁大方,单词之间互不重叠,关键词尺寸根据各自的权重程度而大小不同。基于人的视觉感悟,标签云的可视化方法
12、能生动形象地呈现出关键词权重大小的差异。该文本化数据可明晰、直观地展现出配电网的设备状态,有利于调度人员根据可视化的结果迅速判定出配电网设备存在的问题,进而及时做出调整,加强对设备的监控与管理。同时,用户交互是文本化数据可视化系统中必不可少的一部分。详细地讲,用户交互是指用户通过高亮、缩放等操作接触系统实现文本和数据信息的传播,促进用户对数据的理解与分析,及用户对信息的完善与补充。本文主要针对配电网设备状态数据进行了可视化的研究,提出了配电网设备状态的文本化数据可视化系统的设计方案。首先介绍了文本可视化的相关概念和基本特点,其次介绍了标签云的可视化方法的实现途径,并从提取关键词、计算单词尺寸、布局算法和分析布局算法效果等层面提出了基于词频统计的文本化数据可视化方案,最后展示了文本化数据可视化的结果图景。