《企业用户情报需求挖掘及资源关联可视化展示研究.docx》由会员分享,可在线阅读,更多相关《企业用户情报需求挖掘及资源关联可视化展示研究.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、企业用户情报需求挖掘及资源关联可视化展示研究企业用户情报需求挖掘及资源关联可视化展示研究 专题 前言:在竞争环境下,信息资源已经成为企业的重要战略资源。企业的生存与发展越来越离不开技术、市场、政策等领域情报的高效获取与利用。良好的情报服务,可以帮助企业更快地适应环境变化,应对挑战,提高竞争优势,创造发展机遇。 中国南方电网有限责任公司是我国电力领域的重要国有骨干企业,连续多年入围世界500强企业名单,供电面积100万平方公里,供电总人口2.3亿人。它承担重要的社会责任,是情报工作应重点服务的公共企业。情报保障工作对公司的决策、管理、研发等均具有重要的战略意义与长远效益。 南方电网公司成立专门的
2、情报机构负责相关工作。为了能够使情报工作更加高效、深度、精确地反映公司各层面、各类型的用户需求,南方电网公司与武汉大学合作,共同开展了“南方电网公司情报需求智能表达、预测及高级应用功能”研究项目。本项目目的是将信息资源增值利用理论应用于实践,开发情报系统,服务企业业务,同时探索情报研究与业务流程的结合问题。 为了能够建立情报资源供给和需求的精确匹配,实现情报服务内容的深度挖掘和个性化推送,提高信息资源共享效率,我们对用户情报搜寻与利用行为规律进行了探索。课题组参考国内外研究成果,结合南方电网公司的实际情况,进行了问卷、访谈、观察等方式的调研。 本专题刊发的论文就是此次研究的部分成果。论文在数据
3、支撑基础上,分析了大型国有电网企业用户的情报采纳行为特征、情报需求情景偏好、情报获取及时性关注度、情报共享动力等重要内容,探讨了企业用户情报需求挖掘和资源关联可视化展示的相关问题。相关结论对不同类型的企业有一定的借鉴和参考价值。 此次研究工作的开展是高校与企业间合作,以现实情报需求为牵引,融情报与业务流程,以解决实际问题为导向,协同创新的尝试。希望能够得到各界专家的指导指正。 陈传夫 摘 要:文章旨在识别和挖掘用户的显性及潜在情报需求,并通过形象化、可视化手段加以展示,实现情报用户需求的高效管理。模型基于用户相关历史文档、用户操作日志等文档,采用统计分析方法和日志分析技术,提取用户的情报行为数
4、据,挖掘用户的情报需求,并基于计算机图形学和图像处理相关技术,利用prefuse-flare数据可视化技术创建FLASH文件,实现用户需求分布展示、需求演化分析及兴趣图谱呈现,对系统情报资源和网络资源进行多维度、任意属性的关联可视化展示。 关键词:情报需求挖掘 数据可视化表达 需求分布与演化 兴趣图谱 prefuse-flare 中图分类号: G250.0 文献标识码: A 文章编号: 1003-6938(20XX)03-0027-06 Study about the Mining of the Information Needs of Enterprise Users and the Vis
5、ualization of the Relationship of Information Resources Abstract This study is aiming at identifying and excavating the potential information needs so as to visualize and manage the information needs effectively. The model is based on user-related historical documents, user logs and other documents.
6、 Statistical analysis and log analysis techniques are used to extract users information behavior data and tap users information needs based on computer graphics and image processing technology. Prefuse-flare data visualization technology has been used to create FLASH files, and as a result the user
7、needs have been obtained to achieve distribution display, and the needs and interests of maps showing the evolution of the intelligence system and network resources for multi-dimension have also been analyzed. Keywords information need mining; data visualization; demand distribution and evolution; i
8、nterest map; prefuse-flare 1 引言 需求挖掘是指以满足人们的消费需求为目的的基本活动。用户需求挖掘指从用户的行为、习惯、特点等海量信息背后自动搜索隐藏于其中的对用户有着特殊关系、使用户感兴趣的需求的过程。需求挖掘主要通过统计、在线分析处理、机器学习和模式识别等诸多方法来实现。通过挖掘用户的需求,可以帮助用户更好的了解自己,分析自己未来的需求,为用户做必要的辅助决策工作;同时可以有针对性的为用户推荐信息,刺激用户对信息的消费水平,进而实现拉动信息消费增长的目的。可视化作为一种计算和处理方法,它将抽象的符号表示成具体的几何关系,使研究者能亲眼看见他们所模拟的计算结果,使
9、用户看见原本不能看见的东西。可视化技术应用在情报分析中,可以弥补传统方法的一些缺陷,对信息从一个全新的角度进行观察分析,发现以往的方法所不能发现的隐藏情报,并对其进行分析解释,得出有价值的结论和对决策有用的情报,从而大大提高情报分析的效率和效果。 本文依托于武汉大学与南方电网科学研究院合作的“南方电网情报需求智能表达预测及高级应用”项目,以清华同方KBase全文数据库等为数据来源,首先利用用户的个人信息、用户关系、需求定制单、用户行为日志等基础数据,利用统计学分析方法,从需求分布、需求演化和兴趣图谱三个角度对用户的需求进行挖掘;然后采用prefuse-flare技术,从时间、领域和地域三个维度
10、对挖掘结果进行资源关联展示(见图1)。 2 理论基础 需求挖掘是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的数据集中发现隐含的、规律性的、需求性的信息1。需求挖掘在计算机领域中属于数据挖掘的一部分。数据挖掘的方法有很多,在情报学中使用较多的主要有决策树方法、聚类方法、统计分析方法、遗传算法、可视化技术等方法,每一种方法都有其各自的特点和适用领域2。 可视化的发展经历了3个阶段:科学计算可视化、信息可视化和知识可视化。“可视化”这一术语的第一次提出是在1987年的美国国家科学基金举办的可视化会议上,从此以后可视化作为一个新的研究领域出现在人们的视野中。可视化的目
11、的是通过视觉的方法提供一种新的科学洞察分析方法,从而弥补现有科学分析方法的缺陷3。随着对可视化研究的深入,可视化的研究范围一步步扩大,1989年,Robertson在用于交互性用户界面的认知协处理器4中首次提出了“信息可视化”概念。信息可视化是一门研究人、计算机表示的信息以及它们相互影响的技术,虽然最初提出是为了解决3D动画问题,但如今它的研究范围已远远超出了这个领域。在科学计算可视化和信息可视化发展的基础上,知识可视化应运而生,它主要应用于视觉表征手段,促进群体知识的传播和创新5-8。 3 需求挖掘模型 需求挖掘模型依据用户属性与行为特征库、情报需求库、情报资源体系库的全分类多维护关系网的建
12、立,在深层次勾勒各类情报以及情报需求之间的关联性上,可实现用户各种维度(时间、领域、地域等)的需求可视化表达,在可视化展示上采用图形学和图像处理相关技术,实现对用户情报需求的交互性展示,实现可视化需求分布分析、需求演化分析、兴趣图谱分析。该模型主要采用数据挖掘常用的统计分析方法进行需求挖掘。统计分析是通过对总体样本数据进行分析,从而找出他们之间的关系和规律。通过对数据的统计分析,可以挖掘出潜在的关联规则和模式,进而提取出用户的需求。 3.1 情报需求分布模型 情报需求分布用于识别获取用户的显性情报需求,从用户属性及情报定制单出发,如定制的领域、关键词、关注的学者、机构等,识别用户的显性情报需求
13、(统计分析算法流程见图2)。 用户按时间、领域、地域三个条件在需求定制表中查询需求定制记录,对返回结果进行统计分析。对每条记录,从领域和地域两个方面对其归类,统计用户所选的每个领域、地域在设置时间段内的情报操作次数,并以此作为情报需求量。最后按照VO对象格式(包括领域id,地域id,情报需求量三个地段),生成两个VO对象列表,作为前台可视化展示的输入数据。 3.2 情报需求演化模型 基于对系统易用性的考察,本功能在用户非显性参与需求设定的情况下,通过对用户关系图谱、操作日志(包括用户的浏览、下载和收藏等行为)、相关系统历史数据的分析,利用统计分析方法和日志分析技术,深入挖掘情报用户的情报需求关
14、联规则,实现用户潜在情报需求的挖掘(用户情报需求演化算法流程见图3)。 根据用户设置的时间、领域和地域条件,利用数据库查询语言HQL,对用户操作日志进行查询分析,获得符合条件的用户日志记录。利用统计方法,对这些日志记录按时间(年月维度)、领域和地域三个维度进行归类。最后,按照既定的需求演化记录VO对象格式(领域id,地域id,年月份,情报需求量),生成前台所需的VO对象列表,作为前台的输入数据。 3.3 个人兴趣图谱模型 基于用户的收藏行为及专家、机构间的合作关系,挖掘当前用户感兴趣的专家和机构,并采用统计分析学的方法统计各专家、机构之间的合作关系,构建用户兴趣图谱、专家合作关系拓扑图和机构合
15、作关系关联图(个人兴趣图谱算法流程见图4)。 根据用户设置时间段,查询用户收藏表,根据收藏有效与否标志及用户收藏、取消的次数,判断哪些专家、机构属于用户在该时间段内的有效收藏,获得用户兴趣图谱第一层关联节点。根据专家或机构的合作发文量来衡量他们之间的合作关系,建立专家或机构合作关系关联节点,构建兴趣图谱第二层拓扑图。 4 资源关联可视化表达工具 可视化技术是现代情报应用的核心技术之一,应用可视化技术,可以形象化的描述事物的复杂特征,合理的可视化技术应用可以在一定程度上揭示复杂现象背后所蕴含的规律。 本文资源关联可视化主要采用Prefuse-Flare技术,一个开源的基于ActionScript
16、语言的数据可视化组件9。从基本的图表到复杂的交互式图形,这个工具包提供包括数据管理、可视化编码、动画和交互技术等一系列支持。Flare前身是有名的Prefuse,一个用于交互式数据可视化的Java类库。Flare与Prefuse不同点在于Flare是基于ActionScript面向对象编程语言,它是一个ActionScript类库,运行于Adobe Flash Player之上。 用flare技术进行数据可视化展示的过程如下: (1)建立Flash开发环境。Flash开发环境有两种方式来实现,一种是使用Adobe公司的Flex Builder,这是一个完整的AS/FLEX开发环境,也是最方便的建立flash开发环境的方式;另一种方式是下载FLEX SDK,只安装基本的AS/FLEX编译器mxmlc和compc。本文采用第一种方式构建开发环境。 5