《大数据的竞争情报系统的研究.docx》由会员分享,可在线阅读,更多相关《大数据的竞争情报系统的研究.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据的竞争情报系统的研究(广东工业大学学报)2014年第二期系统总体设计系统目的利用平台对大数据的处理能力,对系统采集的信息用基于的算法进行处理分析,使得处理后的竞争情报信息能够快速、准确地显示在用户操作界面,让用户能够及时了解到本人所关注的信息管理员通过系统,能够及时进行信息的采集,并对信息进行处理,普通用户通过系统能够个性化的订制竞争对手的信息情报,并进行检索系统总体架构系统总体架构如图所示应用层在顶层提供统一信息门户,为客户提供各种信息和知识服务的窗口,同时也是平台管理的入口支撑层提供文本挖掘和智能分析,以及基于并行计算等功能模块,支持对海量数据的检索、挖掘、分析和服务等功能数据层数据
2、层会聚行业资源信息,构成统一规划的数据库,便于应用服务采集层建立各种数据源相应的数据适配器,实现对各种数据源的数据在线检测和自动采集数据源数据源是平台建设的重要外部资源,是平台体系架构的一个虚拟层次,包括大量的行业信息源、用户录入企业信息等数据;身份认证和安全体系。平台安全系统设计除了包含计算机网络、主机、应用系统等进行安全规划之外,系统运行的安全设计也是安全规划的重要内容之一运行维护保障体系运行维护保障机制包含统一性和标准性、公众服务性、专业性、权威性因而,运行维护机制要把握个要素:要保持“库的内容最新的现势程度;要适应社会对“库多样化的服务要求;要提供简便、规范、畅通的基础数据输入输出手段
3、系统功能设计主要运用文本挖掘技术,将文本挖掘算法在上实现并行化,提高信息的分析处理效率,以期能够迅速地提供市场行情信息的综合分析结果系统主要功能模块如图所示系统实现关键技术信息采集爬虫技术本系统采用的是聚焦爬虫,与通用爬虫区别为不追求大范围的覆盖,而是将目的设定为抓取与某一特定主题内容相关的网页,进而为面向主题的用户准备数据;通用的爬虫是从一个或者多个初始的开场进行爬取,在获得初始抓取网页内容的经过中,不断从当前的网页中抽取新的并放入队列,直到知足系统设定的爬取深度条件后停止聚焦爬虫的工作相比拟为复杂,需要根据一定的网页分析算法过滤去除与主题无关的,存储有用的并将之放入等待队列中,然后根据搜索
4、条件从中选取下一步要爬获得,重复直到知足停止条件为止同时,所有被爬虫爬取过的网页将会被存储起来,然后通过分析、过滤并建立索引,以便后续的查询和检索这个经过所得到的分析结果还能够对之后的抓取经过给出指导反应聚焦爬虫工作流程如图所示分类算法近期邻算法是形式识别中广泛使用的分类方法,是形式识别非参数法中最重要的方法之一近邻算法是近期邻算法的一个推广,当时,就是近期邻算法强调近期点的重要性,而是从总体考虑,是一种更普遍的方法的分类思想是给定一个未知文本,在训练数据中找出与其最类似的个训练文本,即是这个未知样本的个近邻然后根据这个近邻来确定未知样本所属的类别,能够把未知样本分到个近邻最公共的类中,可以以
5、分到个近邻中权重最大的类中近邻算法的简单示意图如图所示。分类算法的并行化方法算法尽管原理比拟简单,但是其计算量很大,对其空间和时间要求都比拟高,所以提出将算法运用到上进行并行化计算,以提高运行效率。技术最开场是被用于大数据并行处理,基本思想是将大数据集分割成无数的小数据集,然后每个数据集分别有集群中的一个函数执行计算任务,生成中间结果,进而作为函数的输入执行计算任务,得到结果的编程模型如图所示文档特征空间和类似度计算本系统采用向量空间模型来描绘所收集的情报信息文档,每个舆情文档都能够表示成一个特征向量其中为特征项,即为特征词,为在中的权值,特征权值计算公式采用算法,如式所示:中表示一个特征词与
6、某个文档的相关性,表示一个特征词表示文档主题的权重大小为特征词在文档出现的次数,为文档所有特征词数为训练集的文档总数,为出现特征词的文档数计算出后,对于海量数据,其包含的特征词数目比拟多,所以必须进行降维,通过对计算出的值排序然后设定阀值,选取若干个特征词,同时,利用平台的进行架构进而实现对的并行计算,进而有效地提高运行效率,但是在平台中,数据经过函数处理后默认是根据值升序排序的,因而能够根据值得方法获得升序排列的前若干位数值即根据降序排序的相应若干较大值当计算两个网页的类似度时,需要计算两个文档间的类似度本文采用的是余弦类似度,如式所示:通过对和两篇文档的特征向量进行计算,能够得到文档间的类
7、似度类似度越大,讲明两篇文本相关程度越高,反之,相关程度越低类似度在,之间取值,当两篇文本无关时,类似度为,类似性越高,则类似度趋向于分布式计算算法根据不同文档之间计算的余弦类似度进而通过选取适当的值,能够求出近期邻的个文档由于任意两篇文档间的类似度计算和排序都互不相关,所以能够并行进行求任一类中的文本在不是本人本身类别中的个近期邻的文档所有的节点读取余弦类似度结果,并根据每个文本的类别,选出与本身类别不同的文本类似度并进行格式转换,结果输出为,:其中表示文本间的类似度,表示测试文本分到的类别输出结果中的值是一个自定义的数组形式,框架中经过和经过之间根据值进行排序,即根据排序,但由于需将同一个
8、相关的分配到同一个节点,所以要将一样的值进行降序排列经过两次排序后,的输出作为的输入,即,:,根据排序的结果,选择每个文档的前个近期邻文档,进而将测试文档归入到类中运行结果本系统没有针对某一特定行业,实验主要通过网上爬虫采集网页内容来进行,如计算机类、体育类等对于某一详细行业只要将相关的分类信息做修改配置即可用户界面用户界面分为管理员界面和企业用户界面,管理员界面比普通企业用户界面多一个后台管理模块企业用户主要的操作功能是查询结果、对竞争情报的信息录入以及用户信息的相关操作等,而管理员则除了具备企业用户的功能外,还能够对信息处理,如定期爬取用户订制的情报内容,对爬去内容进行预处理并做分类处理,
9、同时将结果保存起来以备用户查询查看初步结果通过用户操作模块能够查看用户所关注的竞争对手的情况,可以以查看系统自整理的信息当用户选择本人关注的选项时,能够查看整理归纳后的信息,了解自定义的信息中选择查看系统自整理信息时,企业用户能够看到除了自定义的领域外,系统其他用户所共同关注的信息,了解多点信息,拓宽本人的领域查看具体的内容企业用户点击经过分类后的信息,能够查看信息的详细内容,内容显示在弹出框中如需查看信息的网页的初始内容,点击信息的能够跳转到信息的原页面同时可以以看到该信息被归纳后的类别分析可视化界面通过对情报信息的一系列操作后,根据结果生成关于某一详细类别的技术网络图,通过技术网络图能够帮助企业了解信息间的关联,进而更好地作出决策,网络图如图所示。结束语对大数据的处理不仅仅对企业竞争决策起到重要作用,可以以提高企业的竞争力而竞争情报系统更能为企业在大数据环境下提供有效的决策和有价值的信息本文提出将基于的算法用于企业竞争情报系统中,进而能够缓解对于竞争情报的传统处理方式带来的弊端,降低系统运行的时间和空间复杂度,进而使本系统愈加有效地适应当今大数据环境