《文本倾向性分析在舆情监控系统中的应用研究.pdf》由会员分享,可在线阅读,更多相关《文本倾向性分析在舆情监控系统中的应用研究.pdf(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究姓名:张超申请学位级别:硕士专业:计算机科学与技术指导教师:刘辰20080228北京邮电大学硕士学位论文摘要文本倾向性分析在舆情监控系统中的应用研究摘要舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度【。随着网络的普及,网络舆情以“舆论多元 为最大特点f 4 l,网络舆情的信息丰度呈现“爆炸的态势,一是网络舆情信息的数量极为庞大,二是其类别繁多,三是背景信息复杂,尤其是突发事件和社会流行事件,常常会立即引发各种社会集团、政治势力的共同关注。在这种情况下,要
2、人工去甄别每个意见的具体情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料进行分析整理,才能够建立起全面、有效、快速的舆情监控预警机制。传统的网络舆情监控系统中,话题发现方法多采用聚类基础上考察相关评论规模的方法,往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性特性进行区分。近年来,虽然有学者对舆情的特性进行了深度分析的研究,给出了一些舆情关键点的定义,但是没有给出具体的数学模型,也没有提出可行的发现方案,发现方法多是手工采集整理。本文尝试将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中,对文本倾向性分析技术在舆情监控系统
3、中的应用进行了研究。本文首先对引入文本倾向性分析技术的舆情监控系统进行了整体设计,并详细设计了各主要模块;在建立词语倾向性词典的基础上,研究了多种网络评论倾向性分析方案的优缺点,分析比较了多种段落评论分析方案;最后在对主题文章进行聚类的基础上,根据参与评论的网民规模发现其中的热点话题,建立包含网民倾向性因素的极性话题、焦点话题、敏感话题发现模型,以提高舆情监控系统的实用价值。关键字:倾向性分析,舆情,极性话题,焦点话题,敏感话题北京邮电大学硕士学位论文R E S E A R C HO NT H EA P P L I C A T I O NO F T E X TO I U E N T p 汀I
4、O NA N A L Y S I SI NT H EP U B L I CO P I N I O NM O N I T O R I N GS Y S T E MA B S T R A C TP u b l i co p i n i o nm e a n st h ep o l i t i c a la t t i t u d e so fm a j o r i t yp e o p l et o w a r d st h es t a t em a n a g e r sa b o u tt h eo c c u r r e n c ea n dd e v e l o p m e n to f
5、s o m es o c i a li s s u e su n d e rs o m ek i n do fs o c i a lc i r c u m s t a n c e s W i t ht h ep o p u l a r i t yo ft h eI n t e r n e t,n e t w o r kp u b l i co p i n i o nt a k e”m u l t i m e d i a”a st h eb i g g e s tf e a t u r e,n e t w o r ki n f o r m a t i o na b u n d a n c eo
6、fp u b l i co p i n i o ns h o w e x p l o s i v e p o s t u r e F i r s t t h ea m o u n to fn e t w o r kp u b l i co p i n i o ni n f o r m a t i o ni sh u g e,a n dt h es e c o n di si t sn u m e r o u sc a t e g o r i e s;t h i r d,t h eb a c k g r o u n di n f o r m a t i o ni sc o m p l i c a
7、 t e,e s p e c i a l l ys u d d e ne v e n t sa n ds o c i a le p i d e m i ce v e n t s,o f t e nc a u s ec o m m o nc o n c e r no fv a r i o u ss o c i a lg r o u p sa n dp o l i t i c a lf o r c e si m m e d i a t e l y I ns u c hc i r c u m s t a n c e s,s p e c i f ya n dc l a s s i f ya l lt
8、h ev i e w sb yh a n di Su n r e a l i s t i c O n l yb yu s i n gc o m p u t e rt e c h n o l o g yt oc o l l e c ta n da n a l y s i sp u b l i co p i n i o nc o r p u sa u t o m a t i c a l l yc a ne s t a b l i s hac o m p r e h e n s i v e,e f f e c t i v ea n df a s tp u b l i co p i n i o nm
9、o n i t o r i n ge a r l y-w a r n i n gm e c h a n i s m I nt h et r a d i t i o n a lp u b l i co p i n i o nm o n i t o r i n gs y s t e m,t h et o p i cw a sd e t e c t e db yt e x tc l u s t e r i n gm e t h o d,d e s i g n e r so f t e nt a k el i t t l ec o n c e r na b o u te m o t i o n a l
10、f a c t o r so ft h ec o m m e n t,o f t e no n l yr e a c ht h el e v e lo fh o tt o p i cd i s c o v e r y I nr e c e n ty e a r s,a l t h o u g ht h e r ei ss o m es t u d yo nt h ec h a r a c t e r i s t i c so fp u b l i co p i n i o nc o n d u c t e di n d e p t ha n a l y s i s,a n dt h e yp
11、r e s e n t e dt h ed e f i n i t i o no fs o m ek e yp o i n t so fp u b l i co p i n i o n,b u tt h e yd i dn o tg i v eas p e c i f i cm a t h e m a t i c a lm o d e l,f o u n dn ov i a b l eo p t i o n sd i s c o v e r ym e t h o d sm o r et h a nm a n u a lm e t h o d s T h i sP a p e l a t t e
12、 m p t st oIb r i n gt h en a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g y,o r i e n t a t i o na n a l y s i so ft h et e x t i n t ot h ep u b l i co p i n i o nm o n i t o r i n gs y s t e m,s t u d i e do nt h ea p p l i c a t i o no ft h et e x to r i e n t a t i o na n
13、a l y s i st e c h n o l o g yi np u b l i co p i n i o nm o n i t o r i n gs y s t e m T h i sp a p e rf i r s ti n t r o d u c e dt h es y s t e md e s i g no fp u b l i co p i n i o nm o n i t o t i n gs y s t e mt h a tw i t ht e x to r i e n t a t i o na n a l y s i s一一t e c h n o l o g y,a n d
14、t h e ng a v et h ed e t a i l e dd e s i g no ft h em a i nm o d u l e s O nt h eb a s i so ft h ef o u n d a t i o no fw o r dp o l a r i t yd i c t i o n a r y,t h i sp a p e rs t u d i e dt h ef e a t h e r so fs e v e r a lc o m m e n to r i e n t a t i o na n a l y s i ss c h e m e s A tl a s
15、t,t h i sp a p e rd e t e c tt h eh o tt o p i cb yt h es c a l eo ft h ec o m m e n t so fn e t i z e n sp a r t i c i p a t e di nt h ec l u s t e r a n dp r e s e n t e dt h ed e t e c tm o d e lo fp o l a rt o p i c,f o c u st o p i c,s e n s i t i v et o p i ct oe n h a n c et h ep r a c t i c
16、a lv a l u eo ft h ep u b l i co p i n i o nm o n i t o r i n gs y s t e m K E YW O R D S:o r i e n t a t i o na n a l y s i s,p u b l i co p i n i o n,p o l a rt o p i c,f o c u st o p i c,s e n s i t i v et o p i cI V独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其
17、他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论本人签名:处,本人承担一切相关责任。日期:丝握主!蕴关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规
18、定)保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论姓黧文雅秽胡,本人签名:至竺篁兰导师签名:二丛孕L适用本授权书。日期:日期:沙而弓掰北京邮电大学硕上学位论文文本倾向性分析在舆情监控系统中的应用研究1 1 课题背景第一章绪论当前,我国正处在新的历史转型期,社会充满了生机,但同时也存在许多矛盾。这些矛盾开始时是自发的、零散的和轻微的,这时如果不及时发现和解决,就有可能升华成为自觉的、有组织的、严重的群体性对抗,甚至是大范围的、激烈的冲突。如何避免这样的问题发生已经成为我国能否顺利转型的关键。舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体
19、的国家管理者产生和持有的社会政治态度l l J。舆情机制是隐含了民众的“三位一体 的主体地位的决策机制H:建立有效的社会问题预警机制,首先要能够收集分析反映社会生活的舆情信息。基本要求是要做到“快、准、深、精,新、全 I j J。其中网络舆情信息是非常重要的一块。网络彻底打破了地域的界限,模糊身份的特征,使得广大弱势群体能够充分揭露出社会底层的深刻现状;而且网络还具有实时性强、交互性好的特点,因此,对网络舆情的分析和整理对于构建有效的社会问题预警机制具有很大的作用。随着网络的普及,网络舆情以“舆论多元一为最大特点1 4 J,网络舆情的信息丰度呈现“爆炸的态势,一是网络舆情信息的数量极为庞大,二
20、是其类别繁多,三是背景信息复杂,尤其是突发事件和社会流行,常常会立即引发各种社会集团、政治势力的共同关注。在这种情况下,要人工去甄别每个意见的具体情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料进行分析整理,才能够建立起全面、有效、快速的社会问题预警机制。近年来,一些学者和研究机构已经进行了一些重要的舆情分析方面的研究,取得了一定的研究成果。同时也存在一些不足,主要表现在:其一,将数理统计软件化来代替舆情分析判据科学性纠;其二,将经典概率理论简单图示化来代替舆情分析判据复杂性纠;其三,将热点重点层面的分析代替舆情分析的深层性。如虽强调主题检测和追踪T D T(T o p i
21、 ed e t e c t i o na n dt r a c k i n g)技术【o J,试图自动发现并追踪社会热点和焦点内容及舆情,但分析模式仅仅停留在热点发现方面,难以深化。究其原因,根本在于忽视互联网内容及舆情本身的性质和特点,忽视内容及舆情内在的深层结构和关系,忽视内容及舆情演化的规律和条件【7 1。虽然有一些学者对舆情的内在特性进行了研究,并对热点、焦点、敏点等【7】舆情问题给出了定义,但是给出的数学模型过于简化,而且对文本倾向性的考虑不足。对舆情的大多数特点的研究还仅仅是在分析模式方面,没有可行的数学模型和关键点提取方案。1 2 舆情相关理论研究现状舆情分析涉及到的技术非常多,
22、而核心是自然语言理解技术。自然语言理解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响应p J。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关键p J。从自然语言理解的角度来讲,处理文本需要进行三步工作:理解所出现的每个词;从词义构造表示语句意义的结构;从句子语义结构表示言语的结构。在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题例。国外关于自然语言理解方面的研究起步较早,一些卓有成就的语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影响的理论有:转换
23、生成语法、依存语法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理论、概念依存理论、境况语义学、语料库语言学等。另外还有许多计算语言学家或学者在总结前人的经验与成果的基础上又提出了不少新方法、新理论和新思路,这为计算语言学的不断发展作出了贡献【剐。相比之下,国内在自然语言理解方面较为系统的研究成果则为数不多。因为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使
24、得汉语自然语言理解研究工作困难重重1 6 J。令人欣慰的是,近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现2北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究了不少拓荒之作,取得了骄人的成果【8 1。近年来,我国在汉语自然语言理解方面的成绩主要有:(1)机器翻译:以冯志伟教授等为代表的计算语言学学者早期在机器翻译研究方面做了大量的工作,并总结出不少珍贵的经验和方法,为后来的计算语言学研究奠定了基础【1 0
25、1。从发展趋势看,规则和统计相结合的方法应该是机器翻译技术的一个发展趋势【1 1 1。(2)语料库研究:清华大学的黄昌宁教授领导的计算语言学研究实验室,主要从事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动生成句法规则、自动统计字、词、短语名子的使用及关联频率方面做了大量的工作并发表了不少极具参考价值的论文嗍。(3)语篇理解研究:东北工学院的姚天顺教授和哈尔宾工业大学的王开铸教授等在计算语言学的语篇理解方面(特别在结合语义方面)的研究进行了有价值的尝试并取得了一定的成绩咧。(4)概念层次网络理论:中国科学院的黄曾阳先生提出了删C(H i e r a r c h i c a lN
26、 e t w o r ko fC o n c e p t)概念层次网络理论。它是一个以语义表达为基础的,融语义、语法、语用为一体的自然语言理解的理论体系 1 z j。这一理论的提出为自然语言理解研究开辟了一条崭新的思路,删C 理论研究现在已经发展为国内自然语言理解研究的重要流派。目前网络舆情分析已经成为众多国内外专家研究的一个热点和重点。目前已有一些实际的系统投入使用,见诸于报道的有:国内:方正智思舆情监测分析系统j J方正智恩舆情系统作为舆情的监测分析工具辅助舆情监控部门对舆论信息进行评估,分析规划舆情监控内容,形成舆情预警信息,同时根据舆情的监控级别规划新的监控内容,开始新的监控周期,形成
27、一个具有生命特征的周期往复的社情民意反馈系统。方正智思舆情系统提供了从舆情收集分析一服务相关辅助手段,主要包括智能网络页面获取、智能检索、自动摘要、关联分析、聚类分析、自动分类以及统计报表等功能模块。国外:英国科波拉软件公司的“感情色彩一软件1 1 4 J据新科学家杂志报道,该软件能判断报纸刊登的文章对一个政党的政3北京邮电人学硕上学位论文文本倾向性分析在舆情监控系统中的应用研究策是持肯定态度还是否定态度、或者网上评论文章是称赞还是贬低一种产品。这种软件能分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾语。该软件甚至能分析“它、“他 和“她”等代词,找出这些代词指代的是什么。由于理解
28、了语法结构,该软件可以剔除与文章的感情色彩无关的词语,在很短的时间内得出结论。该软件分析的速度非常快,比如普通人需要一小时才能浏览1 0 篇文章,而该软件一秒钟就够了。美国有一个研究项目被称为T D T(T o p i cD e t e c t i o na n dT r a c k i n g)1 1 5】【1 6 11 1 7 ,它的初衷是要研究出一些算法,能够发现和归纳来自于数据流中的重要的信息和内容。T D T 中的话题识别与跟踪的基本思想源于1 9 9 6 年,来自D A R P A、卡内基梅隆大学、D r a g o n 系统公司以及麻萨诸塞大学的研究者开始定义话题识别与跟踪研究的
29、内容,并开发用于解决问题的初步技术。这些初始研究的目的是要确定来自信息检索领域的基于主题的技术在多大程度上能够用来解决基于事件的信息组织问题。为保持统一的命名方式,这些初始研究及评测后来被命名为T D T1 9 9 7。T D T 项目正式开始于1 9 9 8 年,经过了若干年的演变,最新的版本是T D T 2 0 0 4。在这个项目中采用了一种开放式的评估方法,它提供了测试需要的文本集,并给出了测试的衡量标准:错误正确率恤l s ea n dm i s sr a t e),通过各所大学的研究小组竞争的方式来对项目进行不断的研究。总的来说,1 1)T 项目中主要涉及到了5 个研究内容:连续文本
30、的分割(针对广播新闻);T o p i c T r a c k i n g(主题跟踪);(查)T o p i cD e t e c t i o n(主题发现);(查)F i r s ts t o r y(e v e n t)D e t e c t i o n(新事件发现);L i n kD e t e c t i o n(相关发现)。1 3 论文主要内容针对“主题文章评论 形式的网络舆情语料,本文在研究现有倾向性确定方法及舆情监控系统理论的基础上,将文本倾向性分析技术引入网络舆情监控系统之中,对相关系统进行了研究和设计,并对关键的模块进行了详细设计和原型系统实现,在计算主题文章相似度的基础上对
31、主题文章进行了聚类,达到根据相关评论规模发现网络话题的目的。本文深入研究了文本倾向性分析技术在系统中的应用方案,在对评论文本进行倾向性分析的基础上,发掘极性话题、焦点话题、敏点话题等舆情分析关键点的特性,并给出了相应的数学模型。本文主要工作如下:4北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究1 对引入文本倾向性分析技术的网络舆情监控系统进行了系统地研究和设计,给出了主要模块的设计实现方案并实现了相应的原型系统。2 舆情语料获取方面,设计了解决方案,实现了对指定网络舆情语料的获取、整理、分词功能。3 文本在研究现有汉语句子倾向性分析方法的基础上,设计了多种快速确定网络评论文本
32、倾向性的方案,给出了对比分析的结果。4 舆情关键点发现方面,本文根据参与评论的网民规模发现网络中的热点话题;在分析评论倾向性的基础上,建立包含网民倾向性因素的极性话题、焦点话题、敏感话题发现模型,以提高舆情监控系统的实用价值。5 其他相关工作手工建立小规模网络奇异词语的修正词典,以及标注初始倾向性:通过对知刚1 8 1 词汇的标注极性和强度建立词语的初始倾向性词典,并手工补充部分词语;建立常见修饰副词和否定副词词典。1 4 论文的章节组织本文结构安排如下:第一章绪论部分。对舆情研究的背景做出了简要的说明,介绍了舆情分析的研究现状,并对本文的研究内容进行了概要说明。第二章舆情分析理论介绍。本章先
33、对网络舆情的含义进行了介绍,接着详细说明了网络舆情分析在整个舆情分析预警体系中的地位。之后介绍了一个典型的网络舆情监控系统的解决方案,并介绍了现有舆情分析各步骤的理论框架和实现方案。第三章网络舆情监控系统设计。本章首先给出了引入文本倾向性分析技术的网络舆情监控系统的整体结构,之后给出了其模块划分和数据处理流程分析,最后对各关键模块给出了设计和实现方案。第四章文本倾向性分析在系统中的应用。本章首先系统地研究比较了现有的汉语文本倾向性分析技术,之后给出了几个段落文本倾向性分析方案,并对其进行了比较分析,最后介绍了引入评论倾向性的舆情关键点发现模型。第五章总结与展望。对本文进行总结,并介绍了进一步的
34、研究方向。5北京邮电人学硕上学位论文文本倾向性分析在舆情监控系统中的应用研究第二章网络舆情理论2 1 网络舆情的含义与特点社会科学方面,我国学者对“舆情”这一概念目前还没有统一的认识,王来华对舆情的定义是:“舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度。p】舆情研究是新兴社会科学研究领域。党的十六届四中全会把建立和完善舆情信息汇集和分析机制写入中共中央关于加强党的执政能力建设的决定,标志着党在提升执政能力的过程中,对舆情研究重要性的进一步认识。目前,对国内的
35、舆情研究尚处于起步阶段,大多数研究成果属于应用性研究范畴,而对舆情理论的研究尚显不足。网络舆情是社会不同领域在网络上的不同表现,有政治舆情、法制舆情、道德舆情、消费舆情等刿。在当今社会条件下,处于深刻历史变革中的中国,开放空前扩大,现代传媒迅速发展,人们的交往日益密切,观念和价值冲突加剧,社会突发事件时有发生,加上自由、自主增大,社会每时每刻都在自觉不自觉地传播、制造舆情流量,并使之不断扩充,人人都生活在舆情的氛围中。网络舆情不仅形成迅速,而且对社会、对社会生活的各个方面产生了极大影响。2 0 0 4 年9 月举行的十六届四中全会指出,“要高度重视互联网等新型媒体对社会舆论的影响一。网络舆情不
36、仅仅需要政府的密切关注,也需要学界给予高度的重视。网络舆情通过多种媒介传播;新闻评论、博客留言和论坛等。网络舆情具有“滚雪球效应,它靠一批热心网友的上帖、跟帖、转帖来造就。周如俊l 叫等认为网络舆情的形成有三个方面的诱因:第一,社会矛盾。由社会矛盾产生各种社会问题诱发意见,意见在网络上的普遍化可视为网络舆情的形成。这种社会矛盾必须符合以下要求:(1)社会矛盾的解决受阻,陷入非常状态;(2)这种受阻最终表现为矛盾纠葛,呈现出“有形的难题;(3)这种“社会难题 引起6北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究网民的关切和议论;(4)社会矛盾获得解决,先使人民受益,网民发出赞扬
37、声,也会形成舆情。第二,个人意见的扩展。社会问题引起不同个体的反应程度和方向不同,但个体可以选择网络论坛或聊天室来发表见解,扩大见解,引起他人的注意。在不断有其他网民的跟帖、讨论、响应下,个人的意见就会扩展成意见的“聚议量。第三,偶发事件的激发。事件是舆情形成的激发点,直接引起议论向舆论的转变。任何一个具体事件的发生都表现为历史进程的必然性,而每个事件在什么时候发生,谁在事件中扮演什么角色又具有偶然性。作为事件旁观者的大多数网民,通过网络或其他渠道了解,引起广泛议论。特别是一些重大的社会事件,涉及到许多人的切身利益,直接关系到国家、民族、社会的命运,引起人们的思虑,激起网民的众说纷纭,便会形成
38、对事件的冲击波。2 2 网络舆情监控系统概述由于网上的信息量十分巨大,仪依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情监控系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。这样的系统应该具备以下功能L 卅:首先是舆情分析引擎。这是舆情监控系统的核心功能,包括:L 训1、热点话题、敏感话题的识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。2、倾向性分析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。3、主题跟踪,分析新发表文章、帖子
39、的话题是否与已有主题相同。4、自动摘要,对各类主题,各类倾向能够形成自动摘要。5、趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。6、突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。7、报警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警。8、统计报告,根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。其次是自动信息采集功甜训。现有的信息采集技术主要是通过网络页面之间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩
40、展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系7北京邮电大学硕七学位论文文奉倾向性分析在舆情监控系统中的应用研究统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合的方法完成信息收集任务【2 0 1。第三是数据清理功能弘u J。对收集到的信息进行预处理,如格式转换、数据清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛B B S,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作瞄o l。舆
41、情监控系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术l z o 。这些技术一向是国内外信息工作者关注的领域。文本检索会议(T R E C)、情报检索专业组会议(S I G I R)、文本检测与跟踪会议(T D T)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。近年来,专家学者一直在研究更加有效的方法,其中基于语义的内容识别方法是当前研究的重中之重,虽然也取得了较大进展,但仍存在很多问题和困难需要克服。为了增加我国
42、网络信息控制能力,我们必须迎难而上,加强相关技术的研究。2 3 网络舆情监控系统的体系结构从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖掘预测、结果展示三个阶段【2 1 1。如下图所示:8北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究醪_ 咐图2-1 舆情监控预警系统结构2 4 网络舆情语料采集一孕萄警一r j 飞蠹网络舆情语料采集可以分为以下几种途径:(1)基于网页抓取的采集基于网页抓取的采集是舆情语料采集的主要手段,采集的对象包括各种网络媒体的网页,如门户网站、论坛、博客等。内容采集又可分为基于文本的采集和基于多媒体信息的采集。基于文本的采集过程包括网络
43、抓取,F I T M L 内容解析、提取;多媒体的信息采集通常采用的方法为关联规则法和特征提取法。在采集之后采用数据抽取和转换的方法将非结构化的多媒体信息转化或映射为结构化的数据结构,然后再进行下一步的分析工作。这种方法的优点是采集的舆情语料比较全面,能够从整体上反映一个时期网民的舆情情况;缺点是采集周期比较漫长,网页过滤、内容抽取工作比较复杂。(2)搜索引擎方法通过对指定话题(关键词)进行自动化的搜索,根据搜索获得的结果(U R L信息、内容信息)进行下一步的网页抓取或者语料整理分析。这种方法的优点是能够快速有效的获取指定话题的舆情语料,过滤、提取方法简便;缺点是难以进行话题发现,需要用户指
44、定一组关键词,才能进行反复的自动搜索,抓取。9北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究2 5 热点发现理论热点网络舆情中的热点指的是:在某一段时间里,多次反复出现关于一个话题内容的新闻、讨论。这里的话题的表现形式多种多样,可以是网页中的新闻评论,可以是论坛留言板中的帖子和跟帖,也可以是博客中的文章和留言。总之,这里的热点在网络中是通过各种各样的文字性的描述所共同表达的一个相同的主题内容。网络舆情中的热点问题多数是网民对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种
45、渠道来表达观点,传播思想。热点发现热点发现为用户提供了指定时间和范围的话题和事件的热点发现功能,并且为用户提供热点事件的关键字、摘要,相关链接等信息。这里的时间限定表明了热点信息的时效性,而指定的搜索范围则表明了在处理热点发现问题的时候应该考虑对事件进行必要的分类和索引。目前较为有效的热点发现算法本质上来说是数据挖掘中的文本聚类算法。聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体之间的距离尽可能大哗J。聚类算法的执行结果与文本聚类算法本身的特性以及算法应用中的各种阈值的设置密切相关。文本聚类是文本挖掘中的一个重要内容,主
46、要应用于加速检索过程、对搜索引擎检索结果聚类呈现、话题的自动发现等方面。聚类分析的方法有很多,主要方法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和模型聚类等几种。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。一些聚类算法集成了多种聚类方法的思想,所以有时将某个聚类算法分类是很困难的。某些应用可能要求多个聚类技术。在网络舆情分析领域,聚类算法能有效的将内容相近或相似的主题聚合到一个簇,进而从大量舆情语料中发现热点话题。1 0北京邮电大学硕士学位论文文本倾向丝坌堑在舆情监控系统中的应用研究第三章网络舆情监控系统设计本文设计了一个网络舆情监控系统,原型系统基本实现了对“主题文章
47、评论 格式的舆情语料的倾向性分析、主题文章聚类,舆情关键点发现等功能。3。1相关工具介绍3 1 1 抓取工具一H e r i t r i X本文采用H e r i t r i x 和H t m l P a r s e r 作为获取舆情语料的辅助工具。H e r i t r i x 是一个由J a v a 开发的、开源的、互联网级的W e b 网络爬虫,用户可以使用它获取各种互联网上的资源,H e r i t r i x 是一款严格按照r o b o t s t x t 文件的排除指示和M E T Ar o b o t s 标签来抓取资源的软件K o J。它的主页是h t t p:c r a w
48、 l e r a r c h i v e o r g。H e r i t r i x 的强大之处在于它的可扩展性,开发者可以随心所欲地扩展H e r i t f i x 的各个组件,来实现自己的抓取目标。下图就是H e r i t r i x的运行之后的界面。qh t+p,1 2 70o18 r 3 0 0 i n d e xJx p址正夏毯:一t a n t sa s0 f 詈巡嵝=恶灿3、呐l e l t S 出:n o a l e r t sA,h l t mC o n s o l e0j o b s 丝她3 盟磐超幽4U R I si n7 s(00 s e c)(Ia w l e l
49、S t a 吣C I L W L I N(;J O B Sl H o l dJ o b sR l 峨b y r-j o b-b r o a d0w a d i n e 3c o m p l e t e d姐e I t sQ(Q n 亟J o bS t a t u s:R U N I、N Gj|Q 墼唑 T e r m m a t eR a t e sO0 U R I s,s c c f 00a v e=)0Y 强l s e c(0a v e=)T u n e7 se l a p s e d1 5 sr f l a 曲叽g(e s l a m a t e d)T o t a kA l e m o
50、 r v7 8 5 8 K Bu s e d11 8 0 0E Bc u r r e n th e a p6 5 0 8 8 K B n m h e a pL o a d4a L 血v eo f 2 0t h r e a d s10c o n g e s t i o nr 幽o0d e e p e s tq u e u e0a v e r a g ed e p f l aShutd o w nJ j e n t n xs o f t v,a r e|:!1 nI d e n n 丘e ro r ga r c h t v ec r V l e rH e n m x图3-1H e r i t i