《自动情感文本分类研究综述.doc》由会员分享,可在线阅读,更多相关《自动情感文本分类研究综述.doc(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、自动情感文本分类研究综述夏火松/彭柳艳/余梦麟2012-10-26 14:07:35来源:情报学报(京)2011年5期【英文标题】Review on Automatic Sentiment Text Classification【作者简介】夏火松,男,1964年生,武汉科技学院经济管理学院院长,教授,博士,硕士生导师,主要研究方向:知识管理、文本挖掘、信息管理与电子商务,武汉430073;彭柳艳,女,1984年生,武汉科技学院研究生,主要研究方向:情感分类,信息管理,E-mail:gogoply,武汉430073;余梦麟,女,1985年生,武汉科技学院研究生,主要研究方向:知识管理,信息管理,
2、武汉430073【内容提要】情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习与心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论文对情感分类目前国内外的研究概貌进行了分析,将现有文献中的研究方向分为四个类别,并对这四个类别分别进行了描述,对情感分类中的关键问题进行了研究,提出了情感分类的一般框架,最后对目前研究中存在的不足进行了讨论,对情感分类研究的发展方向进行了展望。Sentiment classification and its applications have been witnessed a booming inter
3、est in nowadays research, it is a cross research of natural language processing, machine learning and psychology, and has practical applications in many fields, such as product reputation analysis, public opinion tracking, blogger interests analysis, and so on. This paper gives an overview of the cu
4、rrent study on sentiment classification of domestic and international, divides research directions of existing literature into four categories, then describe these four categories in detail, and analyzes the key issues in this field, then proposes a general framework for sentiment classification, fi
5、nally, discuss the shortcomings of current study, and predicts the development trend.【关 键 词】情感语义词典/主观识别/情感分类/舆情跟踪/声誉分析/研究综述Sentiment semantic lexicon/Subjectivity identification/Sentiment classification/Public opinion track/Reputation analysis/Review1 引言随着互联网技术的发展与用户的增多,网络逐渐成为人们沟通与信息交流的主要载体,人们在网络站点发
6、表意见与观点也变得很便捷。对产品的评论信息以各种不同的形式存在于不同的网站上面,很典型的有:电子商务网站(淘宝,亚马逊)、专业的评论网站、博客与论坛等。现在大部分人在购买商品与服务之前,都会在网上浏览评论信息获取先验知识。企业通过关注网上的评论信息,可以追踪用户的反馈信息,及时调整产品与销售问题。在某种程度上这些评论信息主导了潜在用户的购买意愿。因此,对这些评论进行深入分析,无论是对于企业还是个人都有很大帮助。而近年来,“人肉搜索”现象时有发生,网络热点层出不穷,“某门”(王石捐款门等)事件在网上传得沸沸扬扬,很大程度上影响了人们的行为,引起了人们对网络舆情的极大关注。情感分类与观点挖掘技术能
7、够更加科学地描述这些现象的本质,引起了研究者们对这类课题的极大关注。论文对这一课题的相关内容进行了研究,研究过程中获取参考文献与相关资料的步骤如下:以“sentiment classification”或“opinion Mining”或“sentiment analysis”为关键词,在SpringerLink,EBSCO,Elsevier,SCI,EI等外文数据库中下载了2007-2009年的最新相关外文文献,剔除重复下载与无关文献,共得到42篇相关文章。同时采用参考文献追溯法,对2007年以前的文章进行了追溯,最早可以追溯到1996年,在Google Scholar里面下载了相关引用频次
8、较高的文献101篇,即共得到143篇外文文献;在中国期刊网与维普数据库里面以“情感分类”或者“情感分析”或者“观点挖掘”为主题作为检索条件,通过筛选,剔除,下载了相关中文文献70篇。通过对这些文章的阅读与分析,得到了后面的分析结论。论文采用如下的组织结构:在第二部分,对情感分类的国内外研究现状进行了总体概括;第三部分对该领域的相关研究进行了一个分类描述;第四部分对情感文本分类中的几个关键问题进行了探讨,并提出了网络评论情感分类的基本研究框架;最后对目前存在的问题与以后的研究方向给出了建议。2 情感分类研究的总体概貌自动文本分类是信息检索领域的一个重要的研究方向。大多数对于自动文本分类的研究都集
9、中在基于主题的文本分类上。除了文本的主题之外,文本还有很多其他重要的特征对信息检索起到很关键的作用。例如,对于文本的风格或者流派(文章是一篇社论还是通知,是促销性还是资讯性的,作者归属等)进行分类,与对文本所表达的情感(文章表达的是正面的还是负面的情感及情感表达强弱)进行分类。基于主题的分类与基于情感的分类有一个相同点就是,为了能够正确地分类,需要找出能够表示文档的特征项,这也是所有文本分类的基本任务。对于基于主题的分类而言,找出主题词是主要目标,而对于情感分类而言,评论者对于某一主题的情感词汇是主要目标。鉴于文章的关键词比较充足,有利于文章的主题分类,而对于情感的分类而言,复杂性在于要识别情
10、感目标,检测混合与交叠的情感,要找出文章的情感特征就比较困难。在现有的文献中,不同的作者对于情感分类的任务有几种不同的提法,除了情感分类以外,归纳起来还有以下几种:观点挖掘1,情感分析(检测)2,倾向性分析3,意见挖掘4等。为了不造成理解上的歧义,在这篇论文中,我们用情感分类来进行描述。自动情感分类被应用到了很多有意义的领域,如评论的分类,产品声誉的分析,舆情跟踪,将自动情感分类整合到问答系统5与多文档摘要系统中,博客情绪,政治观点分析6,7及关注热点分析8,9等。虽然有一些国际会议对情感检测的问题进行了专门的探讨,如ACL、AAAI、WWW、EMNLP、CIKM等,但是这个课题还没有得到系统
11、地对待10。2.1 国外研究概貌国外对于自动文本情感分类的研究始于20世纪90年代末期,代表人物有Hatzivassiloglou与McKeown11、Spertus12,以及Riloff与Shepherd13。Hatzivassiloglou与McKeown提出并在大型语料数据上验证了连接形容词语义倾向的制约因素;Spertus构建了原型系统Smokey,能够自动识别带有敌意(怒火)的信息;Riloff与Shepherd对基于语料库的方法构建语义词典进行了研究。同期的研究中还有:Argamon与Koppel14,Kessler等15对文本的风格分类进行了研究;Wiebe等16,Bruce与W
12、iebe17对文本的主客观分类进行了研究。2004年3月,美国人工智能协会举办了一场主题为“探索文本的情感与态度”的研讨会,推动了对情感文本分类的研究。在现有的研究中,监督学习的方法是应用在情感分类中的一种比较普遍的方法,但是这种方法需要大规模标记的训练文档,通过标记文档建立学习模型就可以使用现有的工具进行分类18,19,而获得这些标记文档是很耗费时间与昂贵的,同时在实际情况中,很难获得足够的标记评论来建立精确的学习参数。Turney20则采用了一种相反的方法,依靠未标记的文档来进行分类,他的模型的思想是借助词语的“语义倾向”,将这些词作为正面与负面情感的“锚点”,与某个锚点同时频繁出现的词语
13、能够代表文本的情感。情感分类是一个跟领域很相关的问题,一个领域的分类器不能在其他领域得到很好的效果。Aue与Gamon21在缺乏领域标记文档的情况下,采用四种方法改进了分类系统,对四个不同领域的数据进行试验,并对各方法的优劣进行了分析。Beineke等22提出了允许用户信息结合标记与未标记的文档来进行分类的框架,以试图减少监督学习中监督的程度。在最近的研究中,Das与Chen23开发了一种从股票留言板中挖掘投资者情绪的方法,对不同分类器的效率进行了比较,并指出他们的方法在去噪方面起到了很显著的作用,同时提出通过改变语料库与语法,有可能将他们的方法平滑应用到不同的语言与领域中;Denecke24
14、,25提出了一种能够应用与不同语言上面的情感分类方法,通过标准的翻译软件的翻译与基于SentiWordNet的情感词汇抽取以及机器学习方法的分类器来确定文本的极性,并在六种语言的电影评论上进行了测试。相关的研究还有,Moens26采用机器学习的方法对英语,荷兰语,法语三种语言的情感分析问题进行了研究,三种语言文本分类实验的准确率分别达到了83、70、68;Polpinij与Ghose27考虑到名词与动词有单复数与时态等的变化,通过采用词典,不规则动词与原始材料构建本体,对在线顾客评论进行了分类,利用SVM进行分类的实验结果表明,可变词典本体的方法能够提高分类效率;Malouf与Mullen6将
15、社会网络的分析方法引入到情感分析中;Kato,Kurohashi等28认为对信息发布者进行分类对信息可信性分析起到很重要的作用。2.2 国内研究概貌通过对收集到的中文文章的分析发现,国内对于自动情感文本分类的研究起步比较晚,最近两年才看到有相关文章出现2931。分词是处理中文文本与英文文本的最大区别之处,因为中文文本不像英文文本有空格分开,但一旦经过处理转化为文档模型后,中英文分类就没有什么差异了。情感分类与基于主题的文本分类有很多相似之处,如在预处理阶段与分类器的选择上,而其作为文本分类独立的子课题也有其固有的特点,如情感词汇的识别与同义词分析,如何提取合适的特征,并在语义上进行降维是目前研
16、究的重点问题。王素格与魏英杰30采用三种特征提取方法(信息增益、互信息2统计),两种权重计算方法(基于文档与基于词频),利用支持向量机分类器在五种停用词表上进行了分类实验,研究了停用词表对情感分类的影响。除了采用单一的特征提取与选择方法提取特征以外,将特征提取方法进行结合32来提取特征也是一种新思路。在词汇与语义资源方面,国外有WordNet33,国内有HowNet34,35,徐琳宏,林鸿飞等36提出了七大类,二十小类的情感分类框架,采用手工分类与自动获取相结合的办法构造了情感词汇本体库,相关工作还在研究当中。唐惠丰等29分别对n-Gram与不同词性的特征表示方法,不同的特征选择方法,不同的分
17、类算法及不同的特征数量进行了实验,认为采用n-Gram表示特征,信息增益进行特征选择与SVM进行分类能够得到比较好的结果。现有的研究中,对于语料库的选择,各研究者都是根据自己的需要收集语料,有旅游评论37,也有汽车评论30、手机评论38与新闻评论3,没有统一的语料库对于领域而言有很强的针对性,但是对于不同研究者采用不同方法得到的研究结果缺乏一致的比较标准,不利于研究的发展。现有的研究方法大都沿用基于主题的文本分类方法,在特征选择,提取与分类器的选择上是相同的,这提供了很好地理论基础,但是作为一个新的课题,迫切需要新的方法来提高研究的精确性。3 情感分类研究的分类从对收集到的国内外刊物与会议上的
18、文章分析来看,目前该领域内的相关研究可以归纳为以下几类。3.1 文章流派或者风格及作者归属分类前面谈到,早期对文本分类的研究是基于主题的,后来进行的有别于基于主题分类的研究,是从研究文章的流派风格及作者归属开始的。流派或者风格是对文章的体裁而言的,如文章是叙事性的还是议论性的,是学者专著还是小说或者社论。韦氏词典对风格的定义为:艺术的、音乐的、文学作品的特殊类型,形式或者内容的一个范畴。Kessler等15认为风格必然是一个异质的分类原则,它是基于文本创建的方式,发布的方式,使用的语言风格,与面向的读者构成的。根据Argamon与Koppel14对网页内容的描述,文章的风格是指一篇文章是促销性
19、的还是提供信息的,是由母语是英语的人写的,还是其他。Rauber与Muller-Kogler39提出了自动分析文章结构的方法,并将这些结构信息与自动创建组织内容整合,然后将主题与风格结合起来应用于电子图书馆,方便用户检索。Dimitrova等40对文档从三个维度,文档的专业化程度,文档描述的详细程度,文档的主客观维度,来进行分类。并提供了一个简单的可视化界面来帮助用户快速找到合适的文档,以提高信息检索的效率。Taboada等41对1900-1950年六位作者的文学作品声誉进行了分析,试图找出为何同样是后来被尊为伟大的作者,他们的文章与个人知名度及声誉会迥然不同。Gamon42认为文章的风格,流
20、派与作者归属是文章的形式问题,并使用支持向量机的方法对作者归属问题进行了分类。Whitelaw等43提出了使用功能性词汇(如连词、情态动词、评论性词汇与评估性词汇)的属性特征来辅助对文本的风格进行分类以提高分类准确性的方法,并将该方法应用到作者归属、性别识别、情感分析、科技论文的推理论证结构四个方面进行了验证。3.2 主客观分类我们看到的新闻或者文章通常包括事实与观点,这些观点可能是作者通过分析得到的也有可能是直接援引的。网络上的文本也通常都是事实与观点的混合体。自动区分观点与事实,对于应用与组织表达信息而言,将会有利于选择合适的信息类型。例如,对于信息抽取系统而言,系统可能会优先抽取文档的事
21、实部分进行分析,而问答系统与摘要系统可能就会将观点与事实分开,并通过来源与视角来组织信息4446。Bruce与Wiebe17讨论了在句子级别采用手工标注的方法对句子进行了主客观标注的方法;Wiebe等16在前文的基础上进行了改进,用特定的特征选择机制结合贝叶斯分类器进行了分类;Hatzivassilouglou与Wiebe47研究了形容词的语义倾向与级别对主观分类器的影响,结果表明它们对主观性有很好的预测能力;Wiebe48引入了基于词典的方法来选择特征;Wiebe等49研究了主观词汇与短语在每篇文档中出现总数的统计,采用K最近邻分类算法进行了分类,在文档级别的主观性分类上;Yu与Hatziv
22、assiloglou50在文档级别,采用贝叶斯分类器与词典信息结合的办法对观点文档与事实文档进行分类,F值达到97;在句子级别采用三种方法(相似性方法、贝叶斯分类器、多贝叶斯分类器)进行分类,F值达到91。3.3 极性分类情感分类的一个主要课题是研究文本所表达情感的极性:即对于给定的文章判断它表达的是正面观点还是负面观点。一般是二分类的(正面、负面),也有多分类的(正面、负面、中性或者按照情感表达强烈程度分为五个等级)18,20,51,52。语义倾向在信息系统领域有着广泛的应用,如评论分类、区分同义词与反义词、扩展搜索引擎的能力、对评论进行摘要、跟踪在线讨论、创造反应更敏感的聊天机器人、分析调
23、查反馈等,Li等38对基于HowNet的词语的语义倾向分类进行了研究。语义倾向可以有两种不同的表示,一是在方向上,可以是正面或者负面的;二是在程度上,可以从轻微到强烈。在应用与语料库的选择上,Pang与Lee53,Kennedy与Inkpen54等对电影评论进行了分类;Ye等55对旅游景点的评论进行了分类,以方便用户对特定景点的信息进行检索与查询;Gamon56对顾客反馈信息进行了分类;Zhang等57对公共医疗评论进行了分类。进行情感分类的关键问题是抽取情感特征词汇,并对词汇进行语义整合,以降低特征项的维度,提高分类器的时间与空间复杂度。3.4 观点摘要网络评论的数量过多,信息量过大,极大地
24、妨碍了人们从中获取有用的信息,自动摘要技术能够很好地解决这方面的问题。观点摘要系统是将顾客对产品的评论信息按照产品特征进行组织,然后根据评论信息的极性进行分类,并以可视化的形式给出一个简单摘要的形式,以方便用户浏览与获取主要信息。观点摘要关注的不仅仅是评论的语义倾向,而且要能够给出更直观的结果,结合可视化技术能够很好地将分析结果展示给用户。Hu与Liu58提出了基于特征的观点摘要的分析框架,通过对频繁特征的识别来抽取用户关注的产品特征项,并对评论的极性进行分类,给出摘要汇总结果。Liu等59给出了一个观点摘要原型系统(见图1),以图形化的界面展示产品每种特征的正负面评论的统计,让用户一眼就能够
25、看出不同产品各种特征的优劣。将情感分析与自动摘要技术结合的观点摘要技术很少有学者进行研究,但是是一个很有意义的发展方向。图1 观点摘要的流程综合上面所谈到的情感分类的几个研究方向,给出图2。图2 情感分类研究分类4 情感分类的关键技术情感文本自动分类与一般的文本分类是一个相交的研究领域,那么必然会有很多相似之处,同时它还有很多自己的特点。4.1 领域语义词典的构造尽管有些语义信息可以从现有的多用途知识库,如WORDNET、CYC中获得,但是有很多应用还是需要能够表达某一特殊主题的词汇与类别的特定领域词典。Riloff60开发了一个叫AutoSlog的系统,给它一个合适的训练语料库,它能够自动为
26、信息抽取构建领域字典;Riloff与Jones61提出了多层次引导算法,能够同时生成语义词典与抽取模式,它使用了互相引导的技术来交替地为每类选择最佳的模式然后将它引导的模式写入语义词典;Riloff与Shepherd13提出了一种基于语料库的方法,能够用来构建特定类别的语义词典,该系统能够通过输入某一个类别的小型种子词集合与其代表的文本语料库,得到一组与该类别相关的词表排列,用户则可以通过词表的排列选取那些词可以写入语义词典;Roark与Charniak62对Riloff与Shepherd的方法进行了改进,采用半自动的方法构建语义词典能够得到更好的效果;Thelen与Riloff63提出了一种
27、称为Basilisk的算法,它采用未标注的语料与对每个语义类别选取种子词汇,然后采用引导的方法通过这些词汇来学习新词语,用以改进现有词典如WORDNET;Allison64通过抽取词汇的特征构造分类器的方法来进行情感检测,使用该方法在三种不同任务上使用五种分类器的实验结果表明:使用构造的不同的分类器所得到的结果与使用某一固定分类器,不同的特征集合所得到的结果同样变化很大,基于词汇特征的分类器在情感检测任务方面效果更好;Li与Zong65采用来自多个领域的训练数据对某一个特定领域的数据进行分类,实验结果表明多领域适应方法可以改善领域适应的性能,对跨领域的分类研究起到一定指导作用。在情感词典资源方
28、面,Valitutti等66通过WORDNET选择与标注表示情感概念的同义词集合建立了WORDNET-AFFECT词典,来对情感知识进行表示。Esuli与Sebastiani67通过定量分析同义词集合的相关注解,与使用表示半监督同义词分类产生的向量项,开发了SENTI-WORDNET来辅助观点挖掘。4.2 识别主观词汇与句子文本特征的选取对分类器的准确率起着决定性的作用,情感分类的关键问题之一是识别带观点的词汇与句子,抽取合适的特征项不仅能减少分类噪音,而且能够提高分类的准确度。有些学者51采用首先确定一部分种子词汇,然后根据WORDNET中提供的同义词来识别同一类观点与反义词来识别相反观点的
29、方法来选择情感与观点词汇。Turney20采用了如下的步骤来识别情感词汇,首先通过词性标注来抽取包含某种模式的短语(含形容词或副词的短语),然后使用PMI-IR算法来计算所抽取的短语的语义倾向,最后通过计算短语的语义倾向的平均值来进行分类。Yu与Hatzivassiilogou50采用三种不同的方法,相似性方法,贝叶斯分类器,多贝叶斯分类器来识别主观句子。Riloff与Wiebe45首先通过高精度分类器来自动识别主观与客观句子,然后通过对这些数据的训练来自动学习主观句子的模式,再通过学习模式来补充训练集,采用这种自学习的方式来识别主观句子。Kim与Hovy68提出了一个句子级别的观点检测系统,
30、通过对观点的定义来获取带观点的句子与不带观点的词汇,进而用这些词汇识别带观点的句子。后来,Kim与Hovy69将观点定义为由:价(正面,负面),持有者与主题三部分组成,观点分析由:识别观点,确定价,识别持有者与确定主题四部分组成。在特征提取与情感词汇的识别上,大部分研究对二者的研究是独立的,盲目使用观点词汇的情感会导致分类的偏失,Chan与King70采用基于语料的方法对特征与观点词汇之间的关系进行了研究,提出了FOA算法在句子级别对二者进行匹配的方法来改善情感分析的结果。4.3 分类算法分析对文本的标注需要大量的人工工作,我们通常把需要大量标注文本的研究方法称为监督学习,不需要标注的称为非监
31、督学习,同时还存在需要少量标注的研究称为半监督学习。目前在情感文本分类上采用的分类算法大致分为两类,一类是基于概率与信息理论的分类算法,如朴素贝叶斯算法(NB),最大熵算法(ME);另一类是基于机器学习的分类算法71,如决策树,支持向量机等,除了单纯的分类算法的比较(见表1),对机器学习算法中核函数72,73的研究也很关键。对文本的标注是一项系统的知识工程,需要大量的人工与专家的配合才能尽可能提高准确度,有学者对文本的标注进行了研究74。Pang等18采用三种机器学习算法(贝叶斯分类,最大熵分类,与支持向量机)对电影评论进行了分类,发现这三种算法在情感分类上的效率没有在传统基于主题的分类上的效
32、率高,认为情感分类更具有挑战性。Prabowo与Thelwall75对不同的分类方法进行了比较,认为将不同的分类器结合使用能够提高分类效率。现有的研究中,多数学者采用支持向量机算法来作为分类器,在各种不同领域都有应用,分类效果也达到了比较高的水平。基于以上分析,论文提出情感分类一般框架如下:(1)从网络上抓取评论存入评论数据库,建立自己的语料库;(2)对评论进行处理,去除噪声数据,预处理步骤进行分词与词性标注及去停用词;(3)运用特征选择算法进行特征抽取,结合情感词汇本体库,辅助提取特征项的一般模式;(4)对频繁特征进行识别,运用语义词典进行同义词的合并;对文本表达的观点进行识别;(5)最后进
33、行结果评估,并以可视化的效果展示给用户。图3为网络评论情感分类的一般框架。图3 网络评论情感分类的一般框架5 研究述评情感分类是自然语言处理,机器学习与心理学等多学科交叉的一个研究课题,从现有的论文来看,情感分类的相关研究还比较落后,还有很多需要关注的子课题,没有形成一个比较完善的体系,导致这方面的研究发展缓慢。论文旨在分析现有的关于情感分类的相关研究,在前人研究的基础上归纳出现有研究的分类与相关焦点问题,提出现有研究中的不足与研究发展的趋势,给以后的研究提供一些参考。论文对情感文本自动分类目前国内外的研究现状进行了分析,描述了现有的文献中的四个研究方向,并对情感文本自动分类问题特有的属性进行
34、了探讨,提出了情感文本分类的一般框架。从上面的讨论可以看到,情感文本自动分类的相关课题国内外已经有很多学者进行了研究,但是相对于基于主题的文本分类而言,这些研究还缺乏统一的标准与体系,在语料库与词典的建设方面还有很长的路要走。要达到自动化与精确的分类,现有的研究水平显然是不够的,还有很多需要改进的地方:(1)语料库的建设缺乏统一性。研究人员都是采用自己建设的语料库,虽然在领域问题上可能会提供一些比较精确的意见,但是从系统的观点来看,情感词汇与句子的标注在很大程度上是一项主观的任务,这就需要大量的领域专家共同进行,才能尽可能提高分类的准确性。标注标准的不一致会造成研究结果的偏差与无规律可循。因此
35、对于分类算法与分类系统就缺乏可比较性。(2)如何正确选取特征项与降低特征空间的维度不管是对于基于主题的分类而言还是情感分类而言都是一项很有挑战性的工作,而且由于情感文本分类的研究还处于初级阶段,还没有形成专门的方法与系统的理论,相较于基于主题的分类而言,还需要建立类似于WORDNET、HOWNET的情感语义词典,以辅助选择正确的情感词汇。(3)对于分类算法而言,该领域的分类算法大都是沿用单一的、一般的分类算法,在情感文本分类的研究上尚未见分类器融合的方法,现有的研究都忽略了这一点,有必要发展多分类器融合的研究,以找到合适的算法提高分类的精度。网络评论还有很多固有的缺陷,容易带来额外的噪声,如拼
36、写错误、新兴词语的使用、广告泛滥等,都会影响分类的难度与准确度。【参考文献】1Esuli A, Sebastiai F. Determining term subjectivity and term orientation for opinion miningC/Proceedings of EACL-06, 11th conference of the European chapter of the association for computational linguistics. Trento: 2006.2Nasukawa T, Yi J. Sentiment analysis: Ca
37、pturing favorability using natural language processingC/Proceedings of the K-CAP-03, 2nd International Conference on Knowledge Capture. New York: US. 2003:70-77.3申晓烨,封化民,毋非.基于语义理解的Web新闻倾向性分析C/第四届全国信息检索与内容安全学术会议,2008:551-559.4黄高辉,姚天昉,刘全升.汉语意见型主观性语句类型分析C/第四届全国学生计算语言学研讨会,2008:208-214.5Cardie C, Wiebe J
38、, Wilson T, et al. D. Combining low-level and summary representations of opinions for multi-perspective question answeringC/AAAI spring symposium on new directions in question answering, 2003: 20-27.6Malouf R, Mullen T. Taking sides: User classification for informal online political discourseJ. Inte
39、rnet Research, 2008, 18(2): 177-190.7Suzuki T. Extracting Speaker-Specific Functional Expressions from Political Speeches Using Random Forests in Order to Investigate Speakers Political StylesJ. Journal of the American Society for Information Science and Technology, 2009, 60(8): 1596-1606.8Glance N
40、S, Hurst M. Tomokiyo T. Blogpulse: Automated trend discovery for weblogsC/WWW 2004 workshop on the weblogging ecosystem: Aggregation, analysis and dynamics, 2004.9Mishne G, de Rijke M. Capturing global mood levels using blog postsC/AAAI 2006 spring symposium on computational approaches to analysing
41、weblogs(AAAICAAW2006),2006.10Tang H F, Tan S B, Cheng X Q. A survey on sentiment detection of reviewsJ. Expert Systems with Applications, 2009, 36: 10760-10773.11Hatzivassiloglou V, McKeown K R. Predicting the semantic orientation of adjectivesC/Proceedings of the 35th annual meeting of ACL, 1997.12
42、Spertus E. Smokey: Automatic recognition of hostile messagesC/Proceedings IAAI, 1997.13Riloff E, Shepherd J. A corpus-based approach for building semantic lexiconsC/Proceedings of the second conference on empirical methods in natural language processing, 1997: 117-124.14Argamon S, Koppel M. Routing
43、documents according to styleC/First international workshop on innovative information systems, 1998.15Kessler B, Nunberg G, Schutze H. Automatic detection of text genreC/Proceedings of the 35th ACL/8th EACL, 1997: 32-38.16Wiebe J, Bruce R, O Hara T. Development and use of a gold standard data set for
44、 subjectivity classificationsC/Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics(ACL-99).1999: 246-253.17Bruce R F, Wiebe J. Recognizing subjectivity: A case study in manual taggingJ. Natural Language Engineering, 1999, 5(02)187-205.18Pang B, Lee L, Vaithyanatha
45、n S. Thumbs up? Sentiment classification using machine learning techniquesC/Proceedings of the 2002 conference on empirical methods in natural language processing(EMNLP),2002: 79-86.19Kushal D, Steve L, David M. Pennock. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Pr
46、oduct ReviewsC/12th international conference on World Wide Web, Budapest: Hungary, 2003.20Turney P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviewsC/Proceedings of the 40th annual meeting of the association for computational linguistics(ACL).Philade
47、lphia, 2002: 417-424.21Aue A, Gamon M. Customizing sentiment classifiers to new domains: A case studyC/Proceedings of RANLP, 2005.22Beineke P, Hastie T, Vaithyanathan S. The sentimental factor: Improving review classification via human-provided informationC/Proceedings of the 42nd ACL conference, 2004.23Sanjiv R Das, MikeY Chen. Yahoo! for Amazon: Sentiment Extraction from Small Talk o