《中文产品评论的意见挖掘研究论文bwzb.docx》由会员分享,可在线阅读,更多相关《中文产品评论的意见挖掘研究论文bwzb.docx(147页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、硕士学位论论文中文产品评评论的意意见挖掘掘研究Reseaarchh onn Oppiniion Minningg off Produuct Revviewws iin CChinnesee作者:严孙孙荣导师:瞿有有利北京交通大大学2010年年5月学位论文版版权使用用授权书书本学位论文文作者完完全了解解北京交交通大学学有关保保留、使使用学位位论文的的规定。特特授权北北京交通通大学可可以将学学位论文文的全部部或部分分内容编编入有关关数据库库进行检检索,提提供阅览览服务,并采用用影印、缩缩印或扫扫描等复复制手段段保存、汇汇编以供供查阅和和借阅。同同意学校校向国家家有关部部门或机机构送交交论文的的复印
2、件件和磁盘盘。(保密的学学位论文文在解密密后适用用本授权权说明)学位论文作作者签名名: 导导师签名名:签字日期: 年年 月 日 签字字日期: 年年 月 日中图分类号号:TPP3911.3UDC:6620学校代码:100004密级:公开开ii北京交通大大学硕士学位论论文中文产品评评论的意意见挖掘掘研究Reseaarchh onn Oppiniion minningg off Prroduuct Revviewws iin CChinnesee作者姓名:严孙荣荣 学 号号:08812005100导师姓名:瞿有利利 职 称称:副教教授学位类别:工学 学位级级别:硕硕士 学科专业:计算机机科学与与技术
3、研究方方向:自自然语言言处理北京交通大大学2010年年5月致谢本论文的工工作是在在我的导导师瞿有有利副教教授的悉悉心指导导下完成成的,瞿瞿有利副副教授严严谨的治治学态度度和科学学的工作作方法给给了我极极大的帮帮助和影影响。在在此衷心心感谢两两年来瞿瞿有利老老师对我我的关心心和指导导。尹传环老师师悉心指指导我们们完成了了实验室室的科研研工作,在在学习上上和生活活上都给给予了我我很大的的关心和和帮助,在在此向尹尹传环老老师表示示衷心的的谢意。王志海和田田盛丰教教授对于于我的科科研工作作和论文文都提出出了许多多的宝贵贵意见,在在此表示示衷心的的感谢。在实验室工工作及撰撰写论文文期间,张美珍、张彦博和
4、张尚超等同学对我论文中的意见挖掘研究工作给予了热情帮助,在此向他们表达我的感激之情。另外也感谢谢女朋友友符蓉,他他们的理理解和支支持使我我能够在在学校专专心完成成我的学学业。严孙荣2010年年5月 于北京京北京交通大学硕士论文 摘要摘要随着电子商商务的迅猛发发展,用用户购买买和使用用产品之之后会在在Webb上发表表对产品品的评论论,产品品评论的的自动挖挖掘对于于商家和和潜在的的消费者者有着重要意义义。本文文以中文文产品评评论为主主要研究究对象,从从评论的的整体褒褒贬分类类和细颗颗粒的产产品意见见挖掘两个个层面进进行分析析研究,论论文主要要内容如如下:采用机器学学习的方方法对产产品评论论进行整整
5、体褒贬贬分类研研究。构构建用于于产品评评论褒贬贬分类的的语料库库;采用用基于NN-Grram文文本特征征抽取(分分为基于于词的 uniigraam,biggramm和基于字字的unnigrram,bbigrram,triigraam),结合合不同的的特征权权重计算算方法(TTF,BBOOLL,TFFIDFF),在不同同的分类类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀
6、树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现现了基于于依存句句法分析析的细颗颗粒意见见挖掘算法法和基于于关键字字匹配的的细颗粒粒意见挖掘掘算法,并并构建产产品特征征库和中中文极性性词典。实实验表明明关键字字匹配方方法好于于基于依依存句法法分析方方法。最后,设计计并实现现了一个个产品评评论意见见挖掘系系统,该该系统可可以自动动抓取指指定的评评论页面面并抽取取评论内内容,可可从整体体和细颗颗粒两个个层面对对产品评评论进行行意见分分析,并并将意见见分析结结果存入入产品意意见库中中,提供供可视化化的统计计展现。关键词:产产品评论论;
7、情感感分类;意见挖挖掘;自自然语言言处理分类号:TTP3991.33vii北京交通大学硕士论文 ABSTRRACTTABSTRRACTTNowaddayss, tthe eleectrroniic ccommmercce pplayys aa moore andd moore impporttantt roole in ourr daailyy liife. Coonsuumerrs aalwaays exppresss oopinnionns oon tthe prooducct vvia thee Weeb aafteer uusinng tthe prooducct. Thee auut
8、ommatiic mminiing on theese commmennts is impporttantt foor tthe pottenttiall coonsuumerrs aand entterpprisses. Wee foocuss onn Chhineese prooducct rreviiewss. WWe aanallyzeed tthe commmennts on twoo leevells iinclludiing doccumeent-levvel senntimmentt cllasssifiicattionn annd ffeatturee-baasedd prr
9、oduuct opiinioon mminiing. Thhe mmainn coonteentss arre aas ffolllowss:We emmplooy mmachhinee leearnningg allgorrithhm tto pperfformm thhe ddocuumennt-lleveel ssenttimeent claassiificcatiion of thee prroduuct revviewws. We colllecct ccorppus froom oonliine revviewws; invvesttigaate thee N-Graam bass
10、ed feaaturre rreprreseentaatioon iinclludiing Worrd-BBaseed UUigrram, Biigraam aand Chiinesse CCharractter-Bassed Uniigraam, Biggramm, ttriggramm; aanallysiis ddifffereent feaaturre wweigghtiing appproaachees(TTF, BOOOL, TFIIDF), ccompparee diiffeerennt cclasssifficaatioon aalgooritthmss (NNaivve BB
11、ayees, Maxximuum EEntrropyy annd SSuppportt Vecttor Machhinee). Thee SVVM usiing Chiinesse CCharractter Bigrram-bassed feaaturre eextrracttionn meethood aand worrd ffreqquenncy bassed texxt rreprreseentaatioon hhas thee beest perrforrmannce, off whhichh thhe aaccuuraccy wwas 94.74%. We ressearrcheed
12、 ssufffix treee bbaseed sstruuctuure alggoriithmm exxtraactiing thee Keey Subbstrringg Grooup feaaturres. Exxperrimeentss shhow thaat tthe Keyy Subbstrringg Grooup feaaturres havve bbettter desscriiptiion of thee coommeentss seentiimennt cclasssifficaatioon, lowwer dimmenssionn, aand bettterr acccur
13、racyy thhan othher texxt ffeatturees rreprreseenteed iin SSVM.We innvesstiggateed ddepeendeencyy paarsiing bassed alggoriithmm annd kkeywwordd maatchhingg bassed alggoriithmm foor ffeatturee-baasedd oppiniion minningg. WWe cconsstruuct a prroduuct feaaturres libbrarry aand a Chhineese pollariity Dic
14、ctioonarry. Expperiimennts shoow tthatt thhe kkeywwordd baasedd meethood iis bbettter thaan tthe deppenddenccy pparssingg bassed metthodd.We deesiggnedd annd iimpllemeenteed aa prroduuct revvieww oppiniion minningg syysteem. Thee syysteem ccan auttomaaticcallly ccrawwl aand exttracct sspeccifiied co
15、mmmennts onn reevieew ppagees, theen aanallysiis tthe revviewws, savve tthe ressultt innto thee prroduuctss oppiniion libbrarry. Useers cann geet vissuallizeed rresuult whiich willl bbe hhelppfull forr deecissionn maakinng.KEYWOORDSS:Prroduuct Revvieww; Seentiimennt CClasssifficaatioon; Opiinioon MM
16、innng; Natturaal LLangguagge PProccesssinggCLASSSNO:TP3991.33北京交通大学硕士论文 目录目录摘要iiiiABSTRRACTTiv1绪论11.1研研究背景景11.2选选题意义义21.3研研究现状状31.3.11文本情情感分类类研究现现状31.3.22词的极极性分类类研究现现状41.33.3产品特特征抽取取研究现现状61.3.44产品评评论挖掘掘系统构构建研究究现状71.4论论文主要要工作81.5论论文组织织结构82文本分分类相关关基础理理论92.1文文本表示示92.2特特征权重重计算92.3文文本分类类算法112.3.11朴素贝贝叶斯1
17、12.3.22最大熵熵122.3.33支持向向量机132.4文文本分类类性能评评价142.4.11查全率率、查准准率和FF-测度度值142.4.22宏平均均和微平平均152.5本本章小结结163产品评评论整体体褒贬分分类研究究1733.1整体设设计173.2产产品评论论褒贬分分类实验验183.2.11文本预预处理183.2.22特征向向量抽取取及权重重计算193.2.33特征选选择213.2.44分类算算法选择择213.3产产品评论论语料库库的构建建213.4基基于N-Graam的特特征提取取分类实实验结果果243.4.11基于词词的unnigrram和和biggramm243.4.22基于字
18、字的unnigrram,biggramm和triigraam263.4.33实验结结论273.5基基于Suuffiix TTreee特征抽抽取的褒褒贬义分分类283.5.11Sufffixx Trree介介绍283.5.22关键子子串组的的特征提提取和算算法实现现303.5.33基于Suuffiix TTreee的特征征提取分分类实验验结果323.55.4实验结结论353.6本本章小结结354产品评评论细颗颗粒意见见挖掘研研究364.1研研究目标标364.2整整体设计计364.3产产品特征征库的构构建374.3.11从产品品规格说说明书提提取特征征384.3.22从产品品评论中中提取特特征39
19、4.4中中文极性性词典构构建414.4.11极性词词典构建建424.4.22极性修修饰词典典构建434.4.33产品特特征相关关极性词词典构建建444.5中中文产品品评论语语言特点点分析464.5.11中文句句子分析析464.5.22产品评评论特点点分析474.6基基于依存存句法的的意见挖挖掘484.6.11句法分分析器484.6.22SBVV极性传传递算法法504.7基基于关键键字匹配配的意见见挖掘514.8意意见挖掘掘实验534.8.11测试语语料534.8.22实验结结果和分分析544.9本章小小结555产品评评论意见见挖掘系系统设计计与实现现565.1系系统整体体设计565.2系系统开
20、发发环境565.3可可视化界界面生成成575.4产产品特征征库和极极性词典典的管理理575.4.11产品特特征库维维护575.4.22极性词词库维护护585.5评评论页面面下载与与内容提提取595.5.11评论的的页面下下载595.5.22评论内内容抽取取605.6评评论意见见挖掘635.6.11整体褒褒贬分类类635.6.22细颗粒粒评论分分析645.7评评论意见见查询645.7.11产品意意见查询询655.77.2产品意意见比较较查询665.7.33文本评评论分析析查询675.8本本章小结结676总结686.1研研究工作作总结686.2进进一步工工作69参考文献71作者简历75独创性声明明
21、77学位论文数数据集79115北京交通大学硕士论文 绪论1 绪论1.1 研究背景随着生活水水平的不不断提高高,商品品经济的的不断繁繁荣,面面对琳琅琅满目的的各种商商品,要要挑选出出自己真真正需要要的商品并不容容易。为为了满足足不同消消费者的的需求,生生产厂商商往往会会根据不不同类别别的使用用者生产产出不同同类型的的产品。然而,消费者一不小心便会买到并不适合自己的产品。即便是口碑好的厂家,也会有设计不良的产品,而那些不良产品往往在使用一段时间后才会发现问题,而此时消费者已经后悔莫及。随着Internet的发展和普及,Web已经成为了消费者反馈观点的主要途径。它不仅为商家提供了一个信息的展示平台以
22、发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。产品使用者可以通过商家的网站,网络论坛,以及Blog发表对于产品的看法。因此很多网民在购买某类产品前,往往会选择先上网浏览一些相关产品的信息,了解其他消费者的使用体验,深入比较产品之间的性能,从而使自己的消费更趋理性化。面对网上海海量的良良莠不齐齐的信息息和数据据,生产产厂商和和用户要要想从产产品评论论中获取取信息,只只有通过过人工阅阅读的方式来来获取,而而这是一一个需要要耗费大大量的时时间与精精力且容容易产生生错误的的过程。因因此,我我们迫切切需要能能有一种种有效的的手段对对各种大大量数据据进行整整理,提提供一目目
23、了然的的数据统计计结果的的展示。数据据挖掘(Datta MMiniing)技术正正是在这这样的应应用需求求环境下下产生并并迅速发发展起来来的。它它是从大大量的、不不完全的的、有噪噪声的、模模糊的、随随机的原原始数据据中,提提取隐含含在其中中的、先先前未知知的、但但又是潜潜在有用用的信息息和知识识的过程程1。对用户户评论挖挖掘的研研究,目目的就在在于对网网上大量量的评论论信息进进行挖掘掘,通过过采用自自然语言言处理技技术,对对自然语语言描述述的无结结构的用用户产品品评论中中进行自自动挖掘掘,找到到有用的的信息,并并以直观观的方式式对挖掘掘结果进进行表示示。对网络上的的产品评评论进行行挖掘主主要是
24、使使用现有有的文本本挖掘技技术,文文本挖掘掘(TexxtMiininng)是数据据挖掘的的一个研研究分支支,用于于基于文文本信息息的知识识发现2。数据据挖掘是是揭示存存储在数数据库中中的结构构化数据据的数值值属性之之间的关关系,而而文本挖挖掘则是是分析和和发现大大量非结结构化文文本中的的关系,研研究的关关键在于于文本内内容的量量化表征征。文本本挖掘利利用智能能算法,结合文文字处理理技术,如如文本切切分、词词性标注注、句法法分析、浅浅层语义义分析等等,对大大量的非非结构化化文本(如文档档、电子子表格、客客户电子子邮件、问问题查询询、网页页等)进行分分析,抽抽取文本本特征,将将文本数数据转化化为能
25、描描述文本本内容的的结构化化或半结结构化数数据。然然后利用用聚类、分分类技术术和关联联分析等等数据挖挖掘技术术,形成成具有一一定结构构文本,并并根据该该结构发发现新的的概念和和相应的的关系,获获取有用用的知识识和信息息3。随着各种产产品信息息纷纷发发布在网网页上,消消费者可可以更加加便捷地地获取各各种产品品的信息息。同时时产品使使用者也也纷纷发发表使用用评论,这这样就又又便于其其他消费费者能够够获得最最直接的的产品评评价。产产品评论论信息作作为文本本内容的的一种,也也在网络络上大量量的出现现。与普普通文本本不同的的是,这这些评论论内容是是产品使使用者把把自己的的使用体体验写出出来提供供给其他他
26、用户看看的,是是以用户户为中心心的信息息展示。1.2 选题意义互联网的发发展与普普及已经经深刻地地改变了了人们的的生活和和思维方方式,极极大地推推动了全全球信息息化进程程。网络已已经成为为当今人人们获取取知识、发发布信息息、交流流沟通的的主要工工具。然然而从纷繁复复杂的网网络世界界中准确而快速地地获取所所需的信信息也并并非易事事,信息息检索,信信息过滤滤,文本本挖掘等等信息处处理技术术成为解解决该矛矛盾的主主要方法法。对产品评论论进行挖挖掘的意意义主要要体现为为二个方方面:一、帮助用用户购买买适合自自己的产产品。评评论挖掘掘能够收收集不同同网站上上大量用用户所表表达的使使用体验验,通过过产品评
27、评论,产产品使用用者可以以把自己己的使用用情况表表达出来来,目的的在于为为其他消消费者在在购买相相关产品品时提供供一个参参考意见见,从而而选择到到称心如如意的商商品。对对产品评评论进行行挖掘可可以把不不同网站站上、不不同时间间、不同同用户的的评价信信息统计计起来,全全面展示示产品的的使用情情况,帮帮助潜在在用户挑挑选出适适合自己己的产品品。二、帮助厂厂家生产产符合社会会需求的的产品。因因为评论论挖掘能能够揭示示出产品品质量的的内在信信息,因因此对产产品评论论进行挖挖掘就能能展示出出产品的的质量信信息。对对生产厂厂家来说说,生产产出真正正适合用用户需求求的产品品才是最最重要的的。通过过浏览产产品
28、评论论挖掘的的结果,他他们可以以找出现现有产品品的不足足,同时时借鉴其其他厂家家的优良良产品,不断改进自身产品的功能和性能。因此,产品评论的挖掘能促使厂家提升其社会竞争力,生产出功能更多、性能更好、适合不同用户群的产品。因此,对产产品评论论进行挖挖掘,目目的在于于帮助消消费者在在海量信信息源中中迅速找找到真正正需要的的信息,用用简单和直接的的手段将将评论挖挖掘结果果展现给商商家和消消费者,有着广广泛的应应用价值值和研究究价值。1.3 研究现状1.3.1 文本情感分分类研究究现状文本的情感感分类,近近年来受受了广泛泛的关注注,其目目的是判判断给定定文本片片段所体体现的说说话者的的情感倾倾向,判判
29、断内容容中的文文字表述述是主观观性的评评论还是是客观性性的介绍绍,是正正面肯定定评价还还是反面面否定批批判。Pang和和Leee56等等人最早早在文本本的主客客观分类类和极性性分类方方面做了了一系列列的研究究工作。使使用基于于图的mminiimumm-cutt方法,利利用上下下文信息息提高极极性分类类的精度度。实验验中使用了了7000个正面面和7000个负负面评论论,采用用朴素贝贝叶斯、最最大熵、支持向向量机分分类器,通过过3重交叉验验证对分分类器进进行对比比评估。实实验中他他们分别别使用了了uniggramm(分别用用词条频频率和布布尔值作作为特征征权重)、bigram、uunigrram+
30、bigraam、unigrram+PPOS、ttop uniggramm(前26633个个)、unigrram+possitiion作作为他们们的语言特征征,实验验结果中中,归纳纳出一些些值得注注意的结结果:(11)在使使用布尔尔的uniggramm特征时时得到最最好的结结果,而而不是词词频uniggramm。而在在主题分分类中词词频通常常是最有有效的特特征加权权方法之之一。(22)使用用bigaam+uuniggam特特征比仅仅使用uuniggramm特征性性能要差差。这与与通常的的自然语言言现象相相悖。在在自然语语言中,有有非常多多的由两两个或多多个单词词构成的的短语、复复合词、句句式结构
31、构等语言言元素一一起出现现时才会会表达了了非常显显著的情情感倾向向,而构构成它们们的那些些单词中中多并没没有显著著倾向性性。例如如,“howw shoouldd”是一个个很强的的语气句句式结构构,而“howw”、“shoouldd”单独使使用时则则一般作作为中性性词。Goldbbergg和Zhu7针针对电影影评论的的等级推推理问题题,提出出了基于于图的半半监督算算法,比比以往采采用多分分类模型型的方法法,在性能上有较大大提高。NNi8将将情感分分类视为为二分类类问题,使使用了NNaivveBaayess、SVM和和Roccchiios算法,并并采用了了CHII方和信信息增益益(Infformm
32、atiion Gaiin)进行特特征选择择,SVVM分类类器的性性能达到到最好,准准确率、召召回率和和F1都都达到了了92%左右。Whitelaw等人9提取含有形容词的词组及其修饰语作为特征,使用向量空间模型表示文档,并采用SVM进行分类,来区分带有正面和负面评论的文档。Bruce和Wiebe等1011利用贝叶斯分类器对句子的主客观性进行分类。汉语文本的的情感分分类方面面,徐军军等人12使用用朴素贝贝叶斯和和最大熵熵模型,对对中文网网页中的的新闻进进行情感感自动分分类,采采用布尔尔和词频频特征权权重,实实验结论论表明,布布尔权重重性能不不比词频频特征权权重差,同时发发现最大大熵的分类类方法要明
33、显优优于朴素素贝叶斯斯方法。唐唐慧丰等等人13则对部部分基于于监督学学习的中中文情感感分类技技术做了了比较研研究,在在文本特特征方面面,采用用N-GGramm以及名名词、动动词、形形容词、副副词作为为不同的的文本表表示特征征;以互信信息、信信息增益益、CHHI统计计量和文文档频率率作为不不同的特特征选择择方法;以中心心向量法法、KNNN、NNaivveBaayess和SVM作作为不同同的文本本分类方方法;并在不不同的特特征数量量和不同同规模的的训练集集情况下下,分别别进行了了中文情情感分类类实验。他他们的实实验结果果表明:采用bigrram特特征表示示方法、信信息增益益特征选选择方法法和SVV
34、M分类类方法,在在足够大大训练集集和选择择适当数数量特征征的情况况下,能能取得较较好的效效果情感感分类。Li Jun14采用一元、二元和三元词语作为特征,对SVM、ME、NaiveBayes、ANN四种分类方法用于文本情感分类的效果进行了比较研究。1.3.2 词的极性分分类研究究现状词的极性分分类的研研究主要要是集中中在找到到带有情情感倾向向的词,并并且判断断它的情情感极性性。主要分分为自动动发现和和手工定定义两种种方法,其其中自动动发现方方法又可以分分为两大大类:(1)基于于词典的的极性词词自动发发现,Hu和和Liuu15提提出利用用词典的的词汇关关系来判判断形容容词的极极性,在在Worrd
35、Neet中形形容词是是以两极极的群体体呈现的的,具有相相反意义义的形容容词以两两极的方方式连结结,而在在这两个个形容词词后面分分别又会会将具有有相似意意义的形形容词与与带头的的同义词词连结,形形成一个个具有相相反意义义的形容容词集合合。利用用WorrdNeet词典典的特点点,设计计自动地地完成极极性词分分类的算算法。这这个方法法的缺点点在于只只能对形容容词判断断情感极性性,对于于WorrdNeet中其其它没有有以两极极方式呈呈现的词词性则无法判判断。也也就是说说利用WWorddNett只能作作初步的的处理19,使使用WoordNNet生生成极性性词也会会包含大大量情感感极性区区分度不不强的词词
36、语,还还需要人人工进行行筛选,另外如果种子集中的形容词数目不够,那么仅仅依靠同义词的方法就会导致许多极性词不能被发现。同时有一些形容词的情感极性是随着上下文情况不同而确定的,如:“电池很小很薄”以及“手机屏幕太小”。前者中“小”表达了正面的情感,后者的“小”则表达了负面的情感。因此在观点的褒贬判定上还需要加入其它的上下文因素来辅助。(2)基于于语料的的极性词词自动发发现。TTurnney2021假设经常常一起出出现的词词语具有有相同的的情感极极性方向向。也即即正面观观点与正正面观点点往往会会一起出出现,而而负面观观点也会会靠近负负面观点点,采用用互信息息和信息息检索PPMI-IR相相结合的的方
37、法判判定词汇汇的极性性,该方方法首先先建立77个单词词构成的的正极词汇种子子集PWWordds(goood, nicce, exccelllentt, possitiive, forrtunnatee, corrrecct, supperiior)和7个个单词构构成的负负极词汇种子子集NWWordds(badd, nassty, pooor, neggatiive, unfforttunaate, wroong, infferiior),对需需要进行行极性判判断的词词汇UWWordd,分别别计算UUWorrd与PPWorrds和NWWordds中的的每个极极性词汇汇的互信信息,见见公式(1-1
38、): (1-11)其中p(wwordd1&wwordd2)表表示使用用搜索引引擎对出出现woord11和woord22所构成的的二元词词对在Webb检索中中出现的网页数数目,pp(woord11)和p(wwordd2)分分别表示示使用搜搜索引擎擎在Webb检索出出现woord11和woord22的网页页数目分分别将计计算得到到的UWWordd与PWWordd每个极极性词汇汇的互信信息相加加和UWWordd与NWWordds每个个极性词词汇的互互信息相相加,并并计算两两者的差差,结果果为正则则表示UUWorrd更靠靠近正性性词汇,为为负则表表示UWWordd更靠近近负性词词汇,从从而计算算出词的
39、的极性方方向。TTurnney使使用PMMI计算算未知观观点词与与正面观观点和负负面观点点作为判判断未知知观点词词与正面面以及负负面的观观点出现现关系的的依据。若若是未知知观点词词与“exccelllentt”出现的的次数多多于未知知观点词词与“pooor”出现的的次数,则则将未知知opiinioon worrd归类类为正面面。用来来判断未未知观点点词(op)的方法法是将未未知观点点词与正正面观点点计算得得到的PPMI值值减去将将未知观观点词与与负面观观点计算算得到的的PMII,公式式如下:(1-2)计算完毕后后,若SSO(oop)0,则则表示oop是正正面的观观点;若若SO(op)0则则表示
40、oop是负负面的观观点。CCamoon和AAue22对这这一技术术作了进进一步的扩展,增加了了一个假假设,在在同一个个句子中,极性性相反的的词语趋趋向于不不同时出出现。HHatzzuvaassiilogglouu25利利用形容容词之间间的连词词存在语语言学上上的限制制,也称称为连词词假设,将将语料库库中的形形容词聚聚类为正正性词汇汇和负性性词汇,结结果表明明对形容容词的极极性判定定具有较较好的效效果。不不过该文文只对形形容词进进行了语语义方向向的判定定,也可可以采用用相同的方方法来确确定动词词和副词词的极性性。人工定义的的方法通通过人工工的分析析来建立立极性词词汇表,这样只要直接查询极性词汇表
41、即可获取词汇或短语的情感极性。娄德成和姚天昉24分别对HowNet中的6564个词条和从2454篇汽车评论中人工选择得到的极性词汇以人工标注的方式建立中文极性词汇表,而对于在词汇表中没有的词,同样通过SO-PMI来计算出与不同极性词之间的互信息,再通过差值确实词的极性。Hatzivassiloglou和Wiebe25对语义方向及程度词汇(副词和名词)对语义方向的影响进行分析,并手工建立了一个由73个单词构成的词汇表。Wang26等发现产产品评论论一般包含含两个部部分的内内容:评评论的标标题和评评论的具具体内容容。由于于标题往往往会表表示了整整个评论论的态度度,因此此可以将将标题中中的用户户态度
42、作作为具体体内容的的极性标标注,建建立朴素素贝叶斯斯分类器器,计算算评论具体体内容中中词汇的的情感极性性。很多多网站允允许用户户在网站提提供的表表情图标标中选择择一个来来表示自自己的态态度:支支持/反反对,Yanng27等将博客客上的回回复信息息的表情情图标作作为回复复语句的的极性标标注,并并通过计计算语句句中的词词汇与表表情图像像之间的的互信息息来建立立极性词词汇表。1.3.3 产品特征抽抽取研究究现状产品评论挖挖掘的一一个主要要任务是是需要了了解用户户对产品品的哪些些功能、部件和性能进行了评价,因此需要从产品评论中提取出用户评价的对象产品特征。用户在产品评论中对特征的描述,可能是厂家根本没
43、有考虑到的一些特征,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能和性能是具有重要意义的。产品特征的的提取分分为人工工定义和和自动提提取两类类。在人人工定义义方面,KKobaayasshi、IInuii和Maatsuumotto28以人工工定义方方式构建建了针对对汽车的的产品特特征,共共有2887个产产品特征征,每一一个特征征使用一一个三元元组进行行表示(),其中中Subjjectt表示产产品,AAttrribuute表表示产品品的特征征,Valuue表示示对这个个特征的的观点;姚天昉昉Error! Reference source not found.30利用用本体建建立了
44、汽汽车的产产品特征征,该系系统可在在电子公公告板、门门户网站站的各大大论坛上上挖掘并并且概括括意见持持有者对对各种汽汽车品牌牌的不同同性能指指标的评评论和意意见,并并且判断断这些意意见的褒褒贬性以以及强度度;Lii Zhhuanng31针对电电影评论论人工定定义了电影的的产品特特征,将电影影的产品品特征分分为两类类:电影影的元素素(scrreenn plaay, vissionn efffecct)与和电电影相关关的人员员(dirrecttor, scrreennwriiterr, acttor)。自动提取产产品特征征的方法法,需要要使用词词性标注注、句法法分析和和文本模模式等自自然语言言处理
45、技术术对产品品评论中中的语句句进行分分析。自动发发现产品品特征,由于不不需要大大量的标标注语料料库作为为训练集集,因此此具有较好好的通用用性,并并且可以以适用于于各种产品品,可以以比较容容易地移移植到不不同产品品上,但但它最大的的缺点就是是准确率比较低。Hu和和Liuu7先对评评论语料料进行词词性标注注,然后后把每个个句子中中的名词词和名词短语语提取出出来,利利用关联联规则挖挖掘方法法从评论论语料中中取出满满足最小小支持度度的名词词或名词词短语生生成trranssacttionn fiile。再再使用CBAA(Claassiificcatiion Bassed on Asssociiatiionss)32从从traansaactiion fille中挖挖掘出频频繁项,把把频繁项作作为产品品特征候候选集,由于关联规规则产生生的频繁繁项不是是全都是是有用的的或真正正的特征征词,需需要进行行进一步步的筛选选,首先先去掉了了三个词词以上的的名词短短语,然然后对候候选特征征集中的的候选特特征进行行修剪,通通过“紧凑修修剪”和“冗余词词修剪”移除那那些很大可能不不是产品品特征词词的名词词短语。Popesscu33