从评论语料库中挖掘产品特征词7713.docx

上传人:you****now 文档编号:68945446 上传时间:2022-12-30 格式:DOCX 页数:42 大小:993.94KB
返回 下载 相关 举报
从评论语料库中挖掘产品特征词7713.docx_第1页
第1页 / 共42页
从评论语料库中挖掘产品特征词7713.docx_第2页
第2页 / 共42页
点击查看更多>>
资源描述

《从评论语料库中挖掘产品特征词7713.docx》由会员分享,可在线阅读,更多相关《从评论语料库中挖掘产品特征词7713.docx(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、重庆科技学学院毕业设计(论论文)题 目 从评论语语料库中挖挖掘产品特特征词 院 (系) 电子信息工程学院 专业班级 计科应22006-01 学生姓名 程学伟伟 学号 200665402220 指导教师 黄永文文 职称 讲师 评阅教师_ _ 职称_ 2010年年 6 月月 10 日注 意 事事 项1. 设计(论文文)的内容容包括:1) 封面(按教教务处制定定的标准封封面格式制制作)2) 题名页3) 中文摘要(3300字左左右)、关关键词4) 外文摘要、关关键词 5) 目次页(附附件不统一一编入)6) 论文主体部部分:引言言(或绪论论)、正文文、结论、参参考文献7) 附录(对论论文支持必必要时)2

2、. 论文字数要要求:理工工类设计(论论文)正文文字数不少少于1万字字(不包括括图纸、程程序清单等等),文科科类论文正正文字数不不少于1.2万字。3. 附件包括:任务书、文文献综述、开开题报告、外外文译文、译译文原文(复复印件)。4. 文字、图表表要求:1) 文字通顺,语语言流畅,书书写字迹工工整,打印印字体及大大小符合要要求,无错错别字,不不准请他人人代写2) 工程设计类类题目的图图纸,要求求部分用尺尺规绘制,部部分用计算算机绘制,所所有图纸应应符合国家家技术标准准规范。图图表整洁,布布局合理,文文字注释必必须使用工工程字书写写,不准用用徒手画3) 毕业论文须须用A4单单面打印,论论文50页页

3、以上的双双面打印4) 图表应绘制制于无格子子的页面上上5) 软件工程类类课题应有有程序清单单,并提供供电子文档档5. 装订顺序1) 设计(论文文)2) 附件:按照照任务书、文文献综述、开开题报告、外外文译文、译译文原文(复复印件)次次序装订3) 其它重庆科技学学院本科生生毕业设计计(论文)从评论语料料库中挖掘掘产品特征征词 院(系) 电子信信息工程学学院 专业班级 计科科应20006-01 学生姓名 程学伟伟 指导教师 黄永永文 讲师师 2010年年 6月 10日学生毕业设设计(论文文)原创性性声明本人以信誉誉声明:所所呈交的毕毕业设计(论论文)是在在导师的指指导下进行行的设计(研研究)工作作

4、及取得的的成果,设设计(论文文)中引用用他(她)人人的文献、数数据、图件件、资料均均已明确标标注出,论论文中的结结论和结果果为本人独独立完成,不不包含他人人成果及为为获得重庆庆科技学院院或其它教教育机构的的学位或证证书而使用用其材料。与与我一同工工作的同志志对本设计计(研究)所所做的任何何贡献均已已在论文中中作了明确确的说明并并表示了谢谢意。毕业设计(论论文)作者者(签字): 年 月月 日重庆科技学院本科毕业生论文 中文摘要摘要 随着weeb的广泛泛应用,用用户购买和和实用产品品之后会在在web上上发表对产产品的评论论,这些评评论中包含含用户对产产品性能或或者功能等等方面持有有肯定还是是否定的

5、态态度,生产产厂商和用用户对产品品的评论的的分析可以以获得大量量有用信息息:生产厂厂商不仅可可以了解用用户对产品品目前已经经提供的性性能的评价价和产品的的不足,还还可以了解解用户的需需求,找出出用户最感感兴趣和最最希望提供供的功能,从从而改进产产品。用户户购买产品品之前可以以了解已经经购买了该该产品的用用户关于该该产品的使使用体验,了了解产品各各个方面的的性能,还还可以对同同类型的产产品按照性性能进行比比较,从而而合理的购购买产品。 产品特征征提取目的的是从众多多的用户评评论中挖掘掘出用户所所关心的产产品特征(比比如:相机机的产品特特征包括重重量、大小小、图片的的质量、电电池的使用用时间、存存

6、储容量等等;手机的的产品特征征包括制式式、重量、体体积、屏幕幕大小、摄摄像头像素素等)。由由于角度不不同及用户户通常使用用一些常识识性描述,生生产厂家所所使用的产产品功能和和不见特征征名称与用用户所表达达出来的有有很多是不不一样的,主主要对厂家家产品的规规格特征和和用户描述述特征提取取及其关系系进行了研研究。 产品评论论挖掘是从从自然语言言描述的用用户评论中中获取信息息的过程,产品特征征抽取是产产品评论挖挖掘的第11个阶段,产品特征征的好坏决决定了产品品评论挖掘掘中后续阶阶段的质量量.采用弱弱监督的学学习方法,只需要提提供少量的的产品特征征作为种子子,从这些些种子出现现的语句中中抽取文本本 模

7、式,利用文本本模式来发发现新的产产品特征.实验结果果表明,从从英文文本本中自动抽抽取产品特特征的实验验系统,取取得了较好好的效果。关键字:文文本模式抽抽取 产产品评论 特征提取取I重庆科技学院本科毕业生论文 英文摘要ABSTRRACTWith the exteensivve usse off webb useers, afteer puurchaasingg andd useeful prodductss willl bee pubblishhed iin thhe weeb coommennts oon thhe prroducct, wwhichh conntainns thhe usse

8、r ccommeents on tthe pproduuct pperfoormannce oor fuunctiionallity suchh as holdd possitivve orr neggativve atttituude, manuufactturerrs annd ussers of tthe pproduuct AAnalyysis of tthe ccommeents get a loot off useeful infoormattion: mannufacctureers ccan nnot oonly undeerstaand tthe uuserss of pro

9、dductss noww proovidees thhe evvaluaationn of perfformaance and prodduct defiiciennciess, buut allso tto unndersstandd thee neeeds oof ussers, to idenntifyy thee mosst inntereestinng annd moost uuserss wannt too proovidee thee funnctioon too impprovee thee prooductt. Beeforee thee useer caan puurcha

10、ase pproduucts alreeady purcchaseed thhe prroducct too unddersttand the userr expperieence on tthe uuse oof thhe prroducct, uunderrstannd alll asspectts off prooductt perrformmancee, buut allso tthe ssame typee of prodduct in aaccorrdancce wiith tthe pperfoormannce ccompaarisoon too be reassonabble

11、tto puurchaase pproduucts. Featture extrractiion aaims to ccommeents fromm manny ussers are conccerneed abbout the excaavatiion tto thhe usserss prooductt chaaractterissticss (suuch aas: ccamerra prroducct feeaturres iincluude wweighht, ssize, piccturee quaalityy, baatterry liife, storrage capaacity

12、y, ettc.; phonne prroducct feeaturres iincluude tthe sstanddard , weeightt, voolumee, sccreenn sizze, ccamerra piixel, etcc.). Becaause userrs tyypicaally use diffferennt peerspeectivves aand aa nummber of ccommoon-seense desccripttion of tthe pproduucts usedd by manuufactturerrs off funnctioons aan

13、d ffeatuures not seenn exppresssed iin thhe naame oof thhe usser oout oof maany iis noot thhe saame, the mainn feaaturees off thee mannufacctureers aand uuserss of the prodduct speccificcatioons ddescrribedd in featture extrractiion aand rrelattionss werre sttudieed. Prodduct reviiew mmininng iss a

14、nnaturral llanguuage desccripttion fromm thee useer coommennts iin thhe prrocesss off obttainiing tthe iinforrmatiion, prodductss feaaturee exttracttion is aa prooductt revview miniing sstagee 1, the prodduct charracteeristtics of tthe ddecission goodd or bad the prodduct reviiew mmininng inn thee q

15、uaalityy of folllow-uup phhase. Witth weeak ssuperrvisiion llearnning methhods, onlly a smalll ammountt of prodduct featturess to provvide a seeed, the stattemennt apppearrs frrom tthesee seeeds tto exxtracct thhe teext mmode, usiing tthe ttext modee to the disccoverry off neww prooductt feaaturees.

16、 TThe eexperrimenntal resuults showw thaat thhe Ennglissh teext aautommaticcallyy exttractted ffrom the prodduct charracteeristtics of tthe eexperrimenntal systtem aachieeved goodd ressultss.feaaturees. TThe eexperrimenntal resuults showw thaat thhe Ennglissh teext aautommaticcallyy exttractted ffro

17、m the prodduct charracteeristtics of tthe eexperrimenntal systtems, achhieveed goood rresullts.Keywoords: Textt pattternn exttracttion;Prodduct reviiews;The featture extrractiion33重庆科技学院本科毕业生论文 目录目录中文摘要I英文摘要II1 绪论11.1 研研究背景11.2 选选题意义11.3 从从评论语料料库中挖掘掘产品特征征词的研究究现状21.4 产产品特征词词挖掘的发发展前景31.5 汉汉语分词介介绍31.5

18、特特征词挖掘掘的相关算算法61.6 开开发环境介介绍62 产品特特征词的挖挖掘82.1问题题的提出及及相关研究究82.2评论论语料库使使用的现状状92.3 弱弱监督机器器学习方法法介绍92.4 产产品评论内内容的分析析132.5 产产品评论统统计特征的的提取132.6 模模式结构与与模式特征征集143系统设计计163.1 系系统总体设设计163.2 系系统界面设设计163.3 特特征词挖掘掘的系统设设计214 系统测测试234.1 系系统功能测测试234.2 系系统的不足足244.3 系系统的后续续工作24总结266致谢277参考文献28重庆科技学院本科毕业生论文 1绪论1 绪论1.1研究究背

19、景随着Intterneet的广泛泛应用,用用户使用产产品会通过过Web 对产品进进行评论,这这些评论中中包含用户户对产品的的各个方面面的性能持持有肯定还还是否定的的意见。产产品评论中中蕴涵了丰丰富的信息息,生产厂厂商分析产产品评论可可以了解产产品的不足足和用户实实际需求以以改进产品品,用户浏浏览产品评评论可以在在购买产品品之前更多多地了解产产品,从而而更加合理理地购买产产品。要从从大量使用用自然语言言进行描述述用户评论论获取信息息,只有通通过人工逐逐一阅读,这这是一个需需要大量时时间和精力力的过程,因因此,需要要自动化的的产品评论论挖掘来更更快地从大大量的用户户评论中获获取信息。产产品评论大大

20、多用自然然语言进行行描述,生生产厂商和和用户只有有采用人工工阅读的方方式才能从从中提取信信息,而这这是一个费费时、费力力且容易产产生错误的的过程,因因此,产生生了自动产产品评论挖挖掘的需求求。产品评评论挖掘一一般分为产产品特征提提取、主观观句定位和和用户词性性判断和挖挖掘结果显显示等4个个阶段。产产品特征提提取作为产产品评论挖挖掘的第11个阶段,目目的是从众众多的用户户评论中挖挖掘出用户户所关心的的产品特征征,从而对对实际产品品销售和售售后服务做做出正确的的评价,帮帮助决策者者和购买者者能够最大大限度的了了解现有产产品的特点点和特征。1.2选题题意义找出用户最最感兴趣和和最希望提提供的功能能,

21、从而改改进产品。用用户购买产产品之前可可以了解已已经购买了了该产品的的用户关于于该产品的的使用体验验,了解产产品各个方方面的性能能,还可以以对同类型型的产品按按照性能进进行比较,从从而合理的的购买产品品。产品特征提提取目的是是从众多的的用户评论论中挖掘出出用户所关关心的产品品特征(比比如:相机机的产品特特征包括重重量、大小小、图片的的质量、电电池的使用用时间、存存储容量等等;手机的的产品特征征包括制式式、重量、体体积、屏幕幕大小、摄摄像头像素素等)。由由于角度不不同及用户户通常使用用一些常识识性描述,生生产厂家所所使用的产产品功能和和不见特征征名称与用用户所表达达出来的有有很多是不不一样的,主

22、主要对厂家家产品的规规格特征和和用户描述述特征提取取及其关系系进行了研研究。抽取出产品品特征之后后就着重于于研究用户户对某个产产品特征的的看法,即即在一个表表达了用户户看法的主主管句中提提取出产品品特征、极极性词汇及及程度,在在现有研究究的处理过过程中,对对产品特征征并未进行行归类处理理,所有的的特征地位位都是等同同的,故本本来处于上上下位的特特征可能放放在不同的的表示中,这这样就造成成用户看到到的是没有有主次之分分的特征,同同时有些本本是同一特特征的不同同表示方法法,却归纳纳到不同的的特征中去去,这种情情况下虽然然对某些特特征进行了了评价,但但由于使用用哪个不同同的词语作作为产品特特征,结果

23、果对同一部部件的评价价放在了不不同的展示示中,这样样展现给用用户的是很很多没有主主次之分特特征堆积。摩托罗拉AA18900(MOTTO A11890)天翼3GG双网双待待手机的评评论如图11.1所示示:图 1.11摩托罗拉拉A18990(MOOTO AA18900)天翼33G双网双双待手机评评论在这种情况况下,对产产品特征之之间的层次次关系合理理且准确处处理的要求求,就显得得非常急迫迫,本课题题应运时势势,对产品品特征进行行分层次的的特征抽取取。1.3 从从评论语料料库中挖掘掘产品特征征词的研究究现状产品评论挖挖掘需要了了解用户对对产品的哪哪些功能、性性能进行了了评价,因因此需要从从产品评论论

24、语句中提提取表达了了用户评价价的对象产品特特征。产品品特征提取取的目的是是发现用户户在产品评评论中对哪哪些产品特特征表达了了自己的看看法。用户户在产品评评论中对特特征的描述述是一个开开放性的问问题,可能能在产品评评论中发表表厂家根本本没有考虑虑到的一些些性能,因因此挖掘出出产品评论论中所提及及的特征,了了解用户对对这类产品品最关心的的功能及性性能是很重重要的。由由于同类产产品的特征征基本一致致,故可以以利用产品品特征对同同类产品所所获得的评评价进行对对比。产品特征的的提取分为为人工定义义和自动提提取两类。在在人工定义义方面,KKobayyashii、Inuui 和 Matssumotto 以人

25、人工定义方方式提出了了针对汽车车的产品特特征,建立立了 2887 个产产品特征,每每一个特征征使用一个个三元组进进行表示(),其其中subbjectt 表示产产品,atttribbute 表示产品品的特征,vvaluee 表示对对这个特征征的观点;姚天昉利利用本体建建立了汽车车的产品特特征,该系系统可在电电子公告板板、门户网网站的各大大论坛上挖挖掘并且概概括意见持持有者对各各种汽车品品牌的不同同性能指标标的评论和和意见,并并且判断这这些意见的的褒贬性以以及强度;Li ZZhuanng 针对对电影人工工定义电影影的产品特特征,将电电影的产品品特征分为为两类:电电影的元素素(scrreenppla

26、y, vission effeect)和和与和电影影相关的人人员(diirecttor, screeenwrriterr, acctor)。人工定定义产品特特征的方法法需要每一一个领域的的产品都有有该领域的的专家参与与,因此不不具有移植植性。同时时人工定义义的产品特特征是静态态的,当产产品的功能能发生改变变后(比如如手机加入入了新的功功能),只只有重新召召集领域专专家才能将将新特征加加入该类产产品的产品品特征集合合中。而且且人工定义义的方法需需要有人工工标注的语语料作为训训练集,不不同种类的的产品就必必须要标注注不同的语语料,这就就相当耗费费时间,也也无法适用用所有种类类的产品。1.4产品品特

27、征词挖挖掘的发展展前景产品评论挖挖掘在国内内外属于新新的研究方方向,但是是这方面研研究的意义义非常重大大,它作为为自然语言言处理领域域的一个重重要应用,涉涉及到了大大量理论和和应用技术术,它对电电子商务的的发展有着着直接的促促进作用。本本文主要研研究了产品品评论挖掘掘中的产品品特征词的的抽取以。产产品评论挖挖掘是一个个充满机遇遇和挑战的的研究领域域,尽管取取得了一些些研究成果果,但是许许多问题还还有待进一一步的探索索和研究。1.5 汉汉语分词介介绍目前, 汉汉语自动分分词的研究究重心主要要集中在对对传统文本本的有效切切分上。在在计算机科科学、情报报信息和语语言文字研研究三个领领域的学者者专家们

28、的的共同努力力之下,传传统文本的的有效切分分已经取得得了重大进进展。汉语词的规规范研究。由由于汉语词词的规范是是汉语自动动分词的基基础。没有有统一和明明确的汉语语词的定义义,汉有规范范的汉语分分词词表,汉语自动动分词就无无从谈起。在在汉语语言言学家和计计算机中文文信息处理理研究专家家们的共同同努力之下下,目前,我国汉语语词的规范范研究和汉汉语分词规规范词表的的制定已经经有了较大大突破。信信息处理用用现代汉语语分词词表表的制定定及不断完完善, 说说明了我国国在汉语自自动分词词词表方面取取得了重大大研究成果果, 这为为汉语自动动分词的研研究铺平了了道路。汉语词自动动切分算法法。分词算算法研究是是汉

29、语自动动分词的重重点和难点点,每一次次分词算法法上的突破破都会使汉汉语自动分分词的速度度和精度有有较大提高高。据不完完全统计, 目前,在汉语自自动分词方方法和算法法研究中,已经出现现了数十种种分词方法法和算法。仅仅80 年年代以来见见诸报端的的自动分词词方法和算算法归纳起起来就有:最大匹配配法、逆向向最大匹配配法、逐词词遍历法、设设立切分标标志法、最最佳匹配法法、有穷多多层次列举举法、二次次扫描法、高高频优先分分词法、基基于期望的的分词法、联联想回溯法法、双向扫扫描法、邻邻接约束法法、扩充转转移网络分分词法、语语境相关法法、全自动动词典切词词法、基于于规则的分分词法、多多遍扫描联联想法、部部件

30、词典法法、链接表表法、最少少分词词频频选择法、专专家系统分分词法、基基于神经网网络的分词词方法、特特征词库法法、EM 算法、演演化算法、直直接匹配法法和后缀匹匹配法、二二分法、基基于词形的的分词算法法、MM 分词算法法、改进的的MM 分分词算法、RRMM 算算法和DMMM 算法法等上百种种。传统汉汉语分词要要获得新的的突破,只能在分分词算法上上做文章,必须在现现有的分词词算法和方方法的基础础找到一种种新的分词词算法,这是今后后汉语自动动分词努力力的重要方方向之一。汉语词自动动切分歧义义处理。汉汉语自动分分词的主要要困难是歧歧义切分,而歧义在在自动分词词普遍存在在。随着分分词研究的的突破,分词歧

31、义义处理研究究也取得了了重大进展展。以前的的消歧方法法大体可分分为两类:规则方法法与统计方方法。由于于自动分词词中存在三三种歧义类类型,不同类型型的歧义,其产生的的根源和消消除的方法法各不相同同。因此,应针对不不同的歧义义类型采取取不同的解解决方法:对于第一一类歧义,由于他们们本身就是是汉语言中中的歧义问问题,解决这类类歧义需要要依靠上、下下文语义信信息,即增加语语义、语用用知识的处处理。这无无异对自动动分词的效效率有很大大的影响(时间上和和空间上),而且实实现起来比比较困难。若若是在词处处理的相应应阶段,结合对分分词阶段未未解决的歧歧义字段进进行处理,则会起到到事半功倍倍的效果。统统计表明,

32、第一类歧歧义字段只只占整个歧歧义字段总总数的1/30 以以下,因此此不必在分分词阶段花花费巨大的的开销来处处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典;二是增加临时词典。此外,还可以人工干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。汉语词自动动切分应用用研

33、究。目目前,汉语自动动分词主要要在信息检检索、自动动标引、自自动文摘、机机器翻译、语语言文字研研究、搜索索引擎研究究、自然语语言理解和和中文信息息处理等方方面的应用用取得了可可喜的成绩绩。随着汉汉语自动分分词技术的的进展,这一研究究成果将会会被应用到到广泛的研研究领域,如词频统统计、内容容分析、概概念分析、认认知心理学学和汉语语语言学等方方面。汉语自动分分词是中文文信息处理理的“瓶颈”问题, 它的最终终解决依赖赖于汉语的的分词结构构、句法结结构、语义义等语言知知识的深入入系统的研研究;依赖于对对语言与思思维的本质质的揭示;同时,在很大程程度上还依依赖于神经经网络、专专家系统、知知识工程等等人工

34、智能能技术的研研究进展。计计算机技术术是汉语自自动分词的的技术基础础,计算机技技术发展的的每一次巨巨大飞跃都都是汉语自自动分词的的福音。因因为自然语语言理解既既是人工智智能研究领领域需要解解决的重大大课题,也是汉语语自动分词词研究的重重要内容。因因此,汉语语自动分词词研究的发发展同时也也寄希望于于人工智能能技术的突突破。人工智能是是对信息进进行智能化化处理的一一种模式,主要有两两种处理方方式:一种是基基于心理学学的符号处处理方法,模拟人脑脑的功能,像专家系系统即是希希望模拟人人脑的功能能,构造推理理网络,经过符号号转换,从而可以以进行解释释性处理。另另一种是基基于生理学学的模拟方方法,神经网络

35、络旨在模拟拟人脑的神神经系统机机构的运作作机制来实实现一定的的功能。以以上两种思思路也是近近年来人工工智能领域域研究的热热点问题,应用到分分词方法上上, 于是是产生了专专家系统分分词法和神神经网络分分词法。目前,人工工智能技术术的重点研研究领域主主要是专家家系统、神神经网络技技术和生物物芯片技术术。从人工工智能的发发展和汉语语自动分词词的要求出出发,比较理想想的自动分分词系统应应该综合词词法、句法法和语义信信息,而用计算算机对语义义、语法进进行自动分分析尚处在在研究阶段段。因而,已经推出出的汉语分分词与标引引系统只能能采用以机机械分词为为主, 辅辅之以能部部分反映词词法、句法法和语义规规则的改

36、进进算法。但但仍难以解解决复杂的的汉语组词词关系。因因此,今后后应注重汉汉语句法和和语义的自自动分析研研究,并将其应应用到汉语语自动分词词领域。应应引入知识识分词的技技术与方法法,采用知识识分词语义义分析法进进行自动分分词系统的的研究。从从目前已经经公开的各各种分词方方法看,性能比较较优异且具具发展前景景的当属基基于符号和和启发式推推理的专家家系统和基基于数值和和算法的神神经网络技技术。神经经网络具有有联想、容容错、记忆忆、自适应应、自学习习和处理复复杂多模式式等优点,不足的是是网络连接接模型表达达复杂,训练过程程较长,不能对自自身的推理理方法进行行解释,对未在训训练样本中中出现过的的新的词汇

37、汇不能给予予正确切分分;专家系系统具有显显式的知识识表达形式式, 知识识容易维护护,能对推推理行为进进行解释,并可利用用深层知识识来切分歧歧义字段;缺点是不不能从经验验中学习,当知识库库庞大时难难以维护,在进行多多歧义字段段切分时耗耗时较长,同时在知知识表示、知知识获取和和知识验证证等方面存存在一些问问题。因而而,把神经网网络技术与与专家系统统结合起来来用于汉语语自动分词词与标引系系统将是该该领域的发发展趋向。1.5 特特征词挖掘掘的相关算算法 HHu 和 Liu 利用关联联规则挖掘掘的方法来来抽取产品品的特征,对对于高频特特征词首先使用关关联规则寻寻找频繁项项,裁剪低低于支持度度的频繁项项,

38、然后利利用与形容容词相邻近的特性性寻找低频频特征词。基基于“支持度”算法对产产品特征词词进行抽取取时,分为为三个步骤骤:对评论论文本进行行词性标注注;寻找频频繁特征词词;对抽取取出来的频频繁特征词词进行修剪剪。所谓“支持度”即关联性性规则的一一个关键指指标,它对对频繁项的的形成有很很大的影响响,它是用用于描述频频繁项出现现频度的指指标,最低低支持度(MMinimmum_SSuppoort)意意为只对达达到指定频频度的项集集感兴趣,如如果指定最最低支持度度为小于11的值则关关联规则认认为研究者者们只对频频度达到指指定百分比比的项集感感兴趣。最最大支持度度(Maxximumm_Suppportt)

39、则指定定了项集出出现频度的的上限,超超过上限的的项集也不不是研究者者们感兴趣趣的。Huu 和 LLiu 的的用户评论论抽取算法法最后利用用极性词与与特征词的的共现抽取取低频特征征词。使用用极性词识识别低频特特征词语带带来这样一一个问题:它也能将将与给定产产品不相关关的名词或或名词短语语找到。这这是因为人人们可以使使用形容词词描述很多多主体,既既有我们感感兴趣的,也也有不相关关的。在MM.Gammon等人人的基于自自由文本用用户观点可可视化原型型系统中,介介绍了使用用tf/iidf的方方法来识别别分词或者者分词组合合是否是真真正的特征征词,如果果分词或者者分词的组组合不是真真正的词语语那么将在在

40、语料中很很少或者几几乎不出现现。E.RRilofff等人通通过已知的的语法模型型去抽取特特殊的表达达模式,主主要考虑的的模式有:+、+、+,再通通过这些模模式去发现现对应的主主语、宾语语、名词或或名词短语语作为特征征词。1.6开发发环境介绍绍 本系系统是用CC#编写,CC#是微软软公司发布布的一种面面向对象的的、运行于于.NETT Fraamewoork之上上的高级程程序设计语语言。并定定于在微软软职业开发发者论坛(PDC)上登台亮亮相。C#是微软公公司研究员员Andeers HHejlssbergg的最新成成果。C#看起来与与Javaa有着惊人人的相似;它包括了了诸如单一一继承、接接口、与J

41、Java几几乎同样的的语法和编编译成中间间代码再运运行的过程程。但是CC#与Jaava有着着明显的不不同,它借借鉴了Deelphii的一个特特点,与CCOM(组组件对象模模型)是直直接集成的的,而且它它是微软公公司.NEET wiindowws网络框框架的主角角。C#(读做做 C sharrp,中中文译音暂暂时没有.专业人士士一般读C shharp,现在很很多非专业业一般读C井。C#是一种种安全的、稳稳定的、简简单的、优优雅的,由由C和C+衍生出出来的面向向对象的编编程语言。它它在继承CC和C+强大功能能的同时去去掉了一些些它们的复复杂特性(例例如没有宏宏和模版,不不允许多重重继承)。CC#综

42、合了了VB简单单的可视化化操作和CC+的高高运行效率率,以其强强大的操作作能力、优优雅的语法法风格、创创新的语言言特性和便便捷的面向向组件编程程的支持成成为.NEET开发的的首选语言言。并且C#成成为ECMMA与ISSO标准规规范。C#看似基于于C+写写成,但又又融入其它它语言如DDelphhi、Jaava、VVB等。微软C#语语言定义主主要是从CC和C+继承而来来的,而且且语言中的的许多元素素也反映了了这一点。C#在设设计者从CC+继承承的可选选选项方面比比Javaa要广泛一一些(比如如说strruts),它还增增加了自己己新的特点点(比方说说源代码版版本定义),但它还还太不成熟熟,不可能能

43、挤垮Jaava.CC#还需要要进化成一一种开发者者能够接受受和采用的的语言。而微软当当前为它的的这种新语语言大造声声势也是值值得注意的的,目前大家家的反应是是:这是对JJava的的反击。C#更像JJava一一些,虽然然微软在这这个问题上上保持沉默默,这也是意意料中的事事情,我觉觉得,因为为Javaa近来很成成功而使用用Javaa的公司都都报告说它它们在生产产效率上比比C+获获得了提高高。Java所所带来的巨巨大影响和和大家对它它的广泛接接受已经由由工作于这这种语言和和平台之上上的程序员员数量明显显的说明了了(估计世世界范围内内共有两百百五十万程程序员使用用Javaa)。由这这种语言写写成的应用

44、用程序的数数量是令人人惊讶的并并已经渗透透了每一个个级别的计计算,包括括无线计算算和移动电电话(比如如日本发明明的Javva电话)。C#能能够在用户户领域获得得这样的礼礼遇吗?我我们必须等等待并观望望,就像已已经由SSSI公司的的CEO和和主席Kaalpatthi SS.Surresh指指出来的那那样,“我发现所所有这些都都是渐进的的。如果C#不存在,我们总能能回到Jaava或CC和C+这些都不不完全是新新技术,它们在更更大的意义义上来说只只是大公司司制造的市市场噱头,我们必须须给他们时时间安顿下下来看看这这些是不是是真的对IIT工业有有什么影响响”重庆科技学院本科毕业生论文 2产品特征词的挖

45、掘2 产品特特征词的挖挖掘自动识别产产品评论中中的产品特特征对产品品评论的挖挖掘是一个个难点,因因为相对普普通的文本本而言,产产品评论是是用户随意意的表述,很很少有完整整的主谓宾宾结构,却却有不计其其数的同音音错别字、简简略语、拼拼音、英语语和中文混混杂。目前前对产品评评论进行挖挖掘的研究究很多都是是基于英文文的,基于于中文的产产品评论挖挖掘仅仅是是刚起步,还还有很多关关键性的问问题需要研研究。2.1问题题的提出及及相关研究究 在在产品评论论中,用户户为了能具具体表达意意见,可能能会将产品品的部件、功功能、性能及服务分分成多个考考虑的对象象来发表相相应的观点点,这些被被评价的对对象就是产产品特征,因此产产品特征与与观点在产产品评论中中是具有对对应关系的的,特征观观点对(ff,o)就就是产品评评论中产品品特征(ffeatuure)与与对应的观观点(oppinioon)所组组成的单位位。近年来来,产品特特征和观点点的挖掘已已经有了一一些研究,这这些研究中中对产品特特征和观点点词的提取取分为人工工定义和自自动提取两两类。在人人工定义方方面,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁