从评论语料库中挖掘产品特征词论文pup.docx

上传人:you****now 文档编号:48146866 上传时间:2022-10-05 格式:DOCX 页数:57 大小:1,008.89KB
返回 下载 相关 举报
从评论语料库中挖掘产品特征词论文pup.docx_第1页
第1页 / 共57页
从评论语料库中挖掘产品特征词论文pup.docx_第2页
第2页 / 共57页
点击查看更多>>
资源描述

《从评论语料库中挖掘产品特征词论文pup.docx》由会员分享,可在线阅读,更多相关《从评论语料库中挖掘产品特征词论文pup.docx(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、重庆科技学学院毕业设计(论论文)题 目 从评评论语料料库中挖挖掘产品品特征词词 院 (系) 电子信息工程学院 专业班级 计科应应20006-001 学生姓名 程程学伟 学号号 2000655402220 指导教师 黄黄永文 职称称 讲讲师 评阅教师_ _ 职称称_ 2010年年 6 月 10 日日注 意 事事 项1. 设计(论文文)的内内容包括括:1) 封面(按教教务处制制定的标标准封面面格式制制作)2) 题名页3) 中文摘要(3300字字左右)、关关键词4) 外文摘要、关关键词 5) 目次页(附附件不统统一编入入)6) 论文主体部部分:引引言(或或绪论)、正正文、结结论、参参考文献献7) 附

2、录(对论论文支持持必要时时)2. 论文字数要要求:理理工类设设计(论论文)正正文字数数不少于于1万字字(不包包括图纸纸、程序序清单等等),文文科类论论文正文文字数不不少于11.2万万字。3. 附件包括:任务书书、文献献综述、开开题报告告、外文文译文、译译文原文文(复印印件)。4. 文字、图表表要求:1) 文字通顺,语语言流畅畅,书写写字迹工工整,打打印字体体及大小小符合要要求,无无错别字字,不准准请他人人代写2) 工程设计类类题目的的图纸,要要求部分分用尺规规绘制,部部分用计计算机绘绘制,所所有图纸纸应符合合国家技技术标准准规范。图图表整洁洁,布局局合理,文文字注释释必须使使用工程程字书写写,

3、不准准用徒手手画3) 毕业论文须须用A44单面打打印,论论文500页以上上的双面面打印4) 图表应绘制制于无格格子的页页面上5) 软件工程类类课题应应有程序序清单,并并提供电电子文档档5. 装订顺序1) 设计(论文文)2) 附件:按照照任务书书、文献献综述、开开题报告告、外文文译文、译译文原文文(复印印件)次次序装订订3) 其它重庆科技学学院本科科生毕业业设计(论论文)从评论语料料库中挖挖掘产品品特征词词 院(系) 电子子信息工工程学院院 专业班级 计计科应220066-01 学生姓名 程程学伟 指导教师 黄黄永文 讲师 2010年年 6月月 10日学生毕业设设计(论论文)原原创性声声明本人以

4、信誉誉声明:所呈交交的毕业业设计(论论文)是是在导师师的指导导下进行行的设计计(研究究)工作作及取得得的成果果,设计计(论文文)中引引用他(她她)人的的文献、数数据、图图件、资资料均已已明确标标注出,论论文中的的结论和和结果为为本人独独立完成成,不包包含他人人成果及及为获得得重庆科科技学院院或其它它教育机机构的学学位或证证书而使使用其材材料。与与我一同同工作的的同志对对本设计计(研究究)所做做的任何何贡献均均已在论论文中作作了明确确的说明明并表示示了谢意意。毕业设计(论论文)作作者(签签字): 年 月 日重庆科技学院本科毕业生论文 中文摘要摘要 随着wweb的的广泛应应用,用用户购买买和实用用

5、产品之之后会在在webb上发表表对产品品的评论论,这些些评论中中包含用用户对产产品性能能或者功功能等方方面持有有肯定还还是否定定的态度度,生产产厂商和和用户对对产品的的评论的的分析可可以获得得大量有有用信息息:生产产厂商不不仅可以以了解用用户对产产品目前前已经提提供的性性能的评评价和产产品的不不足,还还可以了了解用户户的需求求,找出出用户最最感兴趣趣和最希希望提供供的功能能,从而而改进产产品。用用户购买买产品之之前可以以了解已已经购买买了该产产品的用用户关于于该产品品的使用用体验,了了解产品品各个方方面的性性能,还还可以对对同类型型的产品品按照性性能进行行比较,从从而合理理的购买买产品。 产品

6、特特征提取取目的是是从众多多的用户户评论中中挖掘出出用户所所关心的的产品特特征(比比如:相相机的产产品特征征包括重重量、大大小、图图片的质质量、电电池的使使用时间间、存储储容量等等;手机机的产品品特征包包括制式式、重量量、体积积、屏幕幕大小、摄摄像头像像素等)。由由于角度度不同及及用户通通常使用用一些常常识性描描述,生生产厂家家所使用用的产品品功能和和不见特特征名称称与用户户所表达达出来的的有很多多是不一一样的,主主要对厂厂家产品品的规格格特征和和用户描描述特征征提取及及其关系系进行了了研究。 产品评评论挖掘掘是从自自然语言言描述的的用户评评论中获获取信息息的过程程,产品品特征抽抽取是产产品评

7、论论挖掘的的第1个个阶段,产品特特征的好好坏决定定了产品品评论挖挖掘中后后续阶段段的质量量.采用用弱监督督的学习习方法,只需要要提供少少量的产产品特征征作为种种子,从从这些种种子出现现的语句句中抽取取文本 模式,利用文文本模式式来发现现新的产产品特征征.实验验结果表表明,从从英文文文本中自自动抽取取产品特特征的实实验系统统,取得得了较好好的效果果。关键字:文文本模式式抽取 产品品评论 特征提提取II重庆科技学院本科毕业生论文 英文摘要ABSTRRACTTWith thee exxtennsivve uuse of webb usserss, aafteer ppurcchassingg ann

8、d uusefful prooduccts willl bbe ppubllishhed in thee weeb ccommmentts oon tthe prooducct, whiich conntaiins thee usser commmennts on thee prroduuct perrforrmannce or funnctiionaalitty ssuchh ass hoold possitiive or neggatiive atttituude, maanuffacttureers andd usserss off thhe pprodductt Annalyysiss

9、 off thhe ccommmentts gget a llot of useefull innforrmattionn: mmanuufaccturrerss caan nnot onlly uundeersttandd thhe uuserrs oof pprodductts nnow prooviddes thee evvaluuatiion of perrforrmannce andd prroduuct defficiiencciess, bbut alsso tto uundeersttandd thhe nneedds oof uuserrs, to ideentiify th

10、ee moost inttereestiing andd moost useers wannt tto pprovvidee thhe ffuncctioon tto iimprrovee thhe pprodductt. BBefoore thee usser cann puurchhasee prroduuctss allreaady purrchaasedd thhe pprodductt too unnderrstaand thee usser expperiiencce oon tthe usee off thhe pprodductt, uundeersttandd alll aa

11、speectss off prroduuct perrforrmannce, buut aalsoo thhe ssamee tyype of prooducct iin aaccoordaancee wiith thee peerfoormaancee coompaarisson to be reaasonnablle tto ppurcchasse pprodductts. Feaaturre eextrracttionn aiims to commmennts froom mmanyy usserss arre cconccernned aboout thee exxcavvatiion

12、 to thee ussers pprodductt chharaacteerissticcs (succh aas: cammeraa prroduuct feaaturres inccludde wweigght, siize, piictuure quaalitty, battterry llifee, sstorragee caapaccityy, eetc.; pphonne pprodductt feeatuuress inncluude thee sttanddardd , weiightt, vvoluume, sccreeen ssizee, ccameera pixxel,

13、 ettc.). BBecaausee usserss tyypiccallly uuse diffferrentt peersppecttivees aand a nnumbber of commmonn-seensee deescrripttionn off thhe pprodductts uusedd byy maanuffacttureers of funnctiionss annd ffeatturees nnot seeen eexprresssed in thee naame of thee usser outt off maany is nott thhe ssamee, t

14、the maiin ffeatturees oof tthe mannufaactuurerrs aand useers of thee prroduuct speecifficaatioons desscriibedd inn feeatuure exttracctioon aand rellatiionss weere stuudieed. Prooducct rreviiew minningg iss a natturaal llangguagge ddesccripptioon ffromm thhe uuserr coommeentss inn thhe pproccesss off

15、 obbtaiininng tthe infformmatiion, prroduuctss feeatuure exttracctioon iis aa prroduuct revvieww miininng sstagge 11, tthe prooducct ccharractteriistiics of thee deecissionn goood or badd thhe pprodductt reevieew mminiing in thee quualiity of follloww-upp phhasee. WWithh weeak suppervvisiion leaarni

16、ing metthodds, onlly aa smmalll ammounnt oof pprodductt feeatuuress too prroviide a sseedd, tthe staatemmentt apppeaars froom tthesse sseedds tto eextrractt thhe ttextt moode, ussingg thhe ttextt moode to thee diiscooverry oof nnew prooducct ffeatturees. Thee exxperrimeentaal rresuultss shhow thaat

17、tthe Engglissh ttextt auutommatiicallly exttracctedd frrom thee prroduuct chaaraccterristticss off thhe eexpeerimmenttal sysstemm acchieevedd goood ressultts.ffeatturees. Thee exxperrimeentaal rresuultss shhow thaat tthe Engglissh ttextt auutommatiicallly exttracctedd frrom thee prroduuct chaaraccte

18、rristticss off thhe eexpeerimmenttal sysstemms, achhievved goood rresuultss.Keywoordss: Texxt ppattternn exxtraactiion;Prooducct rreviiewss;Thee feeatuure exttracctioon44重庆科技学院本科毕业生论文 目录目录中文摘要I英文摘要II1 绪论11.1 研研究背景景11.2 选选题意义义11.3 从从评论语语料库中中挖掘产产品特征征词的研研究现状状21.4 产产品特征征词挖掘掘的发展展前景31.5 汉汉语分词词介绍31.5 特特征词挖

19、挖掘的相相关算法法61.6 开开发环境境介绍62 产品特特征词的的挖掘82.1问题题的提出出及相关关研究82.2评论论语料库库使用的的现状92.3 弱弱监督机机器学习习方法介介绍92.4 产产品评论论内容的的分析132.5 产产品评论论统计特特征的提提取132.6 模模式结构构与模式式特征集集143系统设计计163.1 系系统总体体设计163.2 系系统界面面设计163.3 特特征词挖挖掘的系系统设计计214 系统测测试234.1 系系统功能能测试234.2 系系统的不不足244.3 系系统的后后续工作作24总结266致谢277参考文献28重庆科技学院本科毕业生论文 1绪论1 绪论1.1研究究

20、背景随着Intternnet的的广泛应应用,用用户使用用产品会会通过WWeb 对产品品进行评评论,这这些评论论中包含含用户对对产品的的各个方方面的性性能持有有肯定还还是否定定的意见见。产品品评论中中蕴涵了了丰富的的信息,生生产厂商商分析产产品评论论可以了了解产品品的不足足和用户户实际需需求以改改进产品品,用户户浏览产产品评论论可以在在购买产产品之前前更多地地了解产产品,从从而更加加合理地地购买产产品。要要从大量量使用自自然语言言进行描描述用户户评论获获取信息息,只有有通过人人工逐一一阅读,这这是一个个需要大大量时间间和精力力的过程程,因此此,需要要自动化化的产品品评论挖挖掘来更更快地从从大量的

21、的用户评评论中获获取信息息。产品品评论大大多用自自然语言言进行描描述,生生产厂商商和用户户只有采采用人工工阅读的的方式才才能从中中提取信信息,而而这是一一个费时时、费力力且容易易产生错错误的过过程,因因此,产产生了自自动产品品评论挖挖掘的需需求。产产品评论论挖掘一一般分为为产品特特征提取取、主观观句定位位和用户户词性判判断和挖挖掘结果果显示等等4个阶阶段。产产品特征征提取作作为产品品评论挖挖掘的第第1个阶阶段,目目的是从从众多的的用户评评论中挖挖掘出用用户所关关心的产产品特征征,从而而对实际际产品销销售和售售后服务务做出正正确的评评价,帮帮助决策策者和购购买者能能够最大大限度的的了解现现有产品

22、品的特点点和特征征。1.2选题题意义找出用户最最感兴趣趣和最希希望提供供的功能能,从而而改进产产品。用用户购买买产品之之前可以以了解已已经购买买了该产产品的用用户关于于该产品品的使用用体验,了了解产品品各个方方面的性性能,还还可以对对同类型型的产品品按照性性能进行行比较,从从而合理理的购买买产品。产品特征提提取目的的是从众众多的用用户评论论中挖掘掘出用户户所关心心的产品品特征(比比如:相相机的产产品特征征包括重重量、大大小、图图片的质质量、电电池的使使用时间间、存储储容量等等;手机机的产品品特征包包括制式式、重量量、体积积、屏幕幕大小、摄摄像头像像素等)。由由于角度度不同及及用户通通常使用用一

23、些常常识性描描述,生生产厂家家所使用用的产品品功能和和不见特特征名称称与用户户所表达达出来的的有很多多是不一一样的,主主要对厂厂家产品品的规格格特征和和用户描描述特征征提取及及其关系系进行了了研究。抽取出产品品特征之之后就着着重于研研究用户户对某个个产品特特征的看看法,即即在一个个表达了了用户看看法的主主管句中中提取出出产品特特征、极极性词汇汇及程度度,在现现有研究究的处理理过程中中,对产产品特征征并未进进行归类类处理,所所有的特特征地位位都是等等同的,故故本来处处于上下下位的特特征可能能放在不不同的表表示中,这这样就造造成用户户看到的的是没有有主次之之分的特特征,同同时有些些本是同同一特征征

24、的不同同表示方方法,却却归纳到到不同的的特征中中去,这这种情况况下虽然然对某些些特征进进行了评评价,但但由于使使用哪个个不同的的词语作作为产品品特征,结结果对同同一部件件的评价价放在了了不同的的展示中中,这样样展现给给用户的的是很多多没有主主次之分分特征堆堆积。摩托罗拉AA18990(MMOTOO A118900)天翼翼3G双网网双待手手机的评评论如图图1.11所示:图 1.11摩托罗罗拉A118900(MOOTO A18890)天翼33G双网网双待手手机评论论在这种情况况下,对对产品特特征之间间的层次次关系合合理且准准确处理理的要求求,就显显得非常常急迫,本本课题应应运时势势,对产产品特征征

25、进行分分层次的的特征抽抽取。1.3 从从评论语语料库中中挖掘产产品特征征词的研研究现状状产品评论挖挖掘需要要了解用用户对产产品的哪哪些功能能、性能能进行了了评价,因因此需要要从产品品评论语语句中提提取表达达了用户户评价的的对象产品品特征。产产品特征征提取的的目的是是发现用用户在产产品评论论中对哪哪些产品品特征表表达了自自己的看看法。用用户在产产品评论论中对特特征的描描述是一一个开放放性的问问题,可可能在产产品评论论中发表表厂家根根本没有有考虑到到的一些些性能,因因此挖掘掘出产品品评论中中所提及及的特征征,了解解用户对对这类产产品最关关心的功功能及性性能是很很重要的的。由于于同类产产品的特特征基

26、本本一致,故故可以利利用产品品特征对对同类产产品所获获得的评评价进行行对比。产品特征的的提取分分为人工工定义和和自动提提取两类类。在人人工定义义方面,KKobaayasshi、IInuii 和 Mattsummotoo 以人人工定义义方式提提出了针针对汽车车的产品品特征,建建立了 2877 个产产品特征征,每一一个特征征使用一一个三元元组进行行表示(),其中中subbjecct 表表示产品品,atttriibutte 表表示产品品的特征征,vaaluee 表示示对这个个特征的的观点;姚天昉昉利用本本体建立立了汽车车的产品品特征,该该系统可可在电子子公告板板、门户户网站的的各大论论坛上挖挖掘并且

27、且概括意意见持有有者对各各种汽车车品牌的的不同性性能指标标的评论论和意见见,并且且判断这这些意见见的褒贬贬性以及及强度;Li Zhuuangg 针对对电影人人工定义义电影的的产品特特征,将将电影的的产品特特征分为为两类:电影的的元素(scrreennplaay, vissionn efffecct)和和与和电电影相关关的人员员(diirecctorr, sscreeenwwritter, acctorr)。人人工定义义产品特特征的方方法需要要每一个个领域的的产品都都有该领领域的专专家参与与,因此此不具有有移植性性。同时时人工定定义的产产品特征征是静态态的,当当产品的的功能发发生改变变后(比比如

28、手机机加入了了新的功功能),只只有重新新召集领领域专家家才能将将新特征征加入该该类产品品的产品品特征集集合中。而而且人工工定义的的方法需需要有人人工标注注的语料料作为训训练集,不不同种类类的产品品就必须须要标注注不同的的语料,这这就相当当耗费时时间,也也无法适适用所有有种类的的产品。1.4产品品特征词词挖掘的的发展前前景产品评论挖挖掘在国国内外属属于新的的研究方方向,但但是这方方面研究究的意义义非常重重大,它它作为自自然语言言处理领领域的一一个重要要应用,涉涉及到了了大量理理论和应应用技术术,它对对电子商商务的发发展有着着直接的的促进作作用。本本文主要要研究了了产品评评论挖掘掘中的产产品特征征

29、词的抽抽取以。产产品评论论挖掘是是一个充充满机遇遇和挑战战的研究究领域,尽尽管取得得了一些些研究成成果,但但是许多多问题还还有待进进一步的的探索和和研究。1.5 汉汉语分词词介绍目前, 汉汉语自动动分词的的研究重重心主要要集中在在对传统统文本的的有效切切分上。在在计算机机科学、情情报信息息和语言言文字研研究三个个领域的的学者专专家们的的共同努努力之下下,传统统文本的的有效切切分已经经取得了了重大进进展。汉语词的规规范研究究。由于于汉语词词的规范范是汉语语自动分分词的基基础。没没有统一一和明确确的汉语语词的定定义,汉有规规范的汉汉语分词词词表,汉语自自动分词词就无从从谈起。在在汉语语语言学家家和

30、计算算机中文文信息处处理研究究专家们们的共同同努力之之下,目前,我国汉汉语词的的规范研研究和汉汉语分词词规范词词表的制制定已经经有了较较大突破破。信信息处理理用现代代汉语分分词词表表的制制定及不不断完善善, 说说明了我我国在汉汉语自动动分词词词表方面面取得了了重大研研究成果果, 这这为汉语语自动分分词的研研究铺平平了道路路。汉语词自动动切分算算法。分分词算法法研究是是汉语自自动分词词的重点点和难点点,每一一次分词词算法上上的突破破都会使使汉语自自动分词词的速度度和精度度有较大大提高。据不完全统计, 目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。仅80 年代以来见诸报端的

31、自动分词方法和算法归纳起来就有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM 算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM 分词算法、改进的MM 分词算法、RMM 算法和DMM 算法等上百种。传统汉语分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和

32、方法的基础找到一种新的分词算法,这是今后汉语自动分词努力的重要方向之一。汉语词自动动切分歧歧义处理理。汉语语自动分分词的主主要困难难是歧义义切分,而歧义义在自动动分词普普遍存在在。随着着分词研研究的突突破,分词歧歧义处理理研究也也取得了了重大进进展。以以前的消消歧方法法大体可可分为两两类:规则方方法与统统计方法法。由于于自动分分词中存存在三种种歧义类类型,不同类类型的歧歧义,其产生生的根源源和消除除的方法法各不相相同。因因此,应针对对不同的的歧义类类型采取取不同的的解决方方法:对于第第一类歧歧义,由于他他们本身身就是汉汉语言中中的歧义义问题,解决这这类歧义义需要依依靠上、下下文语义义信息,即增

33、加加语义、语语用知识识的处理理。这无无异对自自动分词词的效率率有很大大的影响响(时间间上和空空间上),而且且实现起起来比较较困难。若若是在词词处理的的相应阶阶段,结合对对分词阶阶段未解解决的歧歧义字段段进行处处理,则会起起到事半半功倍的的效果。统统计表明明,第一类类歧义字字段只占占整个歧歧义字段段总数的的1/330 以以下,因因此不必必在分词词阶段花花费巨大大的开销销来处理理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典;二是增加临时词典。此外,还可以人工

34、干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。汉语词自动动切分应应用研究究。目前前,汉语自自动分词词主要在在信息检检索、自自动标引引、自动动文摘、机机器翻译译、语言言文字研研究、搜搜索引擎擎研究、自自然语言言理解和和中文信信息处理理等方面面的应用用取得了了可喜的的成绩。随随着汉语语自动分分词技术术的进展展,这一研研究成果果将会被被应用到到广泛的的研究领领域,如词频频统计、内内容分析析、概念念分析、认

35、认知心理理学和汉汉语语言言学等方方面。汉语自动分分词是中中文信息息处理的的“瓶颈”问题, 它的的最终解解决依赖赖于汉语语的分词词结构、句句法结构构、语义义等语言言知识的的深入系系统的研研究;依赖于于对语言言与思维维的本质质的揭示示;同时,在很大大程度上上还依赖赖于神经经网络、专专家系统统、知识识工程等等人工智智能技术术的研究究进展。计计算机技技术是汉汉语自动动分词的的技术基基础,计算机机技术发发展的每每一次巨巨大飞跃跃都是汉汉语自动动分词的的福音。因因为自然然语言理理解既是是人工智智能研究究领域需需要解决决的重大大课题,也是汉汉语自动动分词研研究的重重要内容容。因此此,汉语语自动分分词研究究的

36、发展展同时也也寄希望望于人工工智能技技术的突突破。人工智能是是对信息息进行智智能化处处理的一一种模式式,主要要有两种种处理方方式:一种是是基于心心理学的的符号处处理方法法,模拟人人脑的功功能,像专家家系统即即是希望望模拟人人脑的功功能,构造推推理网络络,经过符符号转换换,从而可可以进行行解释性性处理。另另一种是是基于生生理学的的模拟方方法,神经网网络旨在在模拟人人脑的神神经系统统机构的的运作机机制来实实现一定定的功能能。以上上两种思思路也是是近年来来人工智智能领域域研究的的热点问问题,应用到到分词方方法上, 于是是产生了了专家系系统分词词法和神神经网络络分词法法。目前,人工工智能技技术的重重点

37、研究究领域主主要是专专家系统统、神经经网络技技术和生生物芯片片技术。从从人工智智能的发发展和汉汉语自动动分词的的要求出出发,比较理理想的自自动分词词系统应应该综合合词法、句句法和语语义信息息,而用计计算机对对语义、语语法进行行自动分分析尚处处在研究究阶段。因因而,已经推推出的汉汉语分词词与标引引系统只只能采用用以机械械分词为为主, 辅之以以能部分分反映词词法、句句法和语语义规则则的改进进算法。但但仍难以以解决复复杂的汉汉语组词词关系。因因此,今今后应注注重汉语语句法和和语义的的自动分分析研究究,并将其其应用到到汉语自自动分词词领域。应应引入知知识分词词的技术术与方法法,采用知知识分词词语义分分

38、析法进进行自动动分词系系统的研研究。从从目前已已经公开开的各种种分词方方法看,性能比比较优异异且具发发展前景景的当属属基于符符号和启启发式推推理的专专家系统统和基于于数值和和算法的的神经网网络技术术。神经经网络具具有联想想、容错错、记忆忆、自适适应、自自学习和和处理复复杂多模模式等优优点,不足的的是网络络连接模模型表达达复杂,训练过过程较长长,不能对对自身的的推理方方法进行行解释,对未在在训练样样本中出出现过的的新的词词汇不能能给予正正确切分分;专家家系统具具有显式式的知识识表达形形式, 知识容容易维护护,能对对推理行行为进行行解释,并可利利用深层层知识来来切分歧歧义字段段;缺点点是不能能从经

39、验验中学习习,当知识识库庞大大时难以以维护,在进行行多歧义义字段切切分时耗耗时较长长,同时在在知识表表示、知知识获取取和知识识验证等等方面存存在一些些问题。因因而,把神经经网络技技术与专专家系统统结合起起来用于于汉语自自动分词词与标引引系统将将是该领领域的发发展趋向向。1.5 特特征词挖挖掘的相相关算法法 HHu 和和 Liiu 利利用关联联规则挖挖掘的方方法来抽抽取产品品的特征征,对于于高频特特征词首先使用关关联规则则寻找频频繁项,裁裁剪低于于支持度度的频繁繁项,然然后利用用与形容容词相邻近的特性性寻找低低频特征征词。基基于“支持度度”算法对对产品特特征词进进行抽取取时,分分为三个个步骤:对

40、评论论文本进进行词性性标注;寻找频频繁特征征词;对对抽取出出来的频频繁特征征词进行行修剪。所所谓“支持度度”即关联联性规则则的一个个关键指指标,它它对频繁繁项的形形成有很很大的影影响,它它是用于于描述频频繁项出出现频度度的指标标,最低低支持度度(Miinimmum_Suppporrt)意意为只对对达到指指定频度度的项集集感兴趣趣,如果果指定最最低支持持度为小小于1的值则则关联规规则认为为研究者者们只对对频度达达到指定定百分比比的项集集感兴趣趣。最大大支持度度(Maaximmum_Suppporrt)则则指定了了项集出出现频度度的上限限,超过过上限的的项集也也不是研研究者们们感兴趣趣的。HHu

41、和和 Liiu 的的用户评评论抽取取算法最最后利用用极性词词与特征征词的共共现抽取取低频特特征词。使使用极性性词识别别低频特特征词语语带来这这样一个个问题:它也能能将与给给定产品品不相关关的名词词或名词词短语找找到。这这是因为为人们可可以使用用形容词词描述很很多主体体,既有有我们感感兴趣的的,也有有不相关关的。在在M.GGamoon等人人的基于于自由文文本用户户观点可可视化原原型系统统中,介介绍了使使用tff/iddf的方方法来识识别分词词或者分分词组合合是否是是真正的的特征词词,如果果分词或或者分词词的组合合不是真真正的词词语那么么将在语语料中很很少或者者几乎不不出现。EE.Riilofff

42、等人人通过已已知的语语法模型型去抽取取特殊的的表达模模式,主主要考虑虑的模式式有:+、+、+,再再通过这这些模式式去发现现对应的的主语、宾宾语、名名词或名名词短语语作为特特征词。1.6开发发环境介介绍 本系系统是用用C#编编写,CC#是微微软公司司发布的的一种面面向对象象的、运运行于.NETT Frrameeworrk之上上的高级级程序设设计语言言。并定定于在微微软职业业开发者者论坛(PDCC)上登登台亮相相。C#是微软软公司研研究员AAndeers Hejjlsbbergg的最新新成果。CC#看起起来与JJavaa有着惊惊人的相相似;它它包括了了诸如单单一继承承、接口口、与JJavaa几乎同

43、同样的语语法和编编译成中中间代码码再运行行的过程程。但是是C#与与Javva有着着明显的的不同,它它借鉴了了Dellphii的一个个特点,与COOM(组组件对象象模型)是直接接集成的的,而且且它是微微软公司司.NEET wwinddowss网络框框架的主主角。C#(读做做 CC shharpp,中中文译音音暂时没没有.专专业人士士一般读读C shaarp,现在在很多非非专业一一般读C井。C#是一种种安全的的、稳定定的、简简单的、优优雅的,由由C和CC+衍衍生出来来的面向向对象的的编程语语言。它它在继承承C和CC+强强大功能能的同时时去掉了了一些它它们的复复杂特性性(例如如没有宏宏和模版版,不允

44、允许多重重继承)。CC#综合合了VBB简单的的可视化化操作和和C+的高运运行效率率,以其其强大的的操作能能力、优优雅的语语法风格格、创新新的语言言特性和和便捷的的面向组组件编程程的支持持成为.NETT开发的的首选语语言。并且C#成成为ECCMA与与ISOO标准规规范。CC#看似似基于CC+写写成,但但又融入入其它语语言如DDelpphi、JJavaa、VBB等。微软C#语语言定义义主要是是从C和和C+继承而而来的,而且语语言中的的许多元元素也反反映了这这一点。C#在在设计者者从C+继承承的可选选选项方方面比JJavaa要广泛泛一些(比如说说strrutss),它它还增加加了自己己新的特特点(比

45、比方说源源代码版版本定义义),但它它还太不不成熟,不可能能挤垮JJavaa.C#还需要要进化成成一种开开发者能能够接受受和采用用的语言言。而微软软当前为为它的这这种新语语言大造造声势也也是值得得注意的的,目前大大家的反反应是:这是对对Javva的反反击。C#更像JJavaa一些,虽然微微软在这这个问题题上保持持沉默,这也是是意料中中的事情情,我觉觉得,因因为Jaava近近来很成成功而使使用Jaava的的公司都都报告说说它们在在生产效效率上比比C+获得了了提高。Java所所带来的的巨大影影响和大大家对它它的广泛泛接受已已经由工工作于这这种语言言和平台台之上的的程序员员数量明明显的说说明了(估计世世界范围围内共有有两百五五十万程程序员使使用Jaava)。由这这种语言言写成的的应用程程序的数数量是令令人惊讶讶的并已已经渗透透了每一一个级别别的计算算,包括括无线计计算和移移动电话话(比如如日本发发明的JJavaa电话)。C#能够在在用户领领域获得得这样的的礼遇吗吗?我们们必须等等待并观观望,就就像已经经由SSSI公司司的CEEO和主主席Kaal

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁