数据挖掘在淘宝卖家评论中的应用.doc

上传人:飞****2 文档编号:52202257 上传时间:2022-10-21 格式:DOC 页数:6 大小:208KB
返回 下载 相关 举报
数据挖掘在淘宝卖家评论中的应用.doc_第1页
第1页 / 共6页
数据挖掘在淘宝卖家评论中的应用.doc_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《数据挖掘在淘宝卖家评论中的应用.doc》由会员分享,可在线阅读,更多相关《数据挖掘在淘宝卖家评论中的应用.doc(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、电子商务客户评论的有效性及其引导分析摘 要:许多电子商务网站(如B2C商城淘宝网)为买家提供了对所购商品进行评论的平台,该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时,买家可以通过对这些评论的参考,充分利用其中的有效信息来引导自己对该商品的购买,同时也可以保障购买质量。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下,买家若是能够从这些大量评论中进行筛选,找出有效的评论从而引导自己更好地购买商品,这将大大保证购买的质量,同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子,分析其买家的评论,教大家如何辨别有效

2、评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法,并分析了算法的可行性以及有效性。关键词:电子商务 淘宝网 买家评论 潜在客户 有效信息 0 前 言随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践

3、活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营规范和完善,从而推动电子商务的健康发展。电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且

4、有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品21世纪是电子商务高度发展的时代,作为亚太地区最大网络零售商的淘宝网,占据着中国80%以上的网购市场份额。因此,对淘宝网的研究无论是从理论上还是现实上都具有重大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。一般顾客在淘宝店铺购买商品之后,都会在评论平台上发表一下对所购商品的看法,而这些评论对潜在买家而言无疑是一笔财富。倘若买家能

5、够从这些评论中迅速挖掘出真实可靠的有效信息,势必会对自己的购买行为产生极大帮助。新颖信息挖掘1.1 挖掘模型新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息,该技术在冗余信息过滤领域有着广泛的应用5。新颖信息挖掘模型主要由三个部分组成,即预处理、分类和新颖信息挖掘(如图1所示)。当某一位买家的评论输入到模型中后,首先借助机器学习方法进行预处理;预处理之后进入分类阶段,该阶段的主要任务就是借助事先给定的主题(或关键字)来过滤不相关的评论;最后进入新颖信息挖掘阶段,该阶段的任务就是通过和历史记录做对比,判断该条评论是否是新颖的。买家评论新颖评论相关评论DB新颖信息挖掘分类预处理(机器

6、学习方法)历史记录给定主题(或关键字)图1 新颖信息挖掘模型本文中,所有买家的评论将被人为地分为三类:质量、价格与物流供应。因此,我们所关注的是预处理与新颖信息挖掘这两个阶段。1.2 挖掘算法文献6介绍了新颖信息挖掘算法的两种基本思想,即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想,即通过当前评论记录与其之前每一条记录相比较,获得该条记录的新颖度,然后与预先给定的一个阈值相比较,若小于,则认为该条评论记录是冗余的,否则是新颖的。在写出挖掘算法步骤之前,先介绍几个基本概念。(设数据库中已存放CN条买家评论数据记录) 新颖信息挖掘的算法步骤如下:(1) 给定阈值与n个关键词;(

7、2) 浏览数据库中的第i条评论记录,由(1)式算出第j个关键词在i中的权重(i=1,2,CN,j=1,2,n);(3) 由(2)式算出第i条记录与其之前的每一条记录的相似度(i=1,2,CN);(4) 由(3)式计算出第i条记录的新颖度(i=1,2,CN);(5) 根据“一对一比较”这一思想,确定第i条记录是否冗余(i=1,2,CN).1.3 算法的可行性和有效性分析文献7给出了用F值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中,F值法广泛应用于信息检索、文件分类以及查询分类等领域。F值的表达式如下:查准率、查全率以及F值是用来衡量挖掘模型检测新颖信息效率的三个指标,而文献8给出了另

8、外三个指标,分别是冗余查准率(RP)、冗余查全率(RR)以及冗余F值(RF),这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗余查全率定义如下: 定义了冗余查准率与冗余查全率之后,下面给出冗余F值(RF)的表达式:1 实 例本文所需数据来源于淘宝网上一家手机店铺在2010年内所收到的1269条买家评论记录,将其存放为SQL server 2005中的一张表comments。在存放数据库里之前,我们人为地将数据分为三类:质量类(标记为1)、价格类(标记为2)与物流供应类(标记为3)。comments包括以下5列:buyerId(买家账号),buyerStar(买家

9、星级),content(评论内容),catid(所属类别),dateTime(评论时间)。表1给出了comments的前5行。表1 comments表的前5行按照catid列进行频数分析,如表2所示。表2 各个类别的新颖率类别记录数新颖记录数新颖率16566300.960422672600.973833463210.9277SUM126912110.9543限定阈值从0到1,步长取为0.05,根据第1.2介绍的挖掘算法,从检索新颖信息的角度算出不同阈值下的查准率、查全率以及F值,如表3所示。表3 不同阈值下算法的查准率、查全率以及F值ASMPRF0.00 1211126912110.9543

10、1.0000 0.9766 0.05 1211126812110.9550 1.0000 0.9770 0.10 1211126812110.9550 1.0000 0.9770 0.15 1211126812110.9550 1.0000 0.9770 0.20 1211126712110.9558 1.0000 0.9774 0.25 1211126612110.9566 1.0000 0.9778 0.30 1211126612110.9566 1.0000 0.9778 0.35 1211126612110.9566 1.0000 0.9778 0.40 1211126212110.9

11、596 1.0000 0.9794 0.45 1211125812110.9626 1.0000 0.9810 0.50 1211125712110.9634 1.0000 0.9814 0.55 1211125312100.9657 0.9992 0.9821 0.60 1211124212090.9734 0.9983 0.9857 0.65 1211123012060.9805 0.9959 0.9881 0.70 1211121111880.9810 0.9810 0.9810 0.75 1211117911590.9830 0.9571 0.9699 0.80 12111137112

12、00.9850 0.9249 0.9540 0.85 1211105110400.9895 0.8588 0.9195 0.90 12118728640.9908 0.7135 0.8296 0.95 12113853790.9844 0.3130 0.4749 1.00 从检索冗余信息的角度,给出不同阈值下算法的冗余查准率、冗余查全率以及冗余F值,如表4所示。(限定的范围从0.5到0.95,步长仍取为0.05)表4 不通阈值下算法的冗余查准率、冗余查全率及冗余F值ArSrMrRPRRRF0.55 5816150.9375 0.2586 0.4054 0.60 5827250.9259 0.4

13、310 0.5882 0.65 5839340.8718 0.5862 0.7010 0.70 5858350.6034 0.6034 0.6034 0.75 5890380.4222 0.6552 0.5135 0.80 58132410.3106 0.7069 0.4316 0.85 58218470.2156 0.8103 0.3406 0.90 58397500.1259 0.8621 0.2198 0.95 58884530.0600 0.9138 0.1125 根据表4中的数据,借助matlabR2008a软件作出RPRF曲线,如图2所示。图2 RPRF曲线从表3、表4及图1可以很

14、清晰地看出:当阈值达到0.65时,RF值达到最大为0.7010,此时F值恰好也达到最大为0.9881。因此,当检索买家评论记录数据库时,建议阈值最好控制在0.65左右。2 结 论基于淘宝买家评论记录数据库,本文构建了新颖信息挖掘模型,并在模型的基础上给出了新颖信息挖掘算法,最后从挖掘新颖信息与挖掘冗余信息两个角度分析了算法的可行性与有效性。在文本信息挖掘中,一般都会预先给定一个阈值,通过本文的分析发现,在检索买家评论记录数据库时,最好控制在0.65左右。参 考 文 献1 Kwee,A.T.,&Tsai,F.S.(2009).Mobile novelty mining.International

15、 Journal of Advanced Pervasive and Ubiquitous Computing,1(4),43-68.2 Kwee,A.T.,Tsai,F.S.,&Tang,W.(2009).Sentence-level novelty detection in English and Malay.Lecture Notes in Computer Science(LNCS),5476,40-51.3 Tang,W.,&Tsai,F.S.(2009).Threshold setting and performance monitoring for novel text mini

16、ng.In:SIAM Internation Conference on Data Mining Workshop on Text Mining(pp.1-10).4 Tang,W.,&Tsai,F.S.(2010).Blended metrics for novel sentence mining.Expert System with Applications,1-20.5 Tsai,F.S.,&Chan,K.L.(2010).Redundancy and novelty mining in the business blogsphere.The Learning Organization,

17、1-9.6 Tsai,F.S.,&Kwee,A.T.(2011).Database optimization for novelty mining of business blog.Expert System with Applications,38(2011),11040-11047.7 Zhao,L.,Zheng,M.,&Ma,S.(2006).The nature of novelty detection.Information Retrieval,9,527-541.8 Zhang,Y.,Callan,J.,&Minka,T.(2002).Novelty and redundancy detection in adaptive filtering.In:SIGIR 2002:Proceeding of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(pp.81-88).

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁