《数据挖掘技术在电子商务中的应用研究.doc》由会员分享,可在线阅读,更多相关《数据挖掘技术在电子商务中的应用研究.doc(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date数据挖掘技术在电子商务中的应用研究数据挖掘技术在电子商务中的应用研究目 录摘要1 Abstract1一、数据挖掘及电子商务概述2(一) 数据挖掘的基本概念2(二)数据挖掘的主要算法与功能2(三)电子商务的基本概念2(四)本文所涉及的数据挖掘技术2二、电子商务推荐系统的个性化服务需求分析3(一)个性化电子商务3(二) 电子商务个性化推荐服务3(三)数据挖掘在个性化电子商
2、务中的表现形式5三、数据挖掘技术在个性化电子商务系统中的应用研究6(一)利用聚类算法实现电子商务中的用户聚类6(二)利用关联规则实现电子商务中的商品推荐9四、应用数据挖掘技术实现电子商务个性化推荐服务13(一)个性化电子商务网站的体系结构13(二)个性化推荐服务系统13(三)电子商务个性化推荐服务为电子商务带来的好处13五、总结与展望14参考文献14致谢15-数据挖掘在电子商务个性化服务中的应用研究摘要:随着电子商务的发展壮大,缺乏个性化服务成为制约电子商务发展的关键问题。文章针对电子商务的发展现状以及个性化服务的需求,通过对分析电子商务活动中的客户、商品等相关信息后,建立了基于数据挖掘技术的
3、电子商务网站个性化商品推荐服务的系统模型,并将数据挖掘中的关联规则和聚类算法应用在电子商务推荐服务中,实现了电子商务网站的个性化推荐服务,为用户提供更好、更快、更直接的个性化服务的技术支持。关键词:数据挖掘;电子商务;个性化服务;Apriori算法;聚类算法Application research of electronic commerce personalized services based on Data MiningAbstract: With the development of electronic commerce, the lack of personalized servi
4、ce would govern electronic commerce as a key issue in the development. In this paper, the development of electronic commerce, as well as the demand for personalized service is described. Moreover, customers, products and other related information of electronic commerce activities are analysed. The m
5、odeling of electronic commerce site personalization products recommended services system based on data mining technology is attained. Association rules and Cluster Method of data mining are applied in electronic commerce recommended services, in order to achieve a personalized electronic commerce si
6、tes recommended services, providing users with better, faster and more direct personalized service of technical support.Key words: Data Mining; Electronic Commerce; Personalized Service; Apriori Method; Cluster Method一、数据挖掘及电子商务概述(一) 数据挖掘的基本概念数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Dat
7、abase, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 那么在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。(二)数据挖掘的主要算法与功能通常我们所说的数据挖掘的技术基础就是人工智能。它使用了人工智能中一些已经成熟的算法和技术,如:人工神经网络,遗传算法,决策树,规则推理,模糊逻辑等,就问题的复杂性和难度而言比人工智能要低。进行网络数据挖掘,主要是对客户的访问信息与详细身份信息进行挖掘,得到客户的浏览行为模式,找到有价值的市场信息,从而有针对性的调整网页设
8、计,提供个性化的服务。数据挖掘系统利用的技术越多,精确度就越高。数据挖掘的功能算法主要包括以下几种:(1)构造关联规则;(2)发现分类规则;(3)数据聚类分析;(4)数据抽象总结。(三)电子商务的基本概念电子商务简单讲就是利用先进的电子技术进行商务活动的总称,它是通过网络,使用先进的信息处理工具,利用电子这种载体,将买卖双方的商务信息、产品信息、销售信息、服务信息,以及电子支付等商务活动,用相互认同的交易标准来实现,这就是人们所说的“在网上进行买卖活动”。电子商务迅猛发展的时代己经到来,网上购物交易的形式正在改变着传统的商业模式。电子商务是利用现代计算机网络进行商务活动的一种先进手段,是推动未
9、来经济增长的关键动力,将打破时空界限,有效地降低企业成本,提高企业的竞争能力。(四)本文所涉及的数据挖掘技术在本中我们将要应用到电子商务个性化服务中的数据挖掘技术是:1关联规则分析关联规则分析是从数据库中发现知识的一类重要的方法,并且通过关联规则己经抽取出许多对企业有价值的知识。它的思想是,如果两个以上的数据项的取值之间重复出现的概率较高时,就存在某种关联,就可以建立起这些数据项之间的关联规则。2聚类分析数据库中的数据可以划分为一系列的有意义的组,组内的各数据差别尽可能小,而组之间的差别尽可能的大。聚类增强了人们对客观事物的认识,即以聚类来区别事物的不同类型,如苹果、桔子、香蕉属于水果。有一点
10、需要明确的是,在进行聚类之前是不知道要划分成多少个组和什么样的组,也不知道根据哪些数据项来定义组。聚类是根据数据集的本身特征来进行簇的划分。二、电子商务推荐系统的个性化服务需求分析(一)个性化电子商务1电子商务个性化服务的概念对电子商务个性化服务不少专家都提出了自己的看法,下面是一些具有代表性的观点:(1)个性化信息服务是根据客户的特性提供具有针对性的信息内容和系统功能。(2)个性化信息服务是基于信息用户的信息使用行为、习惯、偏好和特点,向用户提供满足其各种个性化需求的一种服务。(3)所谓个性化信息服务,是指能够满足用户的个人信息需求的一种服务,在某一特定的网上功能和服务方式中,通过用户自己设
11、定网上信息来源方式、表现形式、特定网上功能及其它网上服务方式等,而主动地向用户提供可能需要的信息服务。2个性化电子商务服务的意义在现在的商品交易活动中,电子商务是互联网时代出现的新型商业模式,不同于传统的商业模式。CRM(Customer Relationship Management)是一种旨在建立客户与企业之间关系的新型管理机制。CRM要求企业从“以产品为中心”的模式转向“以用户为中心”的模式。这就要求开展电子商务的商家必须了解用户的要求,为用户提供更好的有针对性的电子商务活动。3个性化电子商务的益处个性化电子商务网站的设计不仅使用户能够迅速快捷地获得信息,提高了用户的忠诚度。同时为电子商
12、务网站带来了丰厚的商业利益。主要体现在以下几个方面:(1)提高电子商务网站的服务;(2)商业智能的发现;(3)建立和加强用户的忠诚度;(4)增加了电子商务网站访问量4数据挖掘在电子商务网站中的应用主要体现在以下几个方面:智能化搜索引擎系统客户关系管理系统个性化服务系统个性化推荐系统数据挖掘在电子商务网站中的应用图1 电子商务网站中的数据挖掘领域(二) 电子商务个性化推荐服务1电子商务个性化推荐服务是未来电子商务发展的重要趋势电子商务打破了传统商务的时空界线,突出了个性的张扬和创造力的发挥,未来的电子商务的发展必然会加强个性化定制的需求和个性化商品的深度参与。对电子商务企业而言,利用推荐系统将消
13、费者的个人偏好、需求同企业提供的产品和服务结合起来,提供灵活多样的个性化服务是一个必然的趋势。2电子商务个性化推荐服务的必要性随着电子商务的普及和发展,越来越多的用户接受了网上购物的模式。但是,当用户和电子商务的商家充分享受电子商务的快捷和方便时,他们同时面临着某些新的问题。开展在线零售业务的电子商务系统面临的一个重要问题是:一方面,用户面对网站上提供的琳琅满目的众多商品,他们只对其中的一部分商品感兴趣。然而在用户的购买过程中,他必须浏览许多不相关的网页,才能在众多的商品分类中找到自己所需要的商品;另一方面,商家面对众多的用户,不知道他们对商品的兴趣和要求是什么。因此,电子商务的商家无法及时调
14、整网站的页面结构,提供给所有的用户是千篇一律的界面。缺乏个性化服务已经成为制约电子商务发展的关键问题。所以个性化推荐服务对于电子商务而言具有宝贵的价值。3在电子商务中提供个性化推荐服务的可能性如今的电子商务企业不同于以往的公司,用户在浏览电子商务网站和网上购物过程中会留下大量有用的信息,企业可以利用数据挖掘技术对日常交易中所积累的数据进行处理,从中提取出有价值的关于用户访问行为的知识。利用这些数据,他们可以做以下的事情:(1)根据客户已经声明的偏好或是观察到的行为,在客户再次访问该网站时动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求。(2) 跟踪用户在电子商务网站
15、上的浏览行为回应客户的订单并在付账的过程中推荐新的商品。(3)从过去的访问记录中记住客户的偏好,并把这些用于客户目前的访问中,在线提出一些合理的推荐意见。这样将会作到针对不同的用户提供个性化的服务,提高电子商务的效率,改善电子商务服务商的服务质量并吸引更多的用户,达到提高电子商务销售额的目的。4电子商务个性化推荐服务的研究内容电子商务个性化推荐服务主要包括以下两个方面的内容:一是服务内容的个性化。由于自身条件的不同,客户对商品和服务的需求也不尽相同,而消费者的需求个性化则是企业电子商务个性化服务的推动力。消费者不再只是被动地接受,商家也不仅仅是提供多样化的选择范围了事,商家必须根据消费者的兴趣
16、偏好,及时地为消费者推荐其真正需要的商品,尽量减少消费者在搜寻自己所需商品的过程中所消耗的精力,同时商家也可以将搜集到的消费者个人的偏好参与到商品的设计和制造过程中去,满足消费者个性化的需求。二是服务方式的个性化。目前,最常用的信息服务方式是“PULL拉”的模式,即信息提供者把所提供的信息直接发布在网页上,需要的用户必须去其网站上查找,这使得用户不得不花费大量的时间和精力在网页间的转换上。与“PULL”模式相对应的还有一种“PUSH推”模式,在这种模式下,信息提供者直接将最新信息的标题和摘要发布给已经订阅的用户,然后用户根据自己的需要点击链接访问网站,阅读对应的信息。这种模式的优点是很明显的,
17、尤其是在当今信息爆炸的网络环境下,用户可以仅仅关心自己感兴趣的那一部分,而没必要把更多的精力浪费在查找的过程中。电子商务个性化推荐服务是个性化服务在电子商务中的拓展,也是个性化服务新的应用和发展领域。5电子商务个性化推荐服务的特点一直以来,“以用户为中心”,“用户至上”都是信息服务机构的宗旨,但却很少能落到实处。而个性化信息服务为这一理念的贯彻落实提供了可能。个性化信息服务具有以下特点:(1)与用户的双向沟通更加便捷,服务内容具有针对性;(2)服务内容,更加丰富,服务方式更加灵活多样;(3)更为注重主动性与时效性;(4)服务更具智能性。6电子商务推荐系统的类型个性化电子商务主要是通过在线推荐系
18、统表现出来的,电子商务网站的推荐系统可以针对不同的访问者进行页面推荐或商品推荐。推荐系统是基于对用户的历史浏览行为和购买行为进行分析,产生用户群体的浏览模式和购买模式。识别出当前的用户,将用户匹配到具有不同的浏览模式和购买模式的用户群体中,实时在线地进行页面推荐或商品推荐。根据电子商务推荐系统所采用的推荐技术,目前的电子商务推荐系统主要分为以下几类:(1)基于内容过滤的推荐系统;(2)基于协同过滤技术的推荐系统;(3)混和型推荐系统;(4)基于数据挖掘技术的推荐系统。(三)数据挖掘在个性化电子商务中的表现形式电子商务个性化推荐服务的关键在于它能收集用户兴趣资料并根据用户兴趣偏好为用户主动做出个
19、性化信息推荐。当用户每次输入用户名和密码登录电子商务网站后,推荐系统就会按照目标用户偏好程度的高低推荐用户最喜爱的N个商品,而且系统给出的推荐是实时更新的,即当系统中的商品信息资料和用户兴趣特征发生改变时,给出的推荐序列会自动改变,为用户提供了更多的检索便利,提高企业的服务水平。个性化电子商务主要是通过在线推荐系统表现出来的。如图2所示。电子商务网站的推荐系统可以针对不同的访问者进行页面推荐或商品推荐。推荐系统是基于对用户的历史浏览行为和购买行为进行分析,产生用户群体的浏览模式和购买模式。识别出当前的用户,将用户匹配到具有不同的浏览模式和购买模式的用户群体中,实时在线地进行页面推荐或商品推荐。
20、数据准备发现用户模式识别当前用户当前用户与模式进行匹配生成推荐页面或商品集图2 个性化电子商务推荐系统通过分析可知个性化推荐系统都可抽象成四个层次,即首先收集用户信息,然后根据用户信息对用户进行建模,在构建的用户模型的基础上提供个性化的服务策略和服务内容:(1)在个性化推荐服务体系结构中,数据准备模块是个性化服务系统的基模块。用户的信息包括了用户的个人基本资料、购买的历史记录及浏览记录等。个人基本资料可以从用户注册表单中获得;购买的历史记录主要存放于电子商务网站的后台交易数据库中,包含了每位用户以前历次购物的详细情况记录,如购物时间、商品清单、价格、折扣等,同时也可以收集用户放入购物篮而未购买
21、的商品记录,以及用户过去浏览过的商品的信息等。当然要收集用户的行为信息,日志文件是必不可少的,如要收集服务器日志,则要在服务器端获取,抽取出特定用户的访问记录;如要收集用户浏览的页面和浏览行为,则既可以在用户端获得,也可以在服务器端从用户记录中获得。(2)个性化推荐服务系统收集到用户信息后,提交给用户建模来进行处理,其目的是构建反映用户兴趣特征的用户模型,回答消费者具有何种特征,他们分别有什么样的喜好以及他们各自的购买习惯和行为特性等问题,作为个性化推荐模块的用户数据基础。(3)个性化推荐模块根据用户的兴趣偏好,按一定的推荐算法,对特定用户计算出两种推荐结果客户对任意项的兴趣度及前Top-N推
22、荐集,相应地,个性化推荐模块将产生按兴趣度由大到小的信息项推荐集或兴趣度大于某一给定阈值的信息项的推荐序列,并以某一特定的形式呈现给特定用户。(4)个性化推荐是指根据用户的兴趣特点,向用户推荐其感兴趣的页面和商品集。其原理是根据用户模型寻找与其匹配的信息,或者寻找具有相近兴趣的用户群,然后相互推荐浏览过的信息。三、数据挖掘技术在个性化电子商务系统中的应用研究 在这里我们用关联规则和聚类算法中比较经典的k-means算法和Apriori算法进行应用研究。(一)利用聚类算法实现电子商务中的用户聚类1k-means算法介绍1967年,MacQueen在伯克利第五届数理统计年会上提出k-means算法
23、。它是一种基于样本间相似性度量的聚类方法,是一种非监督学习的方法。此算法以k为参数,把n个对象分为k个聚类,以使聚类内具有较高的相似度,而且聚类间的相似度较低。它是一种较典型的逐点修改迭代的动态聚类算法,其要点是以误差平方和为准则函数。误差平方和e2的公式为: 其中表示第i个用户的第j个属性的值,表示第价聚类的中心,表示第j个聚类中共有个用户。2k-means算法的流程及其在电子商务中的应用研究在这里我们就协同过滤推荐的聚类算法在个性化服务中的应用进行具体的说明。(流程图为图3) (1)随机选择k个用户(种子结点)作为初始聚类中心,将k个用户的兴趣值作为初始的聚类中心。(2)对剩余的用户集合,
24、计算每个用户与k个聚类中心的相似性,将用户分配到相似性最高的聚类中。(3)对新生成的聚类,计算聚类中所有用户兴趣值的平均分,生成新的聚类中心。(4)重复(2)、(3)直到误差平方e2和收敛于某个值。生成聚类之后,下面的工作主要有两个部分组成: (l)虚拟用户集生成根据不同的聚类生成对应的聚类中心,聚类中心与聚类中其他用户的距离之和最小,每一个聚类产生的聚类中心代表该聚类中用户对页面的典型兴趣值。将所有的聚类中心作为虚拟的用户集合。(2)推荐产生在虚拟的用户集合上使用各种相似性度量方法搜索当前用户的若干最近邻居,然后根据最近邻居对页面的兴趣值产生对应的推荐结果。开始随即选择k个用户作为初始聚类中
25、心,将k个用户的兴趣值作为初始的聚类中心。对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将用户分配到相似性最高的聚类中。对新生成的聚类,计算聚类中所有用户兴趣值的平均分,生成新的聚类中心。聚类中心改变结束NY图3 k-means算法工作流程3k-means算法的应用说明下表是某购物网站的客户访问数据,然后随机抽取部分用户访问某购物网站的时候所计算出来的对各商品的兴趣值。表1用户对各商品的兴趣值用户id化妆品服饰日用品10.500.300.1520.200.600.1530.450.200.3040.330.510.0050.180.500.3060.310.460.20取k=2,则算法
26、的执行步骤为:(1)第一次迭代随机选择两个用户(比如选择用户3和用户4)作为种子,分别搜寻距离两点最近的用户产生两个聚类,分别是1,2,3和4,5,6。表2第一次迭代聚类id化妆品兴趣平均值服饰兴趣平均值日用品兴趣平均值11,2,30.380.370.2024,5,60.270.490.17(2)第二次迭代利用欧式距离公式计算各用户对聚类1和聚类2兴趣值(分别是0.38,0.37,0.20和0.27,0.49,0.17)的相似性,重新调整两个聚类中用户,使得聚类内各用户的差异性降低、聚类间用户的差异性增大。经计算得出用户对两个聚类的相似性如表所示。表3 各用户对两个聚类的中心的相似性(距离)用
27、户id聚类10.38,0.37,0.20聚类20.27,0.49,0.1710.02180.089420.08780.017430.04380.133440.06210.032950.29090.330660.01300.0034调整后的聚类1和聚类2分别是l,3,5和2,4,6表4 第二次迭代聚类id化妆品兴趣平均值服饰兴趣平均值日用品兴趣平均值11,3,50.380.330.2522,4,60.280.520.12 (3)第三次迭代方法和第二次迭代类似。分别得到表5和表6。表5 各用户对两个聚类的中心的相似性(距离)用户id聚类10.38,0.33,0.25聚类20.28,0.52,0.1
28、210.02530.097720.11530.013730.02430.163740.07940.017050.26620.358560.02430.0109表6 第三次迭代聚类id化妆品兴趣平均值服饰兴趣平均值日用品兴趣平均值11,3,50.380.330.2522,4,60.280.520.12将以上的迭代结果分别用图4、图5和图6来表示。注:图中的数字代表用户的ID。图4选择了用户3和用户4作为种子结点,并随机将两个聚类赋值为1,2,3和4,5,6。图4随机选择两个种子、随机组成两个聚类图5是经过第二次迭代后的结果,1、3、5组成一个聚类,2、4、6组成一个聚类。图5经过第二此迭代后的结
29、果图6是经过第三次迭代后的结果,和第二次迭代后的结果一样。图6经过第三此迭代后的结果由于第三次迭代完成时,各聚类的用户集和第二次没有发生变化,并且误差e2平方和收敛,所以程序结束。此时,可以将0.35,0.33,0.25和0.28,0.52,0.12分别代表两个虚拟用户的值。4应用研究结论以后当有新的用户访问时,计算其和虚拟用户的相近程度,如果和第一个虚拟用户比较临近,则将第一个虚拟用户所感兴趣的商品集推荐给这个新用户。虽然实现了个性化推荐,但是在k-menas算法中,k个中心的选取一般为随机选取或依赖于领域知识,为了更好的选取k个中心以提高聚类的质量,需要以后对k-menas算法进行更好的改
30、进。(二)利用关联规则实现电子商务中的商品推荐1 Apriori算法介绍Apriori是挖掘关联规则的一个重要方法。基本思想是:生成特定规模的候选项目集,然后扫描数据库并进行计数,以确定这些候选项目集是否是大的。在第i趟扫描的过程中,对Ck进行计数。只有那些大的候选集被用于生成下一趟扫描的候选集。算法流程图描述:(图7和图8)利用Apriori-Gen()算法生成候选集C1+1大小为K的候选集Ck筛选出Ck中支持度大于最小支持度的所有项组成频繁K-项目集LKLK为空,得到频繁项目集LK不为空(1)生成频繁项目集图7k为频繁项目集L中的项目数大于2的真子集对于k的每一个真子集h,计算它到它关于k
31、的补集k-h的置信度置信度大于最小值,把hk-h添加到关联规则中置信度部大于最小值(2)生成关联规则图82Apriori算法在电子商务中的应用研究用户购买商品用户购买商品1护肤品&日用品&衣服&化妆品10体育用品&鞋类&学习用品2体育用品&裤子&装饰品&鞋类11衣服&体育用品&鞋类&玩具3衣服12体育用品&装饰品&书本4体育用品&装饰品&鞋类&书本13体育用品&鞋类5体育用品&书本&玩具14鞋类&玩具&学习用品6鞋类15体育用品&软件&学习用品7影视&护肤品&化妆品16体育用品&鞋类8软件17日用品&书本9护肤品&化妆品18衣服&裤子&护肤品&化妆品首先进行的是数据分析,下表是假设用户访问某购
32、物网站的时候的记录。如表7所示。我们将此表作为事物数据库,并将最小支持度阈值设置为20%,最小置信度阈值设为70%,我们来求该事务数据库中的频繁关联规则。表7 用户对各商品的兴趣值3Apriori算法的应用说明为了方便推导,首先我们将护肤品、日用品、衣服、化妆品、体育用品、裤子、装饰品、鞋类、软件、书本、玩具、影视、学习用品分别用大写字母A,B,C,D,E,F,G,H,I,J,K,L,M替换,将时间省去,故事物数据库可表示为表8所示。表8 事务数据库用户购买商品用户购买商品1A&B&C&D10E&H&M2E&F&G&H11C&E&H&K3C12E&G&J4E&G&H&J13E&H5E&J&K1
33、4H&K&M6H15E&I&M7L&A&D16E&H8I17B&J9A&D18C&F&A&D第一步:求出事务数据库中所有的频繁项目集。(1)置候选频繁1-项目集C1=A,B,C,D,E,F,G,H,I,J,K,L,M。(2)扫描事务数据库计算C1中各项目集在事物数据库中的支持数和相应的支持度。如表9所示。表9 事务数据库(C1)的支持数与支持度候选1项目集支持数支持度A422%B211%C422%D422%E950%F211%G317%H844%I211%J422%K317%L16%M317%(3)根据最小支持度阈值20%得到频繁1-项目集L1=A,C,D,E,H,J。(4)调用Apriori
34、-Gen(L1)生成候选频繁2-项目C2=A,C,A,D,A,E,A,H,A,J,C,D,C,E,C,H,C,J,D,E,D,H,D,J,E,H,E,J,H,J。(5)扫描事物数据库计算C2中各项目集在事物数据库中的支持数和相应的支持度。如表10所示。表10 事务数据库(C2)的支持数与支持度候选2项目集支持数支持度A,C211%A,D422%A,E00%A,H00%A,J00%C,D211%C,E16%C,H00%C,J00%D,E00%D,H00%D,J00%E,H633%E,J317%H,J16%(6)根据最小支持度阈值20%得到频繁2-项目集L2=A,D,E,H。(7)调用Aprior
35、i-Gen(L2)生成候选频繁3-项目集C3=A,D,E,A,D,H,A,E,H,D,E,H。(8)由于候选频繁项目集A,D,E的长度为2的子集D,E为非频繁项目集,候选频繁项目集A,D,H的长度为2的子集D,H为非频繁项目集,候选频繁项目集A,E,H的长度为2的子集A,H为非频繁项目集,候选频繁项目集D,E,H的长度为2的子集D,H为非频繁项目集,故可以删除A,D,E,A,D,H,A,E,H,D,E,H,因此L3为空集,循环结束。(9)L=L1L2=A,C,D,E,H,J,A,D,E,H。第二步:根据L求D中的所有关联规则,此时只需要考虑长度大于1的频繁项目集。如项目集A,D,E,H。由项目
36、集A,D生成关联规则的步骤如下:(1)对于A,D中任意非空真子集A,D分别计算关联规则AD、DA的置信度,其值分别为:100%、100%。对于E,H中任意非空真子集E,H分别计算关联规则EH、HE的置信度,其值分别为:75%、67%。(2)根据最小置信度阈值70%,AD、DA、EH为关联规则,其余均不满足最小置信度阈值条件,应删除。4应用研究结论本实验生成了置信度大于最小置信度阈值的关联规则:AD、DA、EH,即购买护肤品的顾客必购买化妆品,购买化妆品的顾客必购买护肤品,75%的购买体育用品的顾客会购买鞋类。该电子超市可以利用上述规则在网站构建时把相关商品设计为一跳链接或组合销售以提高销售量和
37、方便顾客。上文所提到的基于Apriori的频繁访问路径挖掘算法,正如算法所描述的那样,必须要反复地在事务数据库中搜索并进行项目集的合并,才能找到满足最小支持度的频繁路径集,在事务数据库比较庞大的情况下,搜索反复读库,可能会造成效率低下,而且需要很长时间。为了提高算法的效率,我们应该还要对这个算法作了一些改进。Apriori算法效率不高的症结是在于反复生成候选集,并反复根据这个候选集在事务数据库中进行搜索计算。如果能够一次性生成全部候选集,则只要扫描一次数据库就能解决问题,效率自然能够大大提高。四、应用数据挖掘技术实现电子商务个性化推荐服务(一)个性化电子商务网站的体系结构除了构建一个面向数据挖
38、掘的电子商务网站体系架构。我们又深入地探讨了如何在电子商务网站上使用应用挖掘来发现用户的访问模式和频繁访问路径。也讨论了如何使用内容挖掘来提取和抽取页面的内容来发现相似页面的聚类。有了这些信息以后,我们就有可能将得出的知识进行整合和应用,最终建立起一个实用的个性化电子商务网站。(二)个性化推荐服务系统数据挖掘技术在个性化推荐服务主要体现在以下几个方面(图9):关联规则挖掘、聚类算法分析、贝叶斯分类、协同过滤推荐、序列模式挖掘等。关联规则挖掘聚类算法分析贝叶斯分类个性化推荐服务协同过滤推荐评价序列模式挖掘图9 个性化推荐服务系统 在上面的文章中,描述了将其中的聚类算法和关联规则实际运用到电子商务
39、中的过程和算法,得到了想要的结果:实现用户聚类和商品推荐这两个步骤,真正实现了电子商务的个性化推荐服务。(三)电子商务个性化推荐服务为电子商务带来的好处去实现和改善个性化推荐服务,是因为个性化电子商务网站的设计不仅使用户能够迅速快捷地获得信息,提高了用户的忠诚度,同时为电子商务网站带来了丰厚的商业利益。主要体现在以下几个方面:(1)提高电子商务网站的服务:个性化电子商务可以更好地帮助网站的设计者调整站点的逻辑设计,达到方便用户使用的目的。(2)商业智能的发现:个性化电子商务能够发现用户的购买模式,实现不同分类商品的交叉销售,减少用户冗余访问。(3)建立和加强用户的忠诚度:由于个性化电子商务网站
40、对用户实现了“一对一”的服务,进一步吸引了用户,使用户在站点上逗留的时间加长,有效地防止用户离去。用户得到站点给他们提供的个性化服务后,他们会对电子商务站点赋予更多的忠诚。(4)增加了电子商务网站访问量:个性化电子商务站点更有趣,会吸引更多的用户访问。同时,个性化电子商务可以挖掘出一些潜在用户,将一些网站商品的浏览者变成实际的购买者。五、总结与展望本文根据电子商务的发展趋势,对基于数据挖掘的电子商务推荐系统所使用的算法及其在推荐系统中的实现等技术进行了有益的探索和研究。主要内容包括电子商务及数据挖掘技术的介绍,电子商务推荐系统的推荐算法研究,利用基于聚类和关联规则的算法实现电子商务推荐系统的研
41、究以及算法的实现和评价。电子商务的个性化推荐研究是一个新兴的领域,虽然目前在推荐算法已经取得了一定的研究成果,但还存在很多问题,如数据获取主要依赖用户的显式评价,在自动获得用户的隐匿信息方面做得不够,对稀疏问题及冷启动问题等经典问题缺乏有效的解决方法,对推荐系统的开发与应用,尤其是与企业其他系统的集成应用研究不够。未来的电子商务推荐研究方向:(1)数据的多样化,推荐系统利用各种隐式和显式数据做出推荐,要充分利用Web挖掘技术收集用户的隐式浏览信息,使收集信息的自动化程序提高。(2)信息分类的标准化,目前各类信息的分类还非常的模糊,这导致用户无法明确描述自己的兴趣,也增加了各类信息资源的表述的困
42、难性,所以应该进一步细化信息分类标准。(3)对推荐算法进一步改进,目前个性化推荐系统没有真正普及,尤其在一些价格相对昂贵的产品方面,用户并不使用个性化推荐系统,主要原因就是目前推荐系统推荐的准确度并不高,用户不是很依赖推荐系统。(4)电子商务个性化商品推荐服务的面向对象将由单个用户向用户群过渡。有关调查发现,同一地区、同一城市的用户所感兴趣的商品受这个城市的文化氛围的影响,在一定程度上有一定的相似性,因此个性化推荐系统将实现服务的本地化和社区化,也就是建立不同地区,不同兴趣相似群体的用户群组,即方便用户之间的交流,又便于系统从交流的信息中发现用户的兴趣特征。(5)未来的电子商务推荐系统应集成企
43、业销售系统,客户关系管理系统和供应链系统等企业信息系统,共同为企业的产品定价,销售及促销活动等提供推荐支持,也为分析客户价值,客户生命周期提供支持。参考文献:1Jiawei Han, Micheline Kamber(著), 范明,孟小东等译.数据挖掘概念与技术M.北京:机械工业出版社,20042方美琪.电子商务概论(第二版)M.清华大学出版社,20023李明刚、刘文芳等.电子商务原理与应用开发务实J.清华大学出版社,20024刘军、季常煦等.电子商务系统的规划与设计J.人民邮电出版社,2001年5李荆洪.电子商务概论M.中国水利水电出版社,20026张洪瀚、姜娇娇等.基于数据挖掘的电子商务商品推荐J.中国信息解社,2007,97叶彩虹. Web挖掘在网上购物中的应用研究D.安庆师范学院学报, 2004,11 8余力,刘鲁.电子商务个性化推荐研究J.计算机集成制造系统,2004,109余力,刘鲁,李雪峰.用户多兴趣下的个性化推荐算法研究J.计算机集成制造系统,2004,1210王妙娅.商业网站面向我国公众的个性化信息服务方式J.情报科学,2005,2