《基于数据挖掘技术的企业CRM系统的设计与实现(共11页).doc》由会员分享,可在线阅读,更多相关《基于数据挖掘技术的企业CRM系统的设计与实现(共11页).doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上基于数据挖掘技术的企业CRM系统的设计与实现河北金融学院 郭佳 许明摘要:CRM (Customer Relationship Management)是客户关系管理的简称,它是一个系统性的工程,是技术和管理相结合的产物。CRM实现了企业由以产品为中心向以客户为中心的转变,客户首次作为一种资源纳入企业的管理视野。本文以企业销售业绩为对象,利用决策树分类算法中的ID3算法,得到支持决策,从而挖掘出理想客户,建立满足公司需求的CRM挖掘系统。关键字:客户关系管理;数据挖掘;决策树分类算法;ID3算法一、 客户关系管理及数据挖掘技术1.客户关系管理的概念客户关系管理(CRMC
2、ustomer Relationship Management)自Gartner Group提出概念以来,许多研究机构都基于自己的理解提出了CRM的不同定义。归纳众多国内外著名公司以及学者对CRM的理解,我们可以从以下几个层面来理解CRM。(1)CRM是一种现代经营管理理念。(2)CRM包含的是一整套解决方案。(3)CRM意味着一套应用软件系统。2.数据挖掘的概念从技术上定义,数据挖掘(Data Mining,简称为DM)是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘从数据中提取人们感兴趣的可用
3、信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式等便于人们理解与利用的形式。如果从企业角度说,数据挖掘是一种新的客户信息处理技术,其主要特点是对企业数据库中的大量业务数据进行抽取、转换、分析和其他模式处理,从中提取辅助企业决策的关键性数据。因此,数据挖掘也可被描述为:是提取有用信息的数据产生过程,是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未发生行为做出结果预测,为企业经营决策、市场策划提供依据的过程。二、 天鹏进出口公司CRM系统分析1.天鹏进出口公司实施CRM的可行性分析首先是市场需求的原因。企业销售成功的关键在于针对客户的需
4、要,提供产品和服务来满足这种需要,然后通过对客户关系的管理,确保客户满意和再次交易。然而过去的企业大多以为他们的产品和服务无与伦比,客户会一如既往的使用他们的产品。现在,客户变的越来越大胆和挑剔,他们不仅要求优质的产品,而且需要优质的服务。天鹏公司发现各部门的信息化程度越来越不能适应业务发展需要,需要提高日常业务的自动化和科学化。这是客户关系管理应运而生的需求基础。其次,技术的进步推进了CRM的发展。计算机、通讯技术、网络应用技术的保证使得构建CRM系统的想法不再停留在梦想阶段。办公自动化程度、员工计算机应用能力、企业信息化水平、企业管理水平的提高都有利于客户关系管理的实现。天鹏公司经过多年的
5、发展,市场经济的观念已经深入人心。公司的工作重点正在经历着从以产品为中心向以客户为中心的转移。在引入客户关系管理的理念和技术时,不可避免的要对企业原来的管理方式进行改变,创新的思想将有利于企业员工接受变革。因此发展CRM的时机已经成熟,通过CRM对该企业的客户资源进行有效的管理,不但会提高企业收益,也将改变企业运行的战略思维。2.天鹏进出口公司实施数据挖掘的可行性分析对该公司客户进行分类的数据挖掘是可行的,因为公司的客户资料已达到了数据挖掘所需要的海量,而公司的经营者也希望获得更大的利润,所以一般都支持数据挖掘,希望充分利用已有的数据信息;而且公司的信息化建设比较好,数据比较完备,网络设置和员
6、工的计算机水平都比较好。而且为了适应业务发展的需要,公司先后在上海、天津、匈牙利设立了办事处和分支机构,拉近公司与客户之间的距离,从而更加方便快捷的将国际领先的产品和优质规范的服务源源不断的呈现给广大客户。另外,当公司管理者需要对公司的贸易策略进行修改,对公司的进货量进行调整的时候,往往需要对以前的数据进行分析,而对于海量数据人们根本无从下手,分析数据只能凭借决策者的直觉,这样对数据是一种无形的浪费。在公司实行数据挖掘的目的就是从日积月累的海量数据中发现隐藏在数据中的潜在规则,根据这些规则,将客户合理分类,进而根据其特点制定“一对一”的个性化贸易策略。3.天鹏进出口公司CRM系统需求分析一个企
7、业业务流程是系统设计的关键,要实施开发CRM系统,必须确定系统的功能需求,这就必须先了解企业的业务流程,从业务流程中分析系统的需求。(1)客户信息管理客户信息包括客户名称、所属国家地区、详细地址、电话传真、电子邮箱、开户银行、银行账号、增值税信息等。(2)活动信息管理活动管理系统模块主要记录与客户之间的联系计划信息,以便及时和客户取得联系,随时了解客户的情况,保证稳定的客户来源。(3)销售信息管理销售管理系统模块主要是对与客户之间的销售进行管理,包括销售和销售列表两部分。销售部分用于记录与客户进行的销售事件,销售列表部分用于对与客户发生的销售进行统计。(4)服务信息管理服务管理系统模块主要是记
8、录客户的反馈事件信息及其处理方式,并对服务信息进行统计,帮助企业更好的把握服务的动态趋势。(5)费用信息管理与客户联系就必然会产生费用,费用管理系统模块主要记录与客户之间发生的费用信息,以控制和客户发生的费用。(6)分析管理分析管理系统主要用于对系统中的数据进行列表分析与图表分析,在该模块中始终贯穿着数据挖掘的思想。(7)报表管理报表管理系统主要用于对系统中的数据进行报表显示与数据文件生成,方便用户打印和下载,可以更快捷的将数字信息变为实际纸张上的信息。 (8)库存管理库存管理模块主要是对销售的产品进行有效的管理及其相应的进货,可分为库存管理、库存详表、进货管理和进货详表几部分。(9)E-ma
9、il管理E-mail管理系统是为了使用户能够方便的联系客户,也是CRM的一个重要组成部分,使得用户可以方便的管理所属客户的电子邮件地址,并具有分类群发的功能。(10)后台管理后台管理是对负责系统管理和维护的用户进行授权,对系统部门进行管理;对客户、销售、服务等信息进行实时查询和汇总,提供分析数据列表和图表,并生成便于打印和下载的数据报表和数据文件,提供给管理高层进行分析和决策。三、 天鹏进出口公司CRM系统设计1.系统结构设计OLAP数据挖掘数据仓库ETL工具(抽取、转换、装载工具)外部数据交易数据历史数据规则输出接口规则库知识库分析人员图1 CRM系统结构图2.系统数据挖掘模型的设计(1)用
10、于分类的训练数据源组在本文研究的企业数据中,首先是将不同部分的数据进行集成,然后是对数据进行概化处理,将低层次的原始数据概化为高层次的概念,以便于进行数据挖掘。将具体的客户年龄概化为50三个年龄段,分别代表青年、中年和老年客户,将产品价格分为高、中、低三档等,具体见表1,将企业CRM系统数据库中销售及客户信息经汇总后得到的信息资料。它有4个属性:客户年龄段、文化程度、销售地区、产品档次,类别是销售业绩,分为好和差两类。表1训练样本集合attributeageeducationarealevelclass1=30Hlowbad2=30Hhighgood3=30Hmediumbad4=30Hhig
11、hgood5=30Lhighgood6=30Llowgood7=30Llowgood8=30Mhighgood9=30Mmediumgood10=30Mmediumgood1150M highbad2550Mhighbad2650Mmediumgood表2 训练数据中各属性的说明属性说明age客户的年龄段education文化程度area业务销售地区(本地区,外地)level产品档次class销售状况(2)天鹏进出口公司CRM系统中决策树分类算法的应用决策树分类是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法。在各种决策树分类算法中,ID3 算法是最具有影响力的,接下来
12、以企业销售业绩为对象,介绍ID3算法在CRM系统中分类模型的建立。由表1可知:类标号属性有两个不同的值,因此有两个不同的类(即m=2)设类C1对应于good,类C2对应于bad。类good有18个样本,类bad有8个样本。为了计算每个属性的信息增益,先使用,所以初始信息熵为:I(s1,s2) = I(18,8)= 0.8905下一步,需要计算每个属性的熵,即客户年龄、文化程度、产品档次和销售区域。先看age属性,观察age的每个样本值的good、bad分布,对每个分布分别计算信息熵:当age=50:s13=1 s23=2时,I(s13,s23)= -如果样本按age划分,对一个给定的样本分类所
13、需的信息熵为:E(age)=0.8192 类似的,可以得到:E(education)= =0.7669E(production)= =0.853E(area)= 利用上述属性对当前分支节点进行相应样本集合划分所获得的信息增益分别为:Gain(age) = I(s1,s2)- E(age) =0.8905-0.8192=0.0713Gain(education) = I(s1,s2)- E(education) =0.8905-0.7769=0.1236Gain(production) = I(s1,s2)- E(production) =0.8905-0.853=0.0375Gain(area
14、) = I(s1,s2)- E(area) =0.8905-0.783=0.1075Gain(equipment) =1.576 - 0.873 = 0.703由上述结果可知,属性education具有最高信息增益,因此成为决策树根节点的测试属性。如下所示:8I =30 highgood9I =30 medium good10=30 mediumgood11I =50 highbad25 =50 highbad26I =50 mediumgood5I =30 highgood6I =30 lowgood7=30 lowgood20 =30 highgood21I 31-50 lowgood1I
15、 =30 lowbad2I =30 highgood3=30 mediumbad4 =30 highgood15I 31-50 highgood16I 31-50 medium good17I 31-50 lowgood1831-50 highbad1931-50 lowbadeducationHML 图2决策树根节点的测试属性在样本中对属性education的3个取值进行分支,3个分支对应3个子集,分别为:P11,2,3,4,15,16,17,18,19;P28,9,10,11,12,13,14,22,23,24,25,26;P3=5,6,7,20,21。其中P3的样本都为good类,因此对
16、应分支标记为good,P1和P2的样本类别不定,因此需要对P1子集和P2子集分别递归调用ID3算法。在P1中可求出余下的三个属性:age、production、area的信息增益。productionhighlowgoodbad=3031-50goodageareaI31-50=30badageproductionmediumhighbadgoodeducationHMLgood50badagegood31-50areaIgoodbadgoodproductionmediumhighlow=3031-50badagegood因为area属性的信息增益最大,所以以它为该分支的节点,再向下分支,类
17、似处理P2,最后得到的决策树如下所示:图3 经数据分类生成的决策树因此,对于样本X=(age= “31-50”,education= “low”,level= “medium”, area= “I”),ID3算法分类预测其class为good。我们用IF-THEN形式的分类规则提取图3决策树中表示的知识,企业可以从中发现销售规律,以便制定未来更有效的营销策略。例如:(1)IF education= “H” AND area= “I” OR(area= “”) AND age= “=30” AND production= “high” THEN achievement= “good”(2)IF
18、education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good”(3)IF education= “H” AND area= “I” AND age= “=30” AND production= “low” THEN achievement= “bad”(4)IF education= “M” AND production= “high” AND age= “=50” OR(age= “31-50” AND area= “”) THEN achievement= “bad”前三条分类规则说明该企业的高档产品对于
19、本地区受过高等教育的年轻客户的吸引力较大,低档产品对该类客户的吸引力较小;该企业的各档次产品对于本地受过高等教育的中年客户吸引力均较大。后两条规则说明企业的高档产品对于受过中等教育的年轻客户或者本地的中年客户吸引力较大;高档产品在受过中等教育的老年客户或者外地区的中年客户中不很受欢迎。因此该企业可以加大高档产品在年轻客户中的宣传以及各档次产品在本地受过高等教育的中年客户中的宣传,他们是该企业的一个重点客户群。在外地区针对受过中、高等教育的中年及老年客户的销售业绩还有待提高。该企业的产品对于教育程度较低的客户群销售业绩比较平稳。四、 天鹏进出口公司CRM系统中数据挖掘技术的实现1. 决策树挖掘技
20、术的实现在SQL Server2000 Analysis Manager控制台上,可按下述步骤使用Microsoft决策树挖掘技术。(1)在Analysis Manager控制台左侧树型结构中,找到指定服务器和分析数据库,右击“挖掘模型”,新建挖掘模型。(2)完成“选择源类型”和“选择源多维数据集”对话框,进入“选择数据挖掘技术”对话框,在SQL Server的Analysis Services中提供了两类数据挖掘模型,即决策树模型和聚集挖掘模型,本系统采用Microsoft决策树模型。(3)进入“选择被预测实体”对话框,在“源多维数据集的度量值”、“事例级别的成员属性”和“其他维度的成员”三
21、个选项中选择合适的内容。(4)进入“选择培训数据”对话框,选定培训数据的维度层次。(5)进入“创建维度和虚拟多维数据集”对话框,填写新建内容和名称。(6)填写模型名称,并选定“保存并开始处理”选项。待新建的挖掘模型处理结束后,将出现“OLAP挖掘模型编辑器”窗口,列出新建的挖掘模型。2. 天鹏公司CRM系统的实现天鹏公司的CRM系统实现了对客户销售、市场、价值和服务的全面管理,能实现客户基本数据的记录、跟踪,客户市场的划分和趋势研究,以及客户支持服务情况的分析,并能在一定程度上实现业务流程的自动化。在系统分析模块中可以实现销售分析、客户地域分布分析、客户价值分析、服务趋势分析和服务构成分析等。
22、每种分析功能又可以按照多种条件进行分析,例如在进行客户价值分析时还可以选择按交易次数、交易金额、时间范围等条件具体分析。针对不同的分析功能,分析结果可以选择以报表形式或者以图表形式进行显示。报表显示主要是将从数据库中读取的数据按照一定的格式显示出来,主要通过vbscript函数实现。图表显示主要是利用VML(Vector Markup Language,矢量标记语言)来实现。在VML中单个元素被定义为形状(shape),大多数形状是由矢量路径描述的。形状有很多属性,例如:名称(title)、样式(style)、填充(fill)、填充颜色(fillcolor)等。本文中分析模块利用的就是VML的
23、基本元素,通过画线、填充和样式的控制来实现柱状图的显示。五、 结论本文在研究客户关系管理系统、数据挖掘技术和相关算法的基础上,分析了数据挖掘技术在该公司CRM系统中应用的可行性,建立了天鹏进出口公司CRM系统的挖掘算法模型,实现了对该公司客户群体以及客户销售等情况的细分,建立了满足公司需求的CRM挖掘系统。参考文献1 郑伟民.数据挖掘纵览.计算机世界.1999(5)2 黄刚.数据挖掘工具及其选择.计算机世界.1999(5)3 杨辉.数据挖掘分类优化方法研究.上海交通大学博士论文.19994 郑伟民.数据挖掘纵览.计算机世界.1999(5)5 黄刚.数据挖掘工具及其选择.计算机世界.1999(5)6 杨辉.数据挖掘分类优化方法研究.上海交通大学博士论文.1999专心-专注-专业