《决策树在客户价值分析中的应用.pdf》由会员分享,可在线阅读,更多相关《决策树在客户价值分析中的应用.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第 1 7 卷_第4 期 2 0 0 7年 4月计 算 机 技 术 与 发 展C OMP U T E R T E C HNOL OGY A ND D E VE L OP ME NTVo l.1 7A p r.No.42 0 0 7决策树在客户价值分析中的应用孟飞翔,帅立国“,姜昌金,(1.东南大学 自 动控制系,江苏南京 2 1 0 0 9 6;2.东南大学仪器科学与工程系,江苏 南京 2 1 0 0 9 6)摘要:决策树算法是数据挖掘的一个活跃的研究领域。文中介绍了一种决策树的构建方法及其步骤。在训练样本的基础上,通过不断的计算选择比 较合适的属性作为树根、子树根,并且不断重复,基于前向剪枝
2、方法,最终建立了经过优化的决策树。经过We k a 系统验证后,决策树和建立的相应规则性能良 好。最后将决策树应用于客户价值分析中,并得到了一定的实用价值。关键词:决策树;信息增益;前向剪枝;规则;We k a中图分类号:P P 3 1 1.1 3文献标识码:A文章编号:1 6 7 3 一 6 2 9 X(2 0 0 7)0 4 一 0 0 6 0 一 0 4A n A p p l i c a t i o n o f D e c i s i o n T r e e t o A n a l y z e t h e V a l u e o f C u s t o m e r ME N G F e
3、i-x ia n g l,S H U A I L i-g u o ,J I A N G C h a n g-j i n (1.A u t o m a t io n D e p a r t m e n t,S o u t h e a s t U n iv e r s it y,N a n j i n g 2 1 0 0 9 6,C h i n a;2.D e p a r t m e n t o f A p p a r a t u s S c i e n c e&E n g in e e r in g,S o u t h e a s t U n i v e r s i t y,N a n j i
4、n g 2 1 0 0 9 6,C h i n a)A b s t r a c t;D e c is io n t r e e is o n e o f h e a t e d f i e l d s i n d a t a m in in g in r e c e n t y e a r s.T h is m e t h o d,g u i d e d 切f r e q u e n c y i n f o r m a t io n i n t h e e x a m p l e sa n d b a s e d o n a t r a in in g s e t,b a s e d o n
5、t h e w a y o f p r e 一 p r u n in g,p ic k s a g o o d a t t r ib u t e s f o r t h e m o t o f t h e t r e e a n d s u b t r e e,w h ic h is i t e r a-t iv e,a n d f in a l ly b u i ld s a d e c i s io n t r e e t h a t h a s b e e n o p t im iz e d.B e in g e v a l u a t e d场We k a s y s t e m,t
6、h e d e c is io n t r e e a n d r u le s w o r k w e l l.M o r e o v e r,g i v e a n a p p l i c a t io n t o a n a ly z e t h e v a l u e o f c e r t a i n c u s t o m e r s,a n d r e c e iv e s o m e g o o d f e e d b a c k s.K e y w o r d s 二 d e c i s io n t r e e;i n f o r m a t i o n g a in;p
7、r e 一 p r u n i n g;r u l e s;We k a0 引言 数据库技术的迅速发展以及数据库管理系统的广泛应用,导致人们积累了越来越多的数据。大量的数据背后蕴藏着丰富的知识,而目前的数据库技术虽可以高效地实现数据的查询、统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。数据库中存在着大量的数据,却缺乏挖掘数据背后隐藏的信息的手段,出现了“数据爆炸而知识贫乏”的现象。在这种情况下,数据挖掘技术就应运而生了。数据挖掘(D a t a M in i n g)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事
8、先不知道的,但又是潜在有用的 信息和知识的 过程 1 1。数据挖掘的 核心技术算法主要有统计分析方法、神经元网络、决策树方法、遗传算法等。其中,决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到一些具有商 业 价 值 的、潜 在 的 信 息 2 1 0 现在随着电信企业的竞争日 益加大,能够有效地识别出具有较大价值的商业客户就成为比较重要的一个方面。在电信企业之中,能够带来企业大部分利润的客户虽然数量上不是很多,但是这部分用户带来的实际价值对于电信企业的生存具有举足轻重的作用。如何经过数据挖掘得出这部分客户尽可能多的资料,并对他们采取必要的营销手段,增强他们的忠诚度和信任
9、度,已经成为电信工作的当务之急。收稿日期:2 0 0 6-0 6-1 2作者简介:孟飞 翔(1 9 8 1 一),男,山东济宁人,硕士研究生,研究方向为数据库与数据挖掘;帅立国,副教授,甘肃特聘科技专家,研究方向为数据仓库与数据挖掘技术。1 建立决策树的方法与步骤 构建一个决策树实际就是制定一个分类标准。换言之,就是要把分类的标准用决策树的形式表示出来。既然建树的工作如此重要,那么怎样才能构建一个正确的决策树用于分类呢?最基础的就是要有一个训练集。所谓训练集就是一定数量的已知实际类别且各指标的观察值齐全的样品。表 1 就是一个有关客户价值第 4 期孟飞翔等:决策树在客户价值分析中的应用分析的小
10、的训练集。在表 1 的例子中,所有的样品类别分为客户价值高与客户价值低两类,分别用N和M表示。共有在网时间、信用等级、程控业务数量和单月消费度量四个属性,各个属性的值分别为:在网时间(长、中等、短);信用等级(高、低);程控业务数量(多、中等、少);单月消费度量(大、中等、小)。其中属性的解释如下:在网时间是客户使用电信产品的时间长短;信用等级是客户在欠费的等级度量,使用优良等值进行度量;程控业务是电信推出的来电显示、七彩铃音等电信的附加值产品;单月消费度量是客户的单月消费额的大小,在处理的时候具有一定的灵活性。如果要进行更加全面的客户分析,还可以相应地加人其他必要的属性,如客户群、年龄段等内
11、容。表 1 一个有关客户价值分析的小的训练集序号属性客户价值分类在网时间信用等级程控业务数量单月消费度量I长高多大高2长高中等中等高3长高中等大高4中等高中等大高5中等低中等大低6中等低中等中等低7短高中等大低s短低少小低9短低少中等低 G a i n(A)=月(n,。)一E(A)经过上面的转换,好的属性也就由此而产生了。G a in(A)越大,其获得的信息量越大,这样的属性 A,就可以当作树根。第二步:选择子树的根。其过程和方法与以上选择树根的试验完全相同,哪个属性的G a in(A;)值大就被选作子树的根,不断重复以上试验,直至过程结束。第三步:决策树的修剪。在建立一棵决策树的过程中,有时
12、候会不可避免地混入一些噪声数据。也就是一些子树的生成过程之中,混入了一些噪声数据,对于它们,需要通过一定的手段限制决策树的生长或者在决策树建立完毕之后,对决策树进行修剪。这两种方法,分别称作事前修剪与事后修剪,在本实例中采用前向剪枝的策略。通过合理的修剪,能够在保持性能不变的前提下,使建立起来的决策树更加适合应用。这里采取的是在适当的时候让其停止生长前向剪枝策略,从而 得到比 较合 理的 决 策 树结 构 3 l 02 生成决策树2.1 计算建树所需的信息量 根据训练集表格提供的信息,首先计算建树所需的 信 息 量:H(n,m)=-一I 匕10 9 2 n州 尸刀 i一一 n儿 十 刀 I 第
13、一步:建树首先要进行选择性的试验,所谓选择试验就是挑选一个好的属性作为树的根。根据信息论,如果样品分为 N 和 M 两类,决定任意一个样 n 匕】。9 2 m10 9 2 ,n T f i t儿气 7 n 4,4 5、5一 4 +亏 io g 2 4 下亏 一 4-+5 9 2 不+5品属于 N类的概率为 nn 十 I属于 M 类的概率为 刀tn+z当一个决策树用于分类一个样品时,可以把树看作信使 N 或 M 的一个信息源,那么建树所需的信息量可以表示为:=一Z P;10 9 2 P;二 m-lo g e 二 7一 午n l T 7 L 7 7 1.,7 L n刀之十 儿 如果属性A被用作决策
14、树的根,它的值分别为A 1,A 2,.,A v,它将会把样品 集C分配成C 1,C 2,-C,其中c 包括样品 集中c 的属性A的 值A;。若ci包含属于M类的从个样品,那么对于c i 形成的子树所需的 信息量为H(n i,m i)。以属性A形成的树所需的信息量为:E(A)这样,令 2 生少n;,,/,一厂I、n:.T l t;,气一 n:十,t=0.9 92.2 计算各个属性的H(n i,m i)值 (1)在网时间的值:长、中等、短。长:n 1=3,7 a 1=0,H(n l,m l)=0 中等:77 2=1,77 1 2=2,H(n 2,n 1 2)=0.8 3 短:n 3=0,77 1
15、3=3,H(n 3,77 1 3)二0 (2)信用等级的值:高、低。高:n,=4,n t l=1,H(n 1,n i l)=0.8 7 低:,:=0,n i t=4,H(n 2,n 1 2)二0 (3)程控业务数量的值:多、中等、少。多:n 1=1,n 1 1=0,H(n 1,n 1 1)二0 中等:n 2=3,n 1 2=3,H(n 2,n 1 2)=1.0 6 少:n 3=0,n 1 3=2,H(n 3,n 1 3=0 (4)单月消费度量的值:大、中等、小。大:n 1=3,M 1=1,H(n 1,n 1 1)=0.8 8 中 等:二:=1,n 1 2=2,H(n 2,n 1 2)=0.8
16、3 小:n 3=1,m 3=1,H(n 3,n 1 3)二0.7 02.3 计算各个属性的E(A;)的值通过属性 A的分支获得的信息增益可以表示为:E(在 网 时 间)=Jn I二n 1 1H 7 1 气,Y 1 1n i,。,1)+计算机技术与发展第 1 7 卷n 2+n z2H(n 2n+m,一)+n 3+n i3 H(n+m n 3,一 3)=普 0+晋 “8 3+普 0 一。.2 8以此类推,分别得到信用等级、程控业务数量、单月消费度量的E(A;)值。E(信用等级)=0.7 0 E(程控业务数量)=0.4 8 E(单月消费度量)=0.8 32.4 计算各个属性作为树根时获取的信息量 G
17、 a i n(在网时间)=H(n,m)一E(在网时间)=0.9 9一0.2 8=0.7 1 同理可以得出:G a i n(信用等级)二0.2 9 G a i n(程控业务数量)=0.5 1 G a in(单月消费度量)=0.1 6 选择G a in(A;)值最大的 属性作为树根,所以 对于本例来说即选择在网时间作为树根。下次循环开始,选出了信用等级作为子树的树根。在第三次的计算中,由于程控业务数量和单月消费度量的G a in(A;)值相同,可以 对它们进行树枝修剪,使决策树停止生长4 1 02.5 建立决策树 经过以上处理,最终建立的决策树如图1 所示。N I 高 图1 最终的决策树结构 为了
18、更加清楚地理解决策树的知识表示,可以把它转换成规则的 形式 5 l,如下所示:I F(在网时间=长)T H E N(客户价值为高);I F(在网时间=中等)A N D(信用等级=高)T H E N(客户价值为高);I F(在网时间=中等)A N D(信用等级=低)T H E N(客户价值为低);I F(在网时间二 短)T H E N(客户价值为低)。3 决策树的评估 剪枝方法主要有两种:前向剪枝和后向剪枝,两者分别具有相应的优缺点。前向剪枝主要是在树没有完全生成的时候进行剪枝容易丢失信息;相应地,后向剪枝主要就是系统的开销比较大,必然会生成相当多的要被剪掉的子树,含有相当多的无用功。在决策树修
19、剪的问题上要针对不同的应用使用相应的剪枝策略,具体问题具体分析,得出相应的最佳的方法。为了验证生成决策树的性能,选取数据挖掘平台WE K A b l 进行测试。在本实例中 使用了 前向 剪枝的策略,也可以称为贪心算法,而在WE K A数据挖掘平台中的I D 3 算法也采用了贪心算法策略。I D 3 算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征,选择信息增益最大的特征建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。为了在WE
20、 K A系统中进行决策树的评估,首先需要把表1 的数据集转化成为A R F F文件格式,如下所示:r e la t io n c o s t 一 v a l u e sa t t r ib u t e o n li n e-t i m e 长,中等,短a t t r i b u t e c r e d i t _ l e v e l I 高,低 a t t r ib u t e c n t _ s e r v _ s p e c I 多,中 等,少 a t t r ib u t e e x p e n d it u r e 大,中 等,小a t t r i b u t e c l a s s
21、I 高,低d a t a长,高,多,大,高长,高,中等,中等,高长,高,中等,大,高中等,高,中等,大,高中等,低,中等,大,低中等,低,中等,中等,低短,高,中等,大,低短,低,少,小,低短,低,少,中等,低 以上就完成了数据的准备工作,把上述的数据输人到WE K A数据挖掘平台中,在分类器中选择 I D 3 算法,设 置 好 相 应的 选 项,这 里 要 选 择U s e t r a in in g s e t 选项,使用。l a s s 作为预测的输出选项。得出的评估结果如下所示:C o r r e c t l y C la s s i f i e d I n s t a n c e s
22、 9 1 0 0I n c o r r e c t l y C l a s s i f i e d I n s t a n c e s 0 0%C o n f u s io n Ma t r i x=ab 一一 c l a s s i f i e d a s 4 01 a=高 0 5 b=低 通过模糊矩阵(C o n f u s i o n Ma t r i x)可以看出,其中有4 个客户被正确地分类到了价值为高的分类之中,第 4 期孟飞翔等:决策树在客户价值分析中的应用6 3另外5 个客户被正确地分类到价值为低的分类之中,没有发生误分类的情况。I D 3 建立的相应决策树的决策树规则如下所示
23、:o n l in e-t im e 二 长:高o n l 二一 t im e=中 等 c r e d i:一 l e v e l=高:高 c r e d i t 一 le v e l=低:低o n l in e 一 t im e=短:低 WE K A系统得出的决策树的形式和图 1 所示的决策树的结构是相同的,同时这个模型的准确率达到了1 0 0,说明建立的决策树在理论上是可行的。但是在 I D 3 算法中,运用于实际之中,会不会发生过拟合的现象,需要用实际数据进行检验。过拟合的现象是对训练数据集的依赖太大,以致应用于新的数据集的时候会发生错误率过大的情形,不能很好地预测实际的分类现象。地增强
24、这些人的忠诚度,从而达到增加客户在网时长的目的。信用等级也是比较重要的一个方面,要增加预付费在整个客户群中所占的比重,逐渐减少后付费的人数,能够预防欠费情况的发生,这也正是电信产品发展的方向之一,能够较好地保护电信的投资。4 决策树规则的发布 由于电信运营商之间的竞争日 益加剧,客户可以选择的余地逐步加大,同时由于电信产品的更新速度越来越快,使得很多电信客户具有相当的离网趋势,想要抓住客户的心变得比较困难,在网时长这个指标项说明了这个问题。电信运营的关键在于抓住一部分能够长期使用电信产品的用户,即是所谓的主户。这部分的用户的主要特征就是在网时长比较长,能够长期使用电信的某一产品,由他们带来的实
25、际利润对于电信企业的生存具有举足轻重的作用。在电信的客户分类之中,在网时长这个指标直接决定了客户的忠诚度,如果某一客户始终如一地使用电信的特定产品,会给电信带来可观的经济收人。可以给这一部分用户制定相应的个性化套餐,使他们能够切实地感受到这种方式带来的实惠,比如针对年轻化群体推出免费的试用彩铃业务,针对外来务工人员推出比较实惠的长途业务等优惠策略,这样能够显著5 结束语 决策树在市场划分、金融风险、产品开发以及客户评估中已经得到了比较广泛的应用。文中把决策树应用到客户价值分析的判决中,通过对样品数据的学习生成决策树,根据生成的决策树对未知的输人数据进行决策,实现对不同客户的价值类别的划分,具有
26、广阔的 应用前景7 l。通过以中国电 信的营业数据库中的样本数据集为例,对算法进行验证和分析,试验的结果基本达到了预期的效果。文中的属性只是考虑了在网时间、信用等级等客户要素的值,类别也是涉及到客户价值高与低两个方面。可以根据实际情况的不同,相应地加人更多的属性以及更加细化的客户价值分类指标,使得结果集更加合理。参考文献:1 D u n h a m H.D a t a M in i n g 一 I n t r o d u c t o ry a n d A d v a n ce d T o p ic s M.N e w J e r s y:P r e n t ice H a ll,2 0 0 3
27、.2 G r o t h R.D a t a M i n i n g一 B u i ld in g C o m p e t i t i v e A d v a n c e s MI.N e w J e r s y:P r e n t ice H a ll,2 0 0 0.3 H a n J,K a m b e r M.D a t a M i n i n g一(o n o e p t s a n d T e c h n i q u e s M.N e w Y o r k:M o r g a n K a u f m a n n,2 0 0 1.4 唐海兵,秦怀青.利用决策树改进基于特征的人侵检测系
28、 统 J .微机发展,2 0 0 5,1 5(4):1 0 2 一 1 0 5.5 梁循.数据挖掘:建模、算法、应用和系统【J .计算机技 术与发展,2 0 0 6,1 6(1):1 一 4.6 K ir k b y R,F r a n k 一 W e k a E.E x p lo r e r U s e r G u i d e f o r V e r s io n 3 一 4 M.N e w Z e a l a n d:U n i v e r s i t y o f Wa i k a t o,2 0 0 2 一 2 0 0 5.7 1 B a r a g o i n C.M in i n g
29、 y o u r o w n B u s i n e s s i n T e l e o o m s M .C a li-f o r n i a:I B M C o r p o r a t io n,2 0 0 1.一 卜“州 卜一斗,.洲 卜.神.州 卜.州 卜.州 卜.司 卜.州 卜“闷卜“一 卜.州 卜一 祷 刊 卜.刊 卜.卜“州 卜翻 一 卜一于.州 卜.州 卜.琦.州 卜.,卜”州 卜“祠 卜一 卜.州 卜.州 卜.一 卜.刊 卜“刊 曰”卜“卜.卜扣 州 卜户 叫 卜.州 卜-卜“斗户.州 卜.叫 卜.叫 卜.州 卜“州 卜.(上接第5 9页)4 参考文献:川C h o p r
30、a S,M e in d l P.S u p p ly C h a in M a n a g e m e n t-S t r a t e g y,P la n n i n g,a n d O p e r a t i o n MI.北京:清华大学出 版社,2 0 0 1.2 1 W e n g Z K.C h a n n e l c o o r d in a t io n a n d q u a n t it y d is c o u n t J Ma n a g e m e n t s c i e n c e,1 9 9 5,4 1(9):1 5 0 9 一 1 5 2 2.3 E m m o
31、 n s H,G i l b e r t S M.T h e r o l e o f r e t u r n s p o li c i e s i n p r i c in g a n d i n v e n t o ry d e c i s i o n s f o r c a t a lo g u e g o o d s J .M a n a g e m e n t s c i e n c e,1 9 9 8,4 4(2):2 7 6 一 2 8 3.周永务,杨善林.N e w s b o y 型商品最优广告费用与订货策略的联合确定 J l.系统工程理论与实践,2 0 0 2(1 1):5 9 一6 3.周永务,杨善林.最优均匀广告与订货策略的联合决策模型U l.系统T-程学报,2 0 0 4,1 9(3):2 6 4 一 2 6 9.黄洁刚.库存论原理及其应用 M.上海:上海科学技术文献出版社,1 9 8 4.隋明刚.综述:供应链库存成本研究的现状及其发展趋势 J .物流技术,2 0 0 0(5):2 8 一 3 0.门一仁一,.J5了07r.Lr.Lr.J