《数据分析与挖掘在化妆品分销行业中的应用.pdf》由会员分享,可在线阅读,更多相关《数据分析与挖掘在化妆品分销行业中的应用.pdf(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、北京工业大学硕士学位论文数据分析与挖掘在化妆品分销行业中的应用姓名:王文莉申请学位级别:硕士专业:软件工程指导教师:王冠;袁玉宇20070501摘要摘要随着计算机信息技术和互联网技术的发展,社会各行各业的分工、业务流程、管理流程在发生着重大的改变,人类被无所不在的信息所包围,而信息的总量还在不断增加,以至于有人惊呼世界正处于。信息爆炸”之中。虽然已经拥有大量的信息,然而从如此大量的信息中获得有用的知识却变得越来越困难。如何从这些大量的数据中发现对公司有价值的信息,成为公司将来决策的一个重要的部分。本文以一个典型的化妆品分销行业企业的实际项目为基础,根据化妆品分销行业的业务特点,建立了适用于化妆
2、品分销行业的数据分析与数据挖掘模型,目的在于为客户提供准确的预测信息,从而能够准确的制定和调整安全库存级别,从而为降低库存,减少流动资金的占有周期提供了有利的决策支持。首先,本论文对数据挖掘在化妆品行业的应用现状进行了研究,然后针对化妆品分销行业的挖掘要求和特点构建了数据挖掘模型。在这个数据挖掘模型中构造了商店分类子模型和脱销预测子模型,分别通过聚类算法和决策树算法进行数据挖掘,并对使用的算法进行了验证。在论文的第三章介绍了如何进行数据挖掘,包括使用数据仓库进行数据准备和清洗,通过模型进行整体销售预测、各商店销售预测、各产品销售预测。最后对数据挖掘的结果进行了描述,并进行了分析和论证。关键词数
3、据挖掘(D M);数据仓库;聚类算法;决策树算法。http:/ b s t r a c tA l o n gw i 也t h ee x t e n s i v ed e v e l o p m e n to fc o m p u t e ri n f o r m a t i o ns c i e n c ea n dn e 咖r kt e c h n o l o g y,t h ef u n c t i o no f a l lk i n d so f s o c i a li n d I l s t r y,o p e r a t i o nf l o wa n dm a n a g e m
4、 e n tf l o wh a v ec h a n g e d H o w e v e r,a sm o r ed a t ai sc o l l e c t e d i tb e c o m e sm o r ed i f f i c u l tt of i n du s e f u li n f o r m a t i o n T oa d d r e s st h i si s s u e,an e wt e c h n o l o g yc a l l e d D a t aM i n i n g W a Sd e v e l o p e di nt h e1 9 9 0 s,w
5、h i c ha n dd i s c o v e r yt h ed a mm o d e li ni n a s sd a t a,s oc a l l e dK n o w l e d g eD i s c o v e r yi nD a t a b a s e K D D B a s e do nt h es t u d yo f aw a d i t i o n a lC o s m e t i cC o m p a n y A s i aD e v e l o p m e n tE n t e r p r i s e,w es u m m a r i z e dt h ec h a
6、 r a c t e r i s t i c sa n ds p e c i f i c a t i o n so ft h eR e s e l lI n d u s t r y N e x t,w eb u i l tt h ed a t aa n a l y s i sa n dm i n i n gs y s t e mt h a tw o u l da l l o wt h ec u s t o m e rt oa c c u r a t e l yf o r e c a s ts a l e sa n da p p r o p r i a t e l yd e c r e a s
7、et h eo n h a n ds u p p l yo fi n v e n t o r ya sw e l la sa c c e l e r a t et h ec u r r e n c yc y c l e T h i sp a p e rf a s ti n t r o d u c e ss o m er e l a t e dt e c h n o l o g yb a c k g r o u n da n dt h eb a s i sf o ri m p l e m e n t T h e n,i ti n t r o d u c e st h es t u d yo ft
8、 h eD a t aW a r e h o u s ea n dD a t aM i n i n gt h e o r ya n di t sr o l ei nt h eF o r e c a s t i n gS y s t e m N e x t,i td e s c r i b e sh o wt ow o r ko u tt h es a l e sf o r e c a s ts t e pb ys t e p F o re x a m p l e,d e t e r m i n i n gt h es t r u c t u r eo ft h ed a mw a r e h
9、o u s e;u s i n ga nS Q Ls t a t e m e n tt op r e p a r et h ed a t a;u s i n gD a t aM i n i n gE x p r e s st oo b t a i nap r e d i c t i o n;a n dt h e ns t o r i n gt h ep r e d i c t i o ni nat a b l ef o rf u r t h e l a n a l y s i s F i n a l l y,i td i s c u s s e sh o wt oi m p l e m e n
10、 tS a l e sF o r e c a s t i n g T h ef o r e c a s t i n gi st h e nc o m b i n e dw i t hb u s i n e s sr o l e s,w h i c ha r eu s e dt op r o v i d ei n s t r u c t i o nf o rb u s i n e s st r a n s a c t i o n s T h ec o n c l u s i o no ft h i sp a p e ri n t r o d u c e ss o m ep e r s o n a
11、 lt h i n k i n ga b o u tD a t aA n a l y s i sa n dD a t aM i n i n gb a s e do nE R Ps y s t e ma n dd a t a B a s e do nc u r r e n tu s a g eo fD a t aM i n i n gi nC h i n a,i ti sag o o dc a s es t u d ya n de x a m p l eo fh o wt oi m p l e m e n tD a t aA n a l y s i sa n dD a t aM i n i n
12、gt oh e l ps m a l la n dm e d i u ms i z c de n t e r p r i s e sb e c o m em o r es u c c e s s f u l K e yW o r d sD a t ag i n i r i g;D a t aW a r e h o u s e;C I u s t e r i n gA I g o t i t h 峙;D e c i s i o nT r e eA I g o ri t h i n shttp:/ 2关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论
13、文的复印件,允许论文被查阅和借阋:学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名芝童酗导师签名:主乏R 期:生2 掣http:/ 章绪论1 1 课题背景1 1 1 榻谜第1 章绪论自从1 9 4 6 年第一台计算机E N I A C 诞生以来,计算机科学与技术就一直飞速向前发展。计算机的运算能力和存储能力得到不断提高,各种类型的数据库被广泛使用,I n t e m e t 也已经遍布世界的各个角落。人类被无所不在的信息所包围,而信息的总量还在不断增加,以至于有人惊呼世界正处于。信息爆炸。之中。虽然已经拥有大量的信息,然而从如此
14、大量的信息中获得有用的知识却变得越来越困难。这就是被J o h nN a i s b e r t 称为“信息丰富而知识贫乏”的窘境。为了解决这个难题,一种全新的技术,数据挖掘(D a t aM i n i n g,D M)1 1】,在2 0 世纪9 0 年代初应运而生。数据挖掘是一种从大量数据中抽取模式的技术,通过数据挖掘可以实现从数据库中发现知识(K n o w l e d g eD i s c o v e r yi nD a t a b a s e,K D D)。1 1 2 理论基础作为一门处理数据的新兴技术,数据挖掘要处理的是海量的数据。其次,数据可能是不完全的、有噪声的、随机的,有复杂
15、的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:传统统计方法:抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。多元统计分析:因子分析,聚类分析等。统计预测方法,如回归分析,时间序列分析等。可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。http:/ A R T、C H A I D、I D 3、C 4 5、C 5 0 等。神经网络:模拟人的神经元功能,经过输入层
16、,隐藏层,输出层等,对数据进行调整。计算,最后得到结果,用于分类和回归。遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为 A I A 2 A A l p B l 八B 2 B n”。一般分为两个步骤:求出大数据项集。用大数据项集产生关联规则。除了上述的常用方法外,还有粗集方法,模糊集合方法,B a y e s i a nB e l i e fN e t o r d s,最邻近算法(k-n e a r e s tn e i g h b o r sm e t h o d(k N N)等。1 1 3 技术背景随着
17、数据挖掘理论的发展和完善,一些数据挖掘软件也先后被开发出来。经过近些年的发展,现在数据挖掘软件已经得到相当广泛的应用。随着数据挖掘软件的应用,数据挖掘软件也得到了长足的进步。其中比较显著的改变包括:数据挖掘自动化程度的提高:在1 9 9 3 年时,数据挖掘软件通常所遇到的一个难题是软件的通用性与软件的自动化程度之间的矛盾:通用程度比较高的数据挖掘软件在使用的时候需要比较多的人工干预,而自动化程度比较高的数据挖掘软件往往局限于某一个特定的应用领域。当今的数据挖掘软件已经很好地解决了这个问题,都可以在很少人工干预情况下完成数据挖掘任务。数据挖掘软件的适用范围增加:过去的数据挖掘软件通常具有的一个缺
18、陷是这些软件只能在特定的数据库上,对有限的数据类型进行挖掘。当今的数据挖掘软件已经可以连接更多类型的数据库,对更多数据类型的进行处理。数据挖掘软件的商业化:早期的数据挖掘软件通常是由大学或实验室开发的试验系统。随着数据挖掘技术的逐渐成熟,越来越多的I T 公司进入这个领域,凭借它们长期积累的技术实力,许多公司都推出了相当完善的数据挖掘商业化产品。数据挖掘软件根据其适用的范围可以分为两类:专用数据挖掘软件和通用数据挖掘软件。专用数据挖掘软件针对某个特定领域的问题提供解决方案,在设计http:/ 章绪论算法的时候充分考虑到数据、需求的特殊性,并作了优化。面通用数据挖掘工具不区分具体数据的含义,采用
19、通用的挖掘算法,处理常见的数据类型。目前常用的数据挖掘通用软件有:D BM i n e r,M i n e S e t,E n t e r p r i s eM i n o r,I n t e l l i g e n tM i n c T,M i c r o s o RA n a l y s i sS e r v i c e 然而,目前多数数据挖掘软件采用的技术还比较有限,它们所能够提供的功能也相应受到限制。很多软件都只能完成些基本的数据挖掘任务,如分类分析、聚类分析、关联分析和简单的预测分析等。当面对诸如时序数据、空间数据、多媒体数据和半结构化数据的数据挖掘时,还不能完成任务。从技术角度看,
20、今后数据挖掘软件还在努力改进如下的一些方面:采用更多的数据挖掘技术,以解决更多更复杂的数据挖掘任务需要;实现与更多种类数据库和数据仓库的无缝连接;增强对更多数据类型,特别是半结构化、非结构化数据的分析能力;提供更便捷的用户使用界面和更开放的接口以便于其他软件产品相互集成。1 1 4 应用背景数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。对于企业来说,数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型的模型。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。据I D C 发布的报告,2 0 0 2 年,数
21、据挖掘市场大概约为2 2 亿美元,估计在5 年内市场的年增长率为3 2 4,其中亚太地区为2 6 6。在国内,在金融领域,管理者可以通过对客户偿还能力以及信用的挖掘分析,进行分类,评出等级,从而可减少放贷的麻木性,提高资金的使用效率。电信业也利用数据挖掘技术来对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。随着各个企业业务的发展,大、中、
22、小型企业积累了大量的业务数据资料。尽管数据挖掘的好处已经引起国内许多企业的重视,并在电信、金融等大型企业http:/ 2 本课题的主要研究内容向顾客提供大量产品的国内和国际销售商都面临着共同的挑战:确保其众多的商店具有适当的产品库存级别。确定适当的库存级别问题需要在以下两种竞争成本间进行权衡。l、高级别库存的存储成本。这些成本指分销商为安全的实际空间、额外的供应商购买以及在所有商店中与维持高级别产品库存相关的分配所支付的代价。2、丧失销售机会的成本。如果顾客进入商店,想要购买某种特定的产品,但由于该产品己销售而无法供货,就形成了这些成本。面对这种进退两难的情况,分销商通常有两种选择。分销商可以
23、保持高库存,而承担高库存成本;或者保持低库存成本,而承担在顾客需要购买时由于没有产品而丧失销售机会的风险。权衡这些竞争成本的最佳方式是构建预测模型来确保每个商店都具有适当的库存级别。公司依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,他们希望(从主要财务主管到库存管理员)通过一些更准确的方法来预测其商店应保有的库存。本课题重点在于1、确定适合化妆品分销行业的数据挖掘模型,采用数据挖掘技术为产品存储决策提供准确及时的信息,在商店产品级别上提供脱销预测。并进一步指导企业及时调整安全库存级别,达到库存成本与丧失的销售机会之间的平衡。2、使用现有的微软平台的数据挖掘工具和
24、技术实现数据挖掘模型的应用,使其帮助企业通过挖掘结果进行业务决策,充分发挥数据挖掘与分析的商业价值。http:/ 章数据挖掘与化妆品分销行业应用第2 章数据挖掘与化妆品分销行业应用2 1 化妆晶分销行业特点当前大量的国内和国际销售商都面临确保其众多的商店具有适当的产品库存级别的问题。需要在高级别库存的存储成本和丧失的销售成本之间进行平衡。在化妆品分销行业,由于产品通常都是单价高的进口商品,其库存与销售机会之间的矛盾则更为突出,其特点如下:1、化妆品商品的独特性。与其它销售不同,化妆品商品的品牌效应较其它商品更为突出,且特定产品替代品很少或者没有。例如,每一款香水都具有其独特的香味,当客户所要购
25、买的香水断货时,大多数客户会放弃购买,而不是去购买另一款香水。2、专柜分销的高库存成本。通过在各大商场建立分销专柜进行销售,由于商场的租金高,且化妆品价值高,多数在商场没有专门存放货品的仓库,所有商品均放置在专柜的狭小空间里。因此,若在各专柜保持高库存级别,则会造成库存成本过高。3、库存与销售机会之间的高敏感性。由于专柜销售,存储空间不足,某种商品库存量过大,势必会造成其他商品库存小。由于客户对特定品牌,特定款型的化妆品的认知度较高,一旦出现库存不足的情况,就很容易导致销售机会的丧失。4、较长的采购周期,库存反应能力差。由于高档化妆品多从国外进口,从下订单到发货,到运输,再经过海关商捡后,才能
26、进入总部的总库,然后才能从总部库发货至各专柜。整个周期通常需要几个月的时问,因此当出现断货的情况时,其反应能力较差,会导致大量销售机会的丧失。5、时尚行业,潮流变化快。实际上,多数的企业为了保证其销售收入而保持高库存,由此导致流动资金的大量占用。当潮流变化时,没有足够的资金支撑起新产品的引入,同样会导致销售机会的丧失。综上所述,能够准确地销售、库存预测是化妆品分销行业的重点,只有对销售进行比较准确的预测的情况下,才能建立适当的库存级别,适当的降低库存量,http:/ 2 一般分销行业的数据挖掘与化妆品分销行业的专柜分销不同,在其他分销行业中,更注重渠道方式的销售策略。以计算机销售为例,计算机工
27、业从无到有,从科研试制走向大规模工业化生产,引导着I T 产业飞速向前发展。随着科技的进步、竞争的激烈,分销渠道在P C 行业的发展中占据着越来越重要的地位,几乎所有的厂商和分销商都意识到渠道建设的重要性。分销渠道如今已成为P C 企业间竞争的一个重要砝码。畅通的销售渠道意味着成本的降低、效率的提高和利润的增加。计算机市场的分销渠道由厂商(供应商)、分销商、(各级)代理商、经销商及用户等组成。其中,分销商主要承担实体分销(如储运等)任务,将商流和物流有机地结合起来,而代理商则更偏重于市场开拓、运作和满足用户需求(经销商所起的作用与代理商十分相似,两者的差别只在于是否对商品持有所有权。在P c
28、厂商的渠道建设中,协调好这几方面的关系是保证渠道畅通的重要因素。因此,在数据分析与数据挖掘方面,渠道式分销行业的关注点在于以下几个方面:1、如何挖掘、选择最有潜力的经销商分销商。2、控制账龄,提高资金周转速度。3、管好库龄,保持合理的库存结构。4,监督规范销售渠道,控制产品流向、流速和流量。5、如何发现和扫除分销渠道销售盲点。6、如何发现和避免产生渠道冲突,即产生价格竞争和窜货问题。2 3 零售物流行业的数据挖掘由于一般的分销行业的行为特点与挖掘方向与化妆品分销行业不尽相同,因此我们又对零售物流行业的数据挖掘进行了比较研究。零售物流行业本身具有全天候、高负荷、高节奏、高效率、低成本的行业特点。
29、与相对简单的化妆品分销对库存的资金占用管理比较而言,现代物流是包括运输、仓储、配送、搬运、包装和物流再加工等诸多环节的全程物流管理。并且,每个环节信息流量十分巨大。http:/ 章数据挖掘与化妆品分销行业应用尤其是现代信息化物流网络体系的应用使原来数据库的规模不断扩大,产生巨大的数据流,使企业很难对这些数据进行准确、高效的收集和及时处理,以此帮助决策者做出快速、准确地决策,实现对物流过程的控制,降低整个过程的物流成本。因此针对此行业特点,数据分析与挖掘技术主要需要帮助企业在物流信息系统管理中,及时、准确地收集和分析客户、市场、销售及整个企业内部的各种信息。并且根据零售数据,可以对客户的行为及市
30、场趋势进行有效的分析及数据挖掘,了解不同客户的爱好,从而可以为客户提供有针对性的产品和服务,大大提高各类客户对企业和产品的满意度。对零售物流行业进行数据分析与挖掘时,要关注几个方面1、根据供应链管理的要求,将企业各部门及上游制造商、下游零售等信息联结在一起,最大限度地实现信息共享,提高信息透明度,通过数据分析及挖掘实现对整个供应链条的快速反应。2、对历史数据进行数据长期趋势的分析,预测未来一段时间内的库存量变化,实现前瞻性调拨,增强适应突发因素的能力,为决策者的长期决策行为提供有力的数据支持。3、根据零售信息统计,对客户购买行为进行数据分析与挖掘。例如,购买可口可乐的客户是否会购买薯片;某产品
31、促销队客户购买行为的影响。4、对客户消费心理、购买动机等进行数据分析与挖掘,如客户到底要买什么;客户为什么不再上门;产品及其服务和客户本身的利益关系等。化妆品分销行业在供应链,库存预测方面与零售物流行业具有一定的共性,但由于其通常情况下商品种类少,可替代品少,采购周期更长的特点,它对特定产品的库存及销售机会更为敏感。2 4 其他行业的数据挖掘与传统行业不同,电信、金融与保险等行业消费的是非库存,不占用物理空间的产品,因此这些行业在数据分析与挖掘方面关注点有所不同。首先,电信行业在进行数据分析与挖掘需要对运营商海量历史数据进行统一整合,并对客户的基本属性、呼叫行为、缴费情况、客户服务投诉情况等数
32、据深入分析,重点针对客户进行分析和挖掘。比如,如何提炼已流失或有流失趋势客http:/ 顾客购买该新产品的可能性。利用数据挖掘对客户数据仓库中的数据进行分析和处理,分析哪些因素容易导致欺诈,如何预测到可能发生的欺诈,采取何种措施可以减少欺诈的发生,以便分析和评价欺诈风险的严重性和发生的可能性,准确、及时地对各种欺诈风险进行监视、评价、预警和管理,进而采取有效的规避和监督措施,在欺诈风险发生之前对其进行预警和控制等。2 5 化妆品分销行业的数据挖掘通过对上述各个行业特点及数据挖掘应用的分析,我们发现各行业在数据挖掘特点上与化妆品分销行业的要求具有一定的相似性,但是又不能完全满足和适http:/
33、章数据挖掘与化妆品分销行业应用应化妆品分销行业的数据挖掘要求。因此,我们考虑在借鉴相应的应用技术基础上构建更适合于化妆品分销行业的数据挖掘模型及应用。此数据挖掘和分析应用应具备以下特点一、适合化妆品分销行业,并对其他行业的数据分析与挖掘应用起到一定的参考作用。本数据挖掘模型及其应用要专门针对化妆品分销行业的特点,最大程度保证适度的库存成本,即在保持低库存成本的情况下,尽量保证不丧失销售机会。在化妆品分销行业具有一定的可推广性。同时,考虑到其他比较关心库存的行业,如超市、零售、物流等,也要具有一定的参考作用。二、能够与企业经营业务全面结合,实现对业务决策的指导与参考。本数据分析与挖掘模型在应用后
34、,可以为企业提供较为准确的销售预测等信息,在此基础上与企业经营管理相结合,提升企业竞争力。1、销售预测是制定企业销售计划的基础。企业根据各产品、商店、月销售预测,能够生成详细销售计划,从而指导库存、采购、物流等相关环节。同时,可根据产品级销售预测和实际销售情况,及时调整库存安全级别,保持库存成本和销售机会成本之间的平衡。2、通过制定的销售计划可以及时合理地考核相关人员的业绩。3、对产品、商店等销售情况进行对比、趋势等分析,及时发现异常情况,进行策略调整,如促销,调价等。4、能够帮助财务获得相关信息,如财务预算,利润分析及其他相关财务指标,有利于进行财务决策。三、投入资金少,节约成本,可充分利用
35、现有资源,在无需大量投资的基础上取得经济效益。由于大多数的化妆品分销行业的公司,在规模与资金上仍然属于中小型企业,因此其不具备银行、保险等大型企业投资商业智能决策系统的大量资金。从系统运行上,多数的中小型企业的E I u P 系统也都建立在W i n d o w s 操作系统T F I I S Q Ls 即数据库平台之上。因此,我们的数据挖掘和分析应用可以仅使用S Q LS e r v e r自带的I n t e g r a t i o nS e r v i e c e,A n a l y s i sS e r v i c e 和R e p o r tS e r v i c e 上,而无需额外
36、投资购买相关软件,节约了资金,适合于中小企业使用。http:/ Q LD M X,M D X 语句进行数据挖掘,用户不仅可以将挖掘结果通过微软的R e p o r t i n gS e r v e r,B u s i n e s sS c o r e c a r dm a n a g e r 或S h a r e p o i n tP o r t a l 来展示挖掘结果,也可以使用第三方产品,如P r o c l a r i t y 或自行编写程序进行结果渲染。2 6 本章小结本章首先分析了化妆品分销行业的特点,从而得出此行业数据分析与挖掘的重点与方向。然后,对类似或相关行业的数据挖掘应用进行
37、了研究和分析,其中包括一般分销行业、零售物流行业、电信、金融、保险等行业。综合分析后发现,虽然各行业中都有些技术和内容可以借鉴,但是没有能够完全满足和适应化妆品分销行业的数据挖掘模型及应用,从而得出结论:需要重新构建适合化妆品分销行业的数据挖掘模型及应用,并对其所需具备的特点进行了阐述。http:/ 章化妆品分销行业数据挖掘模型第3 章化妆品分销行业数据挖掘模型3 1 模型概述大多数化妆品分行业的产品属于高档消费品,通过在各大商场设置的专柜进行销售。由此造成仓库面积小、租金高,产品单价高,因此库存成本高。过多的库存储备就会造成流动资金大量占用,企业资金运营成本及风险增高,但过少的库存又会造成销
38、售机会的丧失。因此,他们更关注如何使库存成本和销售机会成本达到一定的平衡,而准确的销售预测则为安全库存级别提供有效的支撑。根据数据挖掘技术应用于不同销售量预测和构建销售模型问题所获得的经验,我们通过两个阶段,构建两个模型来进行数据挖掘,这一过程能够提高预测的准确性。构建模型过程的第1 阶段是基于合计销售量模式对分销商的商店进行分类。构建了质量商店分类模型后,这些分类在构造模型过程的第阶段,使商店,产品级别上的脱销预测更加准确。第1 阶段是将具有相似合计销售量模式的商店进行分类。对具有相似合计销售量模式的商店进行分类的过程称为“商店分类”。通过使用S Q LS e r v e r2 0 0 5A
39、 n a l y s i sS e r v i c e s 中的M i c r o s o f t 分类算法完成商店分类,从而将具有相似合计销售量模式的商店进行分类。属于同一分类的商店比属于不同分类的商店在销售行为上更加相似。构建数据集模型基于从数据仓库派生的合计销售量数据,因此用于对商店进行分类的“相似性”测度是按照此合计销售量数据计算而来的。第阶段通过使用第1 阶段生成的分类模型构建更准确的脱销预测模型。这允许预测算法(例如M i c r o s o f t 决策树或M i c r o s o f t 神经网络)使用分类所得到的结果来提高预测准确性。1、使用数据仓库产品信息(维度)部分中的
40、产品层次结构确定产品P 的产品类别c O),如品牌、系列、产品线。我们假定商店中同一类别的产品具有相似的合计销售量模式。因此,产品结构层次用于标识特定产品P 的相似产品集c。另外,产品分类方法可用于基于商店的销售量通过对产品进行分类来确定与P 产品相似的数据驱动分类。http:/ c l u s t e r 模型来捕获类别为c(p 1(在步骤1中已确定)的商店级属性和销售量。3、将M i c r o s o f t 分类算法应用于数据集D c l u s t e r,以便获得k 个分类(组)的商店,这些商店在类别c Q)的商店级属性和销售量上相似。4、对于在步骤3 中获得的每个分类,l=l,l
41、【:1)使s(1)成为商店集,该商店集属于分类1。对于类别c,这些商店具有相似的类别级合计销售量。2)创建数据集D S(p,s(1),它由s(1)中每个商店s 的历史和当前每周销售量合计以及每周销售量合计变化组成。3)使用决策树算法构建预测模型,应用于数据集D S(p,s(1)。将历史和当前每周销售量合计作为输入属性,将一周和两周脱销布尔标志及销售量作为输出属性。3 2 商店分类子模型3 2 1 聚类算法及应用在商店分类算法选择时,我们使用了聚类算法。聚类分析算法是使用迭代技术将来自数据集的记录分成若干个包含相似特性的簇。通过使用这些簇,可以研究数据,找出彼此之间的相互关系。聚类算法适用于许多
42、领域,主要应用在于根据数据特征进行分类。例如客户关系管理系统将客户分成不同的类别,比如在呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征。除聚类算法外,如决策树等算法也可以处理分类问题。而聚类分析算法与决策树算法等其他算法的区别在于无需指定可预测列便能生成聚类分析模型,并且聚类分析算法能够严格地根据数据以及该算法所标识的分类中存在的关系定型。聚类算法首先进行最初算法分类,然后通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数
43、据的分类。算法将该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止http:/ 章化妆品分销行业数据挖掘模型M i c r o s o f t 的聚类分析算法使用E x p e c t a t i o nM a x i m i z a t i o n(E M)方法来计算点在分类中的适合程度。首先,对于数据库D 中每条记录砸及其属性d,聚类算法通过元素k 的密度函数确定其分布。对于任意x e D,计算其密度概率如下:蹦=伍)胍表示属于聚类 的权重,且否2 t o。函数州,I 垂。):l,t 用来计算属于h 聚类的数据元素,垂代表用来计黝的参数。其中权重厢的计算公式如下:阱揣如果对
44、每个聚类的属性是相对独立的,那么可以将函数届分解,对每个属性玢别进行计算,公式如下:A(x l*。)=I 1 屯qI 电)根据多元高斯分布理论,对每个聚类h=l,七计算公式为:删王舻蕊毒雨d 一言摊冉嘶)j其中瘌m 为列向量,角标7 行代表行向量的转置,(E D 一是。的转置矩阵。圣:(M,脚,E h),h=1,j )表示参数集合,由此得出如下公式:三)=崦l 厶o l,j)l在己知数据库D,记录m 及其属性d 的情况下,聚类算法通过以下步骤进行计算。1、对于数据库D 中的记录x e D,计算h=l。j 的权重,公式如下:叫紫矗黜篙2、更新模型参数,叫“2 互o。http:/ l f l b
45、l l r l)T斗4 4=鼍蟛z 一=杠k 珥。疆D当瞄(妒)一三(妒”)l E 时,计算终止,得出胡i 属聚类,否则,可+J,返回步骤1,继续计算。使用分类算法的结果是得到数据集中的关系并根据这些关系生成一系列分类,对于商店分类来说,就是为了的到根据商店所在的地区、所销售的产品及其销售数量和金额等数据进行计算所得到的更利于预测的分类。聚类算法的分类结果以散点图的形式展示,该图中的每一个点表示一个事例,并且能够直观地表示算法如何对数据进行分组,如下图3 一l 所示。3 2 2 数据集构建图3 一l 散点图F i g u r e3-ID i s t r i b u t i o nG r a p
46、 h商店分类的目标是获得具有相似销售量模式的商店组,着重于产品P 所属的类别c 0)中产品的销售量。用于商店分类的数据集由商店级合计销售量组成。该数据集由具有关键字C a r d C o d e 的单个表组成。C a r d C o d e 用于唯一标识每个商店(即商店中设置的专柜)。由于商店分类任务的目标是根据合计销售量模式的相似性将商店进行分类,因此除了考虑商店本身的地区,类型等属性外,还需建立一组产品相关的合计销售量属性。1、商店属性C a r d N a m e:商店名称C i t y:所属城市http:/ 章化妆品分销行业数据挖掘模型S t a t u s:状态G r p C o d
47、 e:分组类型2、产品P 的所属的类c 0,)的派生属性,通过专家分析,我们使用各品牌下的系列作为产品的分类,统计相关派生数据,包括共3 2 个品牌的6 4 个系列(A N C I L L A R Y、A U T O M N E、B I J A N、B O D Y、B O R A、B o S s、C A N D m S、C L A】旧o R N E、C O M P L E X I O N、C 1 瓜V E、C W、D E LP O Z O、D U E N D E、E C H O、E T E、E Y E S、F A C E、F E N D I、F I R S T、G I o R G I o、G
48、L o W、I I A t、H A I 工D W E E N、H I V E R、H U G O、J A Z Z、J I LS A N D E R、J O O P、K I N G D O M、K R S、L I P S、U Z、U【zC L A m O R N E、L O V E、L I J c!l 称为实例其中E i E F ij=1,2,-,n 谚L P e 和N e 是E 的2 个实例集,分别叫正例集和反例集,假设向量空间E 中的正例集P e 和反例集N e 的大小分别为p,n,I D 3 基于如下两种假设:在向量空间E 上的一颗正确决策树对任意实例的分类概率同正反实例的概率。一棵决策树
49、对一实例做出正确判断所需的信息量为:I(p,n)2-(p p+n)l o g(p p r 峋)l o g(p(p+n)-叫(p+n)l o g 叫(m)+l o g(p(p+n)如果以某属性A 作为决策树的根,则A 具有m 个值 v l,V 2,V m ,它将E 分成m个子集 E l,E 2,,E r a ,假设E t q h 含有P 1 个正例和N t 个反例,那么子集E l 所需的期望信息是H(P t,N 0,以属性A 为根所需的期望熵是:E(A)=(删t)(H N)I(P t,N 0以A 为根的信息熵增益是:G a i n(A)=I(P,N)一E(A)I D 3 选择使G a i n(A
50、)具有最大的属性A 作为根节点,对A 的不同取值对应的E的V 个子集E 谜归调用上述生成过程生成子节点。I D 3 采用自顶向下不回溯的策略搜索全部的属性空间,它建立决策树的算法简单,深度小,分类速度快。但是I D 3 对于大的属性集则执行效率下降快,准确性降低,并且学习能力低下C 4 5 算法是对I D 3 算法的改进,它采用了一种归纳学习的机制,例如,m M 的I n t e|l i g e n t M i n e r 采用的G i n i 算法,G i m 由以下公式计算求得:g i n i(T)=1 一P J=1。如果集合T 分成两部分N 1a n dN 2。那么这个分割的C r i