《采用聚类分析的数据挖掘技术进行电信市场客户分群(11页).doc》由会员分享,可在线阅读,更多相关《采用聚类分析的数据挖掘技术进行电信市场客户分群(11页).doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-采用聚类分析的数据挖掘技术进行电信市场客户分群-第 11 页作者:苏宁军 引言随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受,并渴望通过从数据中挖掘价值来减少营销成本、提高营销效益。近几年迅速崛起的数据挖掘技术成为实现这些目标的必要手段。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。电信各运营支撑系统所积累的海量历史数据是企业的一笔宝贵财富,谁能正确地挖掘与
2、分析隐含在数据中的知识,谁就能更好地向用户提供产品与服务,从而在竞争中脱颖而出。数据挖掘提供了从数据到价值的解决方案:“数据 + 工具+方法+目标+行动=价值”。数据挖掘目前已有一系列应用:分类分析、聚类分析、预测分析、偏差分析、关联分析和时序模式等,这些应用涉及到的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。由SPSS、NCR和Daimler-Benzd在1996年提出的CRISP-DM方法论是国际上数据挖掘行业流行的标准,其成功之处在于源于实践,是实际数据挖掘项目的智慧和经验的结晶。CRISP-DM定义了数据挖掘项目的标准化流程,如图1所
3、示。图1CRISP-DM方法论准确的细分市场和差异化的营销策略是目前电信企业市场营销所必须面对的难题。所谓市场细分是指营销者根据顾客之间需求的差异性,把一个整体市场划分为若干个消费者群的市场分类过程。由于顾客对电信产品需求的多样性、变动性以及电信企业资源的有限性,电信企业在进行市场营销过程中,必须进行市场分析,选择目标市场,做出市场定位,并结合目标市场的特点和结构制定有针对性的市场营销策略。客户分群是了解客户进行市场细分和目标市场营销的前提。数据挖掘的分类和聚类的方法都可应用于客户分群。下面我们将对用聚类方法进行客户分群的实现模式进行详细阐述,为电信目标市场营销的客户分群提供完整的解决方案,并
4、以实际案例验证其可行性。基于聚类分析的客户分群聚类(clustering)是指把一组个体按照相似性归成若干类别,即“物以类聚”,其目的是使得属于同一类别的个体之间的相似度尽可能大,而不同类别的个体之间的相似度尽可能小。相似度是根据描述对象的属性来测算的,距离是经常采用的度量方式。聚类和分类有着很大的区别:分类时,我们总是事先知道哪些属性是重要的,运营商总是将重要的、有影响力的属性作为分类的依据;而聚类时,运营商事先根本不知道哪些属性起作用,任务之一就是要找到那些起关键作用的属性。聚类分析能够帮助我们发现特征迥异的不同客户群,和对客户分群起关健作用的指标变量,并辅助运营商对各客户群的特征进行深刻
5、洞察。1客户分群的商业理解依据CRISP-DM流程首先要进行客户分群的“商业理解”,这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。我们必须明确项目的商业目标,这个目标应该是适于用基于聚类分析的客户分群方法去达到的。比如某电信运营商定义的客户分群的商业目标是“对某市数十万公众客户,从价值和行为的分析维度进行客户分群,以了解不同客户群的消费行为特征,为发展新业务、流失客户保有、他网用户争夺的针对性营销策略的制订提供分析依据,并实现企业保存量、激增量的战略目标”。电信客户从营销属性分为三类:公众客户、商业客户和大客户,其中公众客户消
6、费行为有较大的随机性,客户分布难有规律可寻,比较适于聚类分析。我们可以将此商业目标转化为数据挖掘的可行性方案:从价值和行为维度,考察客户业务拥有与使用、消费行为变化、他网业务渗透等方面属性,采用聚类分析的数据挖掘技术对研究的目标客户 (公众客户、入网时长、地域属性、产品拥有类型等方面限定)进行客户分群,对各客户群进行特征刻画和属性分析,为针对性营销确定目标客户群,并根据客户群属性和营销目标量体裁衣制订恰当的营销方案。由于客户的特性是不断变化的,数据挖掘的分析结果具有一定时效性,因此数据挖掘必须以项目来实施,在目标、进度和资源安排上明确要求。2.2 客户分群的数据理解“巧妇难为无米之炊”,数据是
7、挖掘的基础,在确定目标和方案后需要进行“数据理解”,以确定要支持我们的分析目标需要哪些方面的数据,数据基础是否已经具备,数据质量是否能满足要求,如果不能得到肯定的答复,我们建议推迟项目实施直至条件成熟,因为“进去的是垃圾出来的仍是垃圾”,错误的分析结果可能会给我们带来重大的损失。比如在上述案例中,我们分析了各业务系统及企业数据仓库中客户信息、客户消费及购买使用行为三个方面最近六个月的历史数据。电信企业拥有业务受理开通的CRM系统,进行计费、帐务及欠费处理的计费系统,卡类业务的智能网系统,客户服务的10000号系统,营销服务的渠道系统,还有结算系统、宽带、窄带及小灵通系统等等,这些业务系统储蓄了
8、企业运营的海量客户数据。有些电信企业还建立了数据仓库系统,对这些数据进行了清洗、整合和集中,建立了企业统一数据视图,并确保了数据来源的广泛性、完整性和准确性,为数据挖掘创造了更好的条件。我们从企业数据仓库中确定了以下数据的来源: 客户基本资料 用户基本资料 帐单信息 本地通话信息 长话通话信息 卡通话信息 结算信息 窄带使用信息 宽带使用信息 客服交互行为 缴费信息 欠费信息 服务使用信息除了数据源分析,数据理解阶段的另一些重要任务是进行数据探索和检验数据质量。我们可以借助一些可视化工具或统计分析进行数据探索,以明确数据的分布状况和重要的属性及其关系。比如通过值分析对数据进行基本的探查,包括空
9、值、唯一值、空字符串、零值、正值、负值的统计;统计分析计算各数值型变量的最小值、最大值、均值、标准差、众数等,有利于发现一些异常值,便于更好地理解数据;频次分析、直方图分析有助于更准确地了解数据的分布,从中发现有价值的点,其中频次分析主要面向离散型变量,而直方图分析主要面向连续型变量。数据探索有助于提炼数据描述和质量报告,还能发现数据异常,并为进一步的数据转换和数据准备打基础,甚至可能直接指向数据挖掘的目标。数据探索的同时可以全面检验数据质量,对数据的完整性、正确性、一致性有更细致的认识。除了统计分析,抽样核查比较也是数据检验常用的方法,在进行数据质量核查时,需要有对数据意义和取值范围敏感的业
10、务人员参与。2.3 客户分群的数据准备“数据准备”包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图2所示。图2. 数据准备流程选择数据 决定用来分析的数据。选择标准包括与数据挖掘目标的相关性,数据质量和工具技术的限制,如对数据容量或数据类型的限制。数据选择包括数据表格中属性(列)和记录(行)的选择。我们可以分主题在企业数据仓库中选择我们需要的各类数据,并进行按月汇总,生成月粒度数据基础表。基础表中每个用户每个帐务月的信息汇总成一条记录。如在我们的案例中基础表涵盖了以下数据:用户及客户的基本信息
11、 包括客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等价值信息包括话音、宽窄带业务的月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用,还包括了缴欠费信息行为信息包括时长、次数、跳次、发话不同号码数、时长集中度(拨打时长最多的三个号码拨打时长在总时长中占比)、次数集中度基础表中数据属性粒度要求尽量细,以便于在后期灵活构建数据。我们将以上价值和行为变量从专业(区内、区间、本地移动、本地异商固网、传统国内长途、传统国际长途、传统港澳台长途、传统异地行动、IP国内长途、IP国际长途、IP港澳台长途、IP异
12、地行动)和时段(白天:7:00-18:0、晚上:18:00-7:00、特殊时段:0:00-7:00)两个维度进行了划分。清洗数据 将数据质量提高到所选分析技术和分析目标要求的水平。这包括选择需要进行数据清洗的子集,插入适当的默认值或者通过更加复杂的技术如建模来估计缺失值,比如某月份的数据缺失我们可以用前后月份数据的平均值来填充,我们将拥有产品较多(可能不是公众客户)及公免的客户数据剔除。此阶段需要对基础表的数据进一步探索和检验。构建数据 该任务包括构建数据的准备操作,如进行变量设计生成派生属性、生成完整的新记录或者已存属性的转换值(将字符型字段转化为数值型字段)。在基础表基础上通过抽取、合并、
13、衍生得到分主题汇集的价值变量和行为变量形成的中间表,中间表中每个用户6个月的信息汇总成一条记录。抽取指直接从基础表中选择变量进行汇总;合并指将基础表中多个字段合并成一个字段汇总,如将区内通话时长和区间通话时长合并成本地通话时长;衍生指根据各种逻辑关系派生出新的变量,如均值变量、占比变量、趋势变量、波动变量等。在进行变量设计时建议技术人员和业务人员密切配合讨论,根据业务需要、挖掘目标及数据源的实际状况确定数据选择,确定基础变量和数据源的映射关系,确定衍生变量的数据转换逻辑。中间表变量命名的规范化有助于用户理解、记忆和应用,便利于将来数据挖掘的应用分析。变量命名采用对变量属性进行描述的分段的英文缩
14、写(首字母大字)用下划线连接来实现,字段按属性意义从大到小的范围排列,从而在对变量进行排序时可以把同一类型的变量聚集在一起,便于分析,如“价值/行为(v/b)_业务专业(Inner/Inter/Tol)_地域(Dms/Int/Gat)_拨打方式(Trd/IP)_ 值类型(Amt/Fee/Dur/Cnt/Dstn)_衍生值类型(Trd/Rat)”。中间表可以按模块化原则来设计实现,可随着应用和业务发展的需要不断进行扩充。整合数据 对各中间表的数据进行联合,生成最终的分析数据集也称宽表。我们以客户标识为主键,串联起客户相关的所有信息数据,建立起统一客户视图。在整合数据时,我们要回顾商业理解阶段对数
15、据挖掘目标的定义,以使我们的分析数据集能满足需求。有些电信企业由于历史数据以用户为中心,难以建立起统一客户数据视图;这时可使数据挖掘的目标限定于对某类用户进行分析;或以分析某类用户为主,通过企业数据库中用户之关的关系数据,去关联其它产品信息辅助分析。在完成数据整合后,我们需要再次对数据质量进行核查。格式数据 格式化转换是指根据建模的要求,对数据表现形式进行变换,如用K均值算法做聚类分析时,需要先将数据进行标准化处理,对数据进行Z变换,以消除量纲不同可能引起的数据差异。2.4 客户分群的模型建立在生成最终分析的数据集后,就可以建立模型进行聚类分析了。“模型建立”阶段主要是选择和应用各种建模技术,
16、同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术,每一类技术又有多种实现算法。聚类分析常用的有k-means算法、Gaussian算法和Poisson算法,后两种算法对数据分布有所要求。由于电信客户对各类产品的消费情况有较大差别,变量中会出现较多的0值,比如大量客户国际长途、电话卡或增值业务等的消费记录可能都为0值,因此适合用k-means算法来建立聚类模型。k-means算法通过随机点划分K个类,每条记录被归到类中心距它距离最近的类中。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数(建议值5、7、9)、最大迭代步数(建议值100)
17、等。宽表中包含了大量客户数据变量,但我们只需要挑选部分变量参与建模;参与建模的变量太多会削弱主要业务属性的影响,并给理解分群结果带来困难;太少则不能全面覆盖需要考察的各方面属性,可能会遗漏一些重要的属性关系。输入变量的选择对建立满意的模型至关重要。我们应结合商业理解,选择有重要业务意义并与数据挖掘目标密切相关的变量;被选择的变量应具备较好的数据质量;被选变量之间相关性不宜太强,如在总量与分量之间只挑选一类参与建模。由于价值变量和行为变量有较强的相关性,我们可以只挑选客户业务收入变量进行客户价值分群,也可只挑选客户消费行为变量进行客户行为分群,根据数据挖掘的商业目标选择一种分群模式。也可以同时用
18、两种分群模式对同一批客户作两次分群,然后根据两次分群的结果进行组合,如先分成7个价值分群,再分成9个行为分群,组合后会有63个子群,见图3。由于组合后子群数目较多不便分析和管理,我们可以借助透视图分析将特征相似的子群进行归并,建议最终归并成7到9个分群。进行价值和行为组合分群的好处是,能同时兼顾考虑价值和行为两方面因素对客户分群的影响,更利于对各分群特征的深刻刻画,并能有效消除单次分群产生的偏差,但过程较为复杂并且不能做到对参与分群客户的全覆盖。图3. 客户价值及行为分群模型建立是一个螺旋上升,不断优化的过程,在每一次分群结束后,需要判断分群结果在业务上是否有意义,其各群特征是否明显。如果结果
19、不理想,则需要调整分群模型,对模型进行优化,称之为分群调优。分群调优可通过调整分群个数及调整分群变量输入来实现,也可以通过多次运行,选择满意的结果。通常可以依据以下原则判断分群结果是否理想:群间特征差异是否明显各分群之间有明显特性差异;各分群主要的特征各不相同;决定各分群主要特征的变量各不相同或变量的取值属性各不相同。 群内特征是否相似各分群有各自明显的特性;各分群有决定其主要特性贡献度最大的变量;决定各分群主要特征的变量在此群中的分布特性与在全体样本中的分布特性有明显差异;分群是否易于管理及是否具有业务指导意义分群的个数及各群人数的分布应相对合理,分群结果能从业务上作出合理理解和解释,并能切
20、合业务需要,实现对客户的深刻洞察,帮助制订合适的营销措施。2.5 客户分群的模型评估在分群调优过程中我们已经需要对模型进行合理评估。在完成模型建立后,从数据分析的角度来看,模型似乎有很高的质量,然而在模型最后发布前仍有必要更为彻底地评估模型和检查建立模型的各个步骤,从而确保它真正地达到了商业目标。我们会与商业分析师,以及行业专家从商业角度来讨论数据挖掘结果以及项目过程中产生的其它所有结论。“模型评估”阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视,此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分地考虑。这种回顾也包括质量保证问题,如:
21、过程的每一步是否必要?是否被恰当地执行?是否可以改进?有什么不足及不确定的地方及会产生何种影响?根据评估结果和过程回顾,决定是完成该项目并在适当的时候进行发布,还是开始进一步的反复或建立新的数据挖掘项目。2.6 客户分群的模型发布模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。根据需要,发布过程可以简单到产生一个报告,也可以复杂到在整个企业中执行一个可重复的数据挖掘过程。客户分群的结果发布是通过客户群特征刻画和客户群属性分析来展现的。特征刻画是对单个客户群特征的详细描述,属性分析是对客户群之间的属性进行比较分析。形
22、成客户分群后,对客户群的特征描述直接影响到营销活动的策划和执行。客户群的特征描述是把很多枯燥无味的数据变成生动形象的客户体现,以帮助市场营销人员更好地理解客户群。参与分群的变量决定了各分群的主要特性,除了对这些变量的统计及分布特性进行深入刻画外,对未参加分群的变量也可在特征刻画阶段来考察其统计特性。特征刻画首先进行客户群特征粗略定性比较分析,然后可利用透视图等工具对各客户群宽表变量分类进行详细的定量刻画,如图4。图4. 客户群特征刻画我们可以在特征刻画的基础上,通过客户与收入分析、ARPU构成分析、长途构成分析、产品渗透率分析、费用趋势分析、优先级分析、入网时长分析、离网率分析、指标统计费用构
23、成分析、费用分布分析等多个方面对各客户群进行属性分析为营销策划提供依据。为辅助营销策划需要对各战略分群的人口、人口占比、收入、收入占比、MOU,各项业务的ARPU、收入占比和变化趋势、渗透率等各项指标进行统计;并结合流失倾向、收入下降趋势、收入潜力(平均ARPU)、人数占比和商业目标,确定进行营销的战略分群的优先级及营销的目标客户群,如图5。图5. 客户群属性分析实践是检验真理的唯一标准,模型发布后也需要在营销实践中验证调整。另外,数据挖掘结果已经成为日常业务和其环境的一部分后,在运用模型的过程中,模型的监测和维护也是十分重要的事情。周密的维护策略将有助于避免不必要地长期误用数据挖掘结果。为了
24、监测数据挖掘结果的发布,项目需要根据应用类型制定一个关于监测过程的详细计划,例如定期察看各分群的主要特性是否已产生较大的偏移和变迁。这些监测一个方面可以对营销效果进行评估反馈,另一方面也为模型的维护和调整提供决策依据,如是否需要运行模型重新生成分群?是否应对模型作出调整或重新生成模型?是否应终止模型的使用?3 战术分群与目标市场营销在获取了客户分群结果,了解了客户之后,应该针对所掌握的情况,有所行动。通过分群我们有了对客户的整体感觉:哪些是最有价值的,哪些是最需要关注的,哪些可能是对企业贡献度最低等等。通过客户分群,得到了的客户的不同贡献及不同的消费特征,进而得到的整体优先级考虑是进行下一步工
25、作的基础和起点,也是客户分群最为重要的收获之一。在客户分群基础上下一步工作就是营销活动的设计与执行。营销活动基本可分为机会识别、营销设计、方案执行、管控调整四个环节。四个环节中,机会识别属于营销活动的战略范畴,因为它决定了营销活动“做什么”,回答的是对谁做营销,对某类业务,做何种营销这样的方向性、全局性问题。营销设计属于战术范畴,因为它决定了营销活动“怎么做”,回答的是如何围绕营销机会分配资源的问题。营销机会确认之后,需要利用企业资源为营销机会设计产品、价格、渠道、传播等事项,使营销机会从概念转化为可执行的营销活动方案。方案执行和管控调整则属于执行层面的环节,通过建立合理的营销组织、激励机制和
26、技能培训,使营销设计的方案得以执行,以完成营销活动。服务于营销机会识别分群属于战略分群,服务于营销设计的分群属于战术分群。上述的客户分群是战略分群,战略分群是营销机会识别的手段,通过战略分群,我们对营销策划有了全局方向性的认识。如对于流失型客户,我们需要优先关注他们,对他们马上采取客户保留的措施;对于增长型和较稳定用户,我们可以通过交叉销售、提升使用的方法,使他们可以使用的更多;对于高价值用户,我们要优先对其采用有关忠诚度管理、客户挽留和客户赢回的一系列措施,使其继续留在电信网内,减少流失,增加收入;对于低价值用户,我们也应该采取措施,增加其使用产品的个数和提升其使用量。而战术分群是先有预定的
27、营销机会,后有分群,分群的目的是设计差异化的4P(产品、价格、促销、渠道 )营销组合,以求最大化的利用营销机会,提升客户价值。通过客户分群(战略分群)确定营销机会,通过再次细分(战术分群)确定营销方案。战略分群关注总体,战术分群关注个体,个体与总体的平均特性不一定一致。采用聚类的分析方法,由于我们在模型建立时需要同时考虑几十个方面的维度,虽然每个分群都有决定其特性的主要属性,但一些个体也会由于次要属性的影响而归到此类中,最终会导致许多个体与总体的平均特性有较大差异。因此在确定战略分群后,还有可能会根据客户特征、商业目标、营销方案的可行性等进一步进行战术分群。同时由于营销方案的普适性,最终会出现
28、:同一战略分群的个体可能归属不同战术分群,不同战略分群个体也可能归属同一战术分群。如在我们的案例中,首先根据上述的客户战略分群,识别出营销优先级最高的三个客户群:高值高危群、经济商务群和传统长途群;然后根据这三个目标客户群的个体和总体特性,同时考虑我们的商业目标和营销方案的可行性、易操作性,从收入的变化趋势和他网IP的使用情况两个维度重新划分出三个战术分群:下降客户群、上升客户群和他网IP客户群,并依据战术分群来设计对应的营销方案,如图6。图6. 战术分群在进行战术分群时我们可以着重关注营销方案制订方面需要考虑的因素,从而使营销方案更可行,更易操作,更有效。由于针对性营销需要对不同的目标客户群
29、制订不同的营销方案,如何通过营销方案的差异来实现对不同客户需求的满足及对不同客户进行区别对待,在有效区隔客户的同时并能提高营销收益,需要周全考虑。结合目标市场的客户特征制订出针对性的营销方案后,我们决定采用直邮、电话营销和社区经理三种区别于大众营销的渠道作为本次营销活动的主要营销渠道。首先通过直邮让客户对营销活动有所了解,然后通过10000号外呼向客户推荐营销套餐,最后通过社区经理上门与客户进行沟通,形成三个波次的营销执行方案。此次基于客户分群的目标市场营销活动的成功率比以往的大众营销高出几倍,投资回报率达到了百分之三千以上。4 总结数据挖掘技术能够解决许多常规的数据分析方法不能解决的问题。一
30、方面,数据挖掘技术可以同时考虑非常多的因素,人观察的纬度就十几二十个纬度,同时观察的纬度不可能超过太多;而数据挖掘技术,比如聚类分析可以同时考虑非常多的因素,甚至达到几十上百个维度。另外数据挖掘可以考察非常大的数据量,也就是说对于大量的数据可以自动的进行分析。并且可以帮助我们去学习新的潜在模式,也就是说我们用人工或者传统的方法很难发现的一些规定。比如聚类分析,除了能够有效地帮助我们划分出特征迥异的客户群,并帮助我们发现决定客户分群的主要属性,实现对各客户群特征的深入洞察;同时,正是因为聚类分析能够从众多的维度去对客户属性作综合考察,因此还能为我们揭示一些我们的经验没有发现的关系,或者对我们的经
31、验给以数据证实,而这些往往会给我们带来一些有价值的意外收获,例如在我们的案例中,我们发现拥有宽带的客户离网率会比较低,拥有增值业务的用户新业务的渗透率较高,增值业务和新业务使用较多的用户与移动用户接触较为频繁,入网时长较短的客户离网率高于老客户,卡类用户对价格比较敏感但产品渗透率较高需求较旺盛,低值用户产品渗透率也低,长途构成对ARPU影响至关重要,长途和区间话务较易流失等等,这些对我们市场营销都很有启发意义。如上所述,聚类分析的数据挖掘技术能够很好地应用于电信目标市场营销,为我们解决客户分群的难题。本文基于实践经验,依据CRISP-DM方法论给出了其完整的解决方案;对“商业理解数据理解数据准备模型建立模型评估模型发布”各个环节的实施关键点结合实例进行了详述阐述;最后还论述了战略分群与战术分群的关系,引导读者对设计有效的目标市场营销方案作更深入的思考。实践证明本文提供的电信目标市场营销客户分群的解决方案是极为成功有效的。(作者单位:浙江省电信企业信息化部)