市场营销中的数据分析方法.ppt

上传人:知****量 文档编号:71809991 上传时间:2023-02-06 格式:PPT 页数:71 大小:4.64MB
返回 下载 相关 举报
市场营销中的数据分析方法.ppt_第1页
第1页 / 共71页
市场营销中的数据分析方法.ppt_第2页
第2页 / 共71页
点击查看更多>>
资源描述

《市场营销中的数据分析方法.ppt》由会员分享,可在线阅读,更多相关《市场营销中的数据分析方法.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、市场营销中的数据分析方法第一页,编辑于星期五:六点 五十二分。2 2/3/2023报告内容v 原理篇客户关系管理中的数量方法v 方法篇数据分析方法概论统计分析方法数据挖掘分析方法v 工具篇常用数据分析工具简介v 总结基本结论第二页,编辑于星期五:六点 五十二分。3 2/3/2023市场营销中的数量决策问题传统的纯粹定性描述方法已远远不能满足现代市场营销实践的需要,为了体现市场营销学本身的科学性和对企业实践的指导性,数据分析理论与方法在市场营销学中占有越来越重要的地位。理论上计量市场营销学的出现理念上数据库营销、关系营销的兴起实务上数据挖掘技术在客户关系管理中的应用探察数量决策问题的两个视角理论

2、上的框架要素实务上的业务流程第三页,编辑于星期五:六点 五十二分。4 2/3/2023视角一:市场营销学的理论框架 核心概念营销观念营销计划营销组织营销控制营销审计产品策略定价策略分销策略促销策略需求分析市场细分目标市场市场定位基础理论战略理论策略理论管理理论第四页,编辑于星期五:六点 五十二分。5 2/3/2023视角一示例:市场营销中的产品决策产品定位定位图分析(感知定位图、偏好定位图等)新产品扩散与产品生命周期管理巴斯模型(BASS Model)生长曲线模型(Growth Curve Model)品牌决策消费者品牌选择模型第五页,编辑于星期五:六点 五十二分。6 2/3/2023视角二示

3、例:电信业业务流程视图(eTOM)运营运营实施实施保障保障计费计费运营运营支撑与支撑与就绪就绪客户关系管理客户关系管理服务管理与运营服务管理与运营资源管理与运营资源管理与运营供应商供应商/合作伙伴关系管理合作伙伴关系管理(应用,计算与网络)企业管理企业管理战略与战略与企业企业规划规划财务与资产财务与资产管理管理企业质量管理企业质量管理管理管理,过程与过程与IT规划规划&架构架构股东与外部股东与外部关系管理关系管理品牌管理品牌管理,市场研究市场研究&广告广告人力资源人力资源管理管理灾难恢复灾难恢复,安全安全&欺诈管理欺诈管理研究与研究与开发开发,技术技术获取获取战略战略,基础设施基础设施&产品产

4、品产品产品周期周期管理管理基础设施基础设施生命周期生命周期管理管理战略与战略与承诺承诺营销营销&产品提供管理产品提供管理服务开发与管理服务开发与管理资源开发与管理资源开发与管理供应链开发与管理供应链开发与管理(应用,计算与网络)客户客户第六页,编辑于星期五:六点 五十二分。7 2/3/2023视角二示例:理解客户与市场市场购买行为消费者购买行为模型消费者品牌选择模型市场需求测量市场需求预测模型市场细分第七页,编辑于星期五:六点 五十二分。8 2/3/2023客户生命周期与市场营销策略客户生命周期客户生命周期在不同生命在不同生命周期阶段需周期阶段需考虑不同问考虑不同问题题如何发现并获取潜在客户?

5、阶段A(Acquisition)客户获取如何把客户培养成高价值客户?阶段B:(Build-up)客户提升如何使客户使用新电信产品?如何培养顾客忠诚度?阶段C:(Climax)客户成熟如何延长客户“生命周期”?阶段D:(Decline)客户衰退如何赢回客户?阶段E:(Exit)客户离网客户价值客户价值多种分析主题在多种分析主题在不同时期应用不同时期应用客户获取市场细分与产品定位目标客户特征识别刺激需求提升销售交叉销售目标营销客户保持生存分析客户风险客户挽留第八页,编辑于星期五:六点 五十二分。9 2/3/2023客户细分细分是指将一个大的消费群体划分成一个个细分群的动作,同属于一个细分群的消费者

6、彼此相似,而隶属于不同细分群的消费者被视为不同。细分的目的可以让管理者从一个比较高的层次上“鸟瞰”整个数据库中的数据,从而可以用不同的方法对待处于不同细分群众的客户,提供相对个性化的服务。客户细分的目的更好的了解客户结构改善客户管理与沟通增加客户贡献度客户细分中的数量方法聚类分析卡方自动交互检测(CHAID)第九页,编辑于星期五:六点 五十二分。10 2/3/2023营销策略营销策略客户保持客户保持基于奖赏及高成本事件驱动的保持策略专注的,区分优先级的Call center支持客户获取客户获取刻画子分群的特征建立跟踪系统(tracking systems)以从价值的角度监控新来的客户交叉销售交

7、叉销售对高价值客户进行交叉销售会产生更大的收益经常地,头20%的客户贡献了将近100%的整体利润.这些客户对CRM策略开发是至关重要的。示例:基于价值的客户细分(高价值客户)第十页,编辑于星期五:六点 五十二分。11 2/3/2023中间层代表了客户的大多数.他们利润较薄(thin margins)但容量巨大(high volume).营销策略营销策略定价与行为改变定价与行为改变识别服务机会 增强可能的定价结构性定价以鼓励改善收益性的行为交叉销售交叉销售利用预测模型识别具有潜在价值的客户利用事件营销与关系营销策略去增加产品的持有量渠道与服务的效率渠道与服务的效率识别高成本/低回报的渠道并重新部

8、署或调整结构定位高成本业务流程以流线化或渠道迁移示例:基于价值的客户细分(中价值客户)第十一页,编辑于星期五:六点 五十二分。12 2/3/2023尽管数量很少(10%to 20%)但他们消除了很大一部分的利润.营销策略营销策略改变定价改变定价识别与负利润相关的定价策略与行为,鼓励服务使用与目标定价以增加或引入由服务改变而带来的可能收入客户风险客户风险避免向具有信用风险的客户进行交叉销售客户获取客户获取识别低价值客户并积极地在获取过程中避免与这类客户发生接触示例:基于价值的客户细分(低价值客户)第十二页,编辑于星期五:六点 五十二分。13 2/3/2023 RetirementAgeChild

9、ren IndependentWealth AccumulationFirst ChildFirst HomePre-RetirementCareer LaunchIndependenceFinancial DebutEmployment ChangeMarriageHigh Value?High Value?Low Value?Low Value?示例:基于生命阶段的客户细分第十三页,编辑于星期五:六点 五十二分。14 2/3/2023客户获取在大多数商业领域中,业务发展的主要指标里包括新客户的获取能力。新客户的获取包括发现那些对你的产品不了解的客户,也包括以前接受你的竞争对手服务的顾客。客

10、户获取中的数量方法特征识别(Profiling and Penetration Analysis)响应模型(Response Model)第十四页,编辑于星期五:六点 五十二分。15 2/3/2023客户保持随着行业的竞争越来越激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作愈来愈有价值。客户保持中的数量方法流失预测模型客户忠诚度模型第十五页,编辑于星期五:六点 五十二分。16 2/3/2023交叉销售与提升销售交叉营销是指你向现有的客户提供新的产品和服务的营销过程。公司与其客户之间的商业关系是一种持续的不断发展的关系,在这种关系建立起来以后,可以有很多种方法来不断改善这种关系。双方的目

11、标是达到双赢的结果,客户获益是由于他们得到了更好更贴切的服务质量,商家则因为增加销售量获利。交叉销售中的数量方法购买倾向预测产品关联分析第十六页,编辑于星期五:六点 五十二分。17 2/3/2023客户流失客户流失预警分品牌、高/中/低价值、主动/被动构建模型分类预测数据挖掘模型客户挽留流程设计彩铃客户流失预警分主动/捆绑构建模型分类预测数据挖掘模型客户挽留流程设计竞争对手流失预警联通用户流失预测客户挽留流程设计第十七页,编辑于星期五:六点 五十二分。18 2/3/2023交叉销售与提升销售购买倾向预测彩铃预测模型彩信预测模型WAP预测模型购物蓝分析产品关联分析营销方案关联分析提升销售价值提升

12、预测模型第十八页,编辑于星期五:六点 五十二分。19 2/3/2023营销案预演营销预演是为了支持业务人员制订新营销预演是为了支持业务人员制订新的资费营销方案,然后对该方案在历的资费营销方案,然后对该方案在历史数据上做相应的测算,从而根据测史数据上做相应的测算,从而根据测算结果来指导下一步工作。算结果来指导下一步工作。第十九页,编辑于星期五:六点 五十二分。20 2/3/2023营销活动管理-CMP需求名称:需求名称:营销活动管理(CMP)提出时间:提出时间:2006-01-01需求提出部门:需求提出部门:市场部需求内容描述:需求内容描述:营销活动管理。通过系统分析定位目标营销的客户群,并自动

13、生成客户群信息进行管理,通过实时跟踪客户的营销情况进行营销策略的调整,并监控渠道销售信息。同时营销活动完成以后进行营销活动的评估。需求时间计划:需求时间计划:计划06年7月前完成东莞、佛山地市的推广。需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:较高要求配合部门:要求配合部门:业务支撑中心、客户服务部其他说明:其他说明:全省推广需求,刘鹏负责需求分析和定位:需求分析和定位:属于05年的需求,已经纳入日常维护,今年需要推广。根据省公司的统一规划安排。省公司时间规划:1.2006年上半年完成省、市二级规划,东莞和佛山推广2.2006年上半年完

14、成三个事件营销第二十页,编辑于星期五:六点 五十二分。21 2/3/2023KPI预测模型需求名称:需求名称:KPI预测模型提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:东莞公司需求内容描述:需求内容描述:KPI指标中的收入指标作为核心指标,规划和预测十分重要。而收入受营销政策与执行的影响较大,传统的历史曲线预测方法与手段不能准确预测当期及下期的收入。实现逻辑:将当期营收款细拆为“当期收入”(如购卡收入、补换卡收入、后付费收入等)与“分期划扣收入”(充值卡收入、营销活动预存款收入等)两个部分。“当期收入”非常稳定,只受季节因素影响,“分期划扣收入”结合号码级数据的消费AR

15、PU可以较为方便地预演推算。推广过去,针对KPI指标的重要指标(如收入、业务量等)都可以进行规划和预测,有效的帮助各部门制定相关的政策策略。需求时间计划:需求时间计划:无需求数据要求:需求数据要求:目前系统数据支撑。需求优先级别:需求优先级别:需求级别待定。需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、市场部其他说明:其他说明:区域接口人负责(刘鹏)需求分析和定位:需求分析和定位:需求可行,可以通过逻辑回归构建模型实现,具体的建设方案需要与相关人员进行细化和确认。第二十一页,编辑于星期五:六点 五十二分。22 2/3/2023个人客户分群需求名称:需求名称:个人客户分

16、群提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:佛山公司需求内容描述:需求内容描述:每个人作为消费者其对同一种产品的具体功能需求和关注点是不同的,因此作为为用户服务的企业,必须尽可能的考虑这些差异,发现这些存在于客户整体内部的具有不同特征或消费习惯的客户群体,然后再根据每个群体的特征执行针对性的管理或营销策略。将这个把客户分成不同群体的过程称之为“客户分群”。通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,对客户总体构成有准确的认识,对客户的服务和营销更具针对性。对客户分群可以达到如下目标:了解客户的总体构成了解各种客户价值的客户

17、群体特征了解流失客户的客户群体特征了解使用各种套餐的客户群体特征了解各消费等级的客户群体特征需求时间计划:需求时间计划:无需求数据要求:需求数据要求:目前系统数据支撑。需求优先级别:需求优先级别:中等需求实施难度:需求实施难度:中等要求配合部门:要求配合部门:业务支撑中心、市场部、数据业务中心其他说明:其他说明:区域接口人负责(刘敏)需求分析和定位:需求分析和定位:需求可行。客户分类/聚类是根据一个或多个客户属性组合把所有客户划分成不同的类,同类内的客户具有最大的相似性,异类间的客户具有最大的差异性。通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,对客

18、户总体构成有准确的认识,对客户的服务和营销更具针对性。对于各种业务(新业务)可以单独进行客户的细分,也可按照各种业务的综合指标进行客户细分,使市场营销更具针对性。第二十二页,编辑于星期五:六点 五十二分。23 2/3/2023个人客户价值评估需求名称:需求名称:个人客户价值评估提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:市场部需求内容描述:需求内容描述:有区别的看待个人客户的差异性,观察其价值特征变化,综合考虑成本,用户成长度,客户消费等因素,通过建模量化个人客户对公司的贡献和价值。客户价值包括客户贡献与客户成本两个侧面,对于前者,客户的帐单金额已是很好的衡量指标,但是

19、也需要综合考虑其他指标(如新业务使用情况、长途或者漫游比例等);而对于后者,由于利用财务数据进行分摊或者活动单位成本进行直接计算还需时日(等待财务部的成本分摊工作完成),故当前阶段是处理贡献类相关指标以供用户直观考察。需求时间计划:需求时间计划:06年3月广州数据集市试点需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、财务部其他说明:其他说明:负责人待定需求分析和定位:需求分析和定位:个人客户价值如果考虑成本分摊,需要等财务部开展的成本分摊完成后才能考虑到地市的实施。第二十三页,编辑于星期五:六点

20、 五十二分。24 2/3/2023新产品生命周期分析需求名称:需求名称:新产品生命周期分析提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:数据业务中心需求内容描述:需求内容描述:目前地市没有明确和急需的需求,只是有个这样的概念和初步的想法。省公司想法是作为一个科研项目来研究和分析,希望能研究一些成果帮助市公司的市场分析和营销策略。需求时间计划:需求时间计划:根据省公司的统一规划安排。需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、市场部其他说明:其他说明:试点科研项目,邓逸斌、

21、刘鹏负责需求分析和定位:需求分析和定位:题目比较难,优先级别比较高,先按照省公司的思路和计划安排走。初步思路进行两个方面的研究:1.现有新业务产品的生命周期曲线研究 本研究的内容主要包括构建产品生命周期曲线预测模型并基于相关产品展开数据实证研究,同时对实证结果进行有效的业务解释并形成合理的政策建议。2.新业务产品生命周期变迁之关键绩效指标的研究 本研究的内容主要包括分析并总结产品生命周期变迁过程中对阶段性转折点具有前瞻警示作用的业务指标,并在此基础之上构建切实可行的关键指标体系第二十四页,编辑于星期五:六点 五十二分。25 2/3/2023报告内容v 原理篇客户关系管理中的数量方法v 方法篇数

22、据分析方法概论统计分析方法数据挖掘分析方法v 工具篇常用数据分析工具简介v 总结基本结论第二十五页,编辑于星期五:六点 五十二分。26 2/3/2023数量分析方法(Quantitative Analysis)数量分析是对事物的数量特征、数量关系与数量变化的分析。数量分析的类型按照分析的目的探索性数据分析描述性数据分析解释性数据分析按照问题的本质确定性分析不确定性分析第二十六页,编辑于星期五:六点 五十二分。27 2/3/2023数量分析中的模型化方法数量模型是对现实问题的描述和模仿模型是为认识目的或实践目的而建立的典型的模型化过程第二十七页,编辑于星期五:六点 五十二分。28 2/3/202

23、3数据分析模型nE.F.Codd的数据分析模型绝对模型(Categorical Model):依据预定义路径寻找原因,如查询解释模型(Exegetical Model):依据多层次路径寻找原因,如多维分析思考模型(Contemplative Model):参数化路径,如场景分析公式模型(Formulaic Model):模型化路径,如数据挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened?Why did it happen?What will happen?ROI应用复杂性应用复杂性Stage 3Stage 2Stage 1Hum

24、an DiscoveryMachine-assisted Discovery第二十八页,编辑于星期五:六点 五十二分。29 2/3/2023常用的数据分析方法/模型数量分析是对事物的数量特征、数量关系与数量变化的分析。数量分析的类型按照分析的目的探索性数据分析描述性数据分析解释性数据分析按照问题的本质确定性分析不确定性分析第二十九页,编辑于星期五:六点 五十二分。30 2/3/2023认识分析数据:数据测量尺度名义尺度有序尺度间隔尺度比例尺度第三十页,编辑于星期五:六点 五十二分。31 2/3/2023认识分析数据:数据结构类型截面数据(Cross-section Data)时间序列数据(Ti

25、me-series Data)面板数据(Panel Data)第三十一页,编辑于星期五:六点 五十二分。32 2/3/2023数据分析的出发点:数据矩阵截面数据(Cross-section Data)时间序列数据(Time-series Data)面板数据(Panel Data)第三十二页,编辑于星期五:六点 五十二分。33 2/3/2023常用的统计分析方法数据分类分析聚类分析判别分析数据化简分析主成分分析因子分析数据相关分析回归分析典型相关分析数据预测分析时间序列预测第三十三页,编辑于星期五:六点 五十二分。34 2/3/2023什么是数据挖掘?DataInformationKnowled

26、geWisdomn存在太多数据挖掘的定义,但基本上有这样一种描述结构To find/discover/extract /dredge/harvest、Interesting/novel/useful/implicit/actable/meaningful、Information/knowledge/patterns/trends/rules/anomalies、In massive data/large data set/large database/data warehouse、Data+contextInformation+rulesKnowledge+experience第三十四页,编辑

27、于星期五:六点 五十二分。35 2/3/2023为什么会出现数据挖掘?n数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(Drowning in data but starving for information)计算复杂度数据管理问题数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?第三十五页,编辑于星期五:六点 五十二分。36 2/3/2023其他数据分析方法:统计学n从处理数据的角度看、数据规模不同数据来源不同:观测数据(Secondary Analysis)VS 试验数据(Primary Analysis)数据类型不同(结构化数据、半结构

28、化数据、非结构化数据)n从分析思想的角度看更关注实证性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis)更关注模型(Model)而非算法(Algorithm)n但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!第三十六页,编辑于星期五:六点 五十二分。37 2/3/2023数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算第三十七页,编辑于星期五:六点 五十二分。38 2/3/

29、2023数据挖掘是一个过程-“from data mining to knowledge discovery in database”.U.fayyad,G.P.Shapiro and P.Smyth(1996)第三十八页,编辑于星期五:六点 五十二分。39 2/3/2023数据挖掘过程中的数据预处理n数据清洗填充缺失值,修均噪声数据,识别或删除孤立点,并解决数据不一致问题主要分析方法:分箱(Binning)、聚类、回归n数据集成多个数据库、数据方或文件的集成n数据变换规范化与汇总n数据简化减少数据量的同时,还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析n数据离散化数据简化的一部

30、分,但非常重要(尤其对于数值型数据来说)第三十九页,编辑于星期五:六点 五十二分。40 2/3/2023数据挖掘过程中的数据探索n探索性数据分析(Exploratory Data Analysis,EDA)探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定“玩”数据n主要任务数据可视化(a picture is worth a thousand words)残差分析(数据拟合+残差)数据的重新表达(什么样的尺度对数抑或平方跟会简化分析?)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)n常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼

31、图、直方图、散点图、箱尾图等模型,如聚类第四十页,编辑于星期五:六点 五十二分。41 2/3/2023数据挖掘结果的评价n兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或者测试数据是有效的、潜在有用或者验证了用户渴望确认的某些假设。目前仍无很好的解决办法,很大程度上仍依靠人工不存在解决这个问题的简单技术,最终答案是不要把数据挖掘当作脱离数据内涵的简单技术来运用客观兴趣度:基于统计或模式的结构,如统计量、支持度、lift等主观兴趣度:基于用户对数据的确信程度,如意外程度、新奇程度或者可行动性等过度拟合(Over-fitting)问题第四十一页,编辑于星期五:六点 五

32、十二分。42 2/3/2023什么不是数据挖掘?n定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。简单的报表、图表及多维分析仍是日常分析工作的主要内容小样本数据的分析传统统计分析方法更成熟有效,如趋势预测某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题第四十二页,编辑于星期五:六点 五十二分。43 2/3/2023几个基本概念n模型(Model)vs 模式(Pattern)数据挖掘的根本

33、目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析n算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出n描述型挖掘(Descriptive)vs 预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,

34、也可以是手段第四十三页,编辑于星期五:六点 五十二分。44 2/3/2023几类基本的挖掘算法n关联规则(模式、描述型)发现数据集中的频繁模式例如:buy(x,”diapers”)buy(x,”beers”)0.5%,60%n分类与预测(模型、预测型)发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示例如:股票市值的预测,病人病情的判断n聚类(模型、描述型)对数据分组以形成新类,类标记是未知的例如:市场细分n孤立点探测(Outlier Detection)(模式、预测型)分析异常或噪声数据的行为模式例如:欺诈检测

35、第四十四页,编辑于星期五:六点 五十二分。45 2/3/2023关联规则的基本概念n基本定义给定(1)事务数据集(2)每个事务是数据项的集合,试图发现项集中的频繁模式或关联关系所谓频繁模式或者关联规则就是一个具有“A B”形式的逻辑蕴涵式频繁模式并不必然蕴涵着因果关系或相关关系!算法实现基本上基于APRIORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的n基本分类布尔关联规则 vs 定量关联规则buy(x,”diapers”)buy(x,”beers”)Age(x,”30.39”)income(x,”42k.48k”)buy(x,”PC”)单维关联规则 vs 多维关联规则单层

36、关联规则 vs 多层关联规则Age(x,”30.39”)income(x,”42k.48k”)buy(x,”IBM PC”)序列模式(Sequence Pattern)数据项是一个包含时间标签的序偶item(i),t第四十五页,编辑于星期五:六点 五十二分。46 2/3/2023关联规则的度量n发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support),s,事务中包含X&Y&Z的概率置信度(confidence),c,事务中包含X&Y的条件下,包含Z的条件概率n令最小支持度为50%,最小置信度为50%,则有A C (50%,66.6%)C A (50%,100%)顾客购买尿布顾

37、客购买尿布顾客购买两者顾客购买两者顾客购买啤酒顾客购买啤酒第四十六页,编辑于星期五:六点 五十二分。47 2/3/2023对支持度与置信度的批判n示例总共5000名学生,其中3000人玩篮球3750人吃谷类食品2000人既玩篮球又吃谷类食品play basketball eat cereal 40%,66.7%是一个误导规则,因为吃谷类食品的学生占学生总数的75%,比66.7%更高play basketball not eat cereal 20%,33.3%其实是一个更精确的规则,尽管它的支持度和置信度都比较低第四十七页,编辑于星期五:六点 五十二分。48 2/3/2023关联规则的应用n市

38、场购物篮分析(Market Basket Analysis)例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务数据项是所有可能陈列货物的全集目标是发现同时出现的货品组合间的关联模式应用:商品货价设计、仓储规划、网页布局、产品目录设计等等n交叉销售(Cross Selling)客户依次购买不同产品的序列目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务应用:网络故障分析、网站门户设计等第四十八页,编辑于星期五:六点 五十二分。49 2/3/2023分类问题的基本定义n给定一数据集合(训练集)数据记录由一系列变量组成其中有一个变量是目标分类标签n寻找一模型,使目标

39、分类变量值是其他变量值的一个函数n利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合第四十九页,编辑于星期五:六点 五十二分。50 2/3/2023分类过程示意训练集训练集分类学习分类学习训练集训练集分类器分类器IF rank=professorOR years 6THEN tenured=yesJef is YES!第五十页,编辑于星期五:六点 五十二分。51 2/3/2023分类中的决策树(Decision Tree)归纳n决策树 类似于流程图的树型结构内部节点代表对某个属性的一次测试分

40、支代表测试的输出结果叶节点代表分类标签或分布n决策树的生成包括两个阶段树的创建首先,所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支n应用决策树:对未知样本进行分类在决策树上测试样本的各个属性值第五十一页,编辑于星期五:六点 五十二分。52 2/3/2023决策树示意age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否购买计算机?第五十二页,编辑于星期五:六点 五十二分。53 2/3/2023聚类的基本概念n基本定义将数据对象集划分成事先未知

41、的分组或类别聚类的原则:类内相似度高,类间相似度低相似度一般为某种距离函数D(i,j)聚类既可以作为独立分析工具考察数据分布结构,也可以作为其他分析方法的预处理步骤很不幸,对聚类结果的评价一般都是主观的n基本分类将数据对象集划分成事先未知的分组或类别第五十三页,编辑于星期五:六点 五十二分。54 2/3/2023聚类示意n基于欧氏距离的三维空间中的聚类A1A2B1xyz第五十四页,编辑于星期五:六点 五十二分。55 2/3/2023从算法到应用第五十五页,编辑于星期五:六点 五十二分。56 2/3/2023报告内容v 原理篇客户关系管理中的数量方法v 方法篇数据分析方法概论统计分析方法数据挖掘

42、分析方法其他分析方法v 工具篇常用数据分析工具简介v 总结基本结论第五十六页,编辑于星期五:六点 五十二分。57 2/3/2023数据分析软件数据分析软件的种类数据分析软件的种类按照分析模式统计分析软件数据挖掘软件OLAP软件科学计算软件按照分析范围通用分析软件专用分析软件按照分析规模企业级分析软件桌面级分析软件第五十七页,编辑于星期五:六点 五十二分。58 2/3/2023数据分析软件的基本特点功能全面,系统地集成了多种成熟的数据分析方法有完善的数据定义、操作和管理功能方便地生成各种统计图形和统计表格使用方式简单、灵活,有完备的联机帮助功能软件开放性好,能方便地和其他软件进行数据交换第五十八

43、页,编辑于星期五:六点 五十二分。59 2/3/2023学习使用统计分析软件的基本方法弄清分析的目的正确收集待处理和分析的数据(目的、影响因素的剔除)弄清分析方法的概念、含义和适用范围。无需记忆公式选择一种或几种分析方法来探索性地分析数据读懂计算机分析的数据结果,发现规律,得出结论第五十九页,编辑于星期五:六点 五十二分。60 2/3/2023SAS:The Power to KnowSAS(Statistical Analysis System)是一个模块化、集成化的大型应用软件系统;目前国际上最流行的一种大型统计分析系统;统计分析的标准软件SAS系统主要完成以数据为中心的四大任务:数据访问

44、;数据管理;数据呈现;数据分析。它由数十个专用模块构成,SAS/STAT(统计分析);SAS/ETS(经济计量与时间序列分析);SAS/QC(质量控制管理);SAS/OR(运筹学);SAS/IML(矩阵运算);SAS/GRAPH(绘图)等第六十页,编辑于星期五:六点 五十二分。61 2/3/2023SPSS:Real Stat,Real EasySPSS(Statistical Package for the Social Science)社会科学统计软件包是世界是著名的统计分析软件之一。SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计

45、算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。第六十一页,编辑于星期五:六点 五十二分。6

46、2 2/3/2023报告内容v 原理篇客户关系管理中的数量方法v 方法篇数据分析方法概论统计分析方法数据挖掘分析方法v 工具篇常用数据分析工具简介v 总结基本结论第六十二页,编辑于星期五:六点 五十二分。63 2/3/2023总结总结 关键是业务问题的发现及其构建以及切实迎合业务需要 从分析方法的角度切入讨论只是手段而非目的 方法还是很重要的 方法应该是最不会成为问题的 方法是个工具箱第六十三页,编辑于星期五:六点 五十二分。关于Teradata第六十四页,编辑于星期五:六点 五十二分。65 2/3/20232005 Revenue by Business UnitTeradata Data

47、WarehouseRetail SolutionsFinancial Solutions Worldwide Customer ServicesSystemediaNCR公司概貌Fortune 500 companyGlobal operations in over 100 countries&territoriesMore than 28,000 employees$6B revenueNon-pension operating income 3 point improvement to 9%第六十五页,编辑于星期五:六点 五十二分。66 2/3/202350%of Top Global R

48、etailers 60%of Top Most Admired Global Companies 90%of Top Global Telco Firms60%of Top Global Airlines50%of the Top Transportation Logistic FirmsTeradata在Fortune500中的优异表现Leading industriesBanking GovernmentInsurance&HealthcareManufacturing RetailTelecommunicationsTransportation LogisticsTravel World

49、 class customer listMore than 800 customersGlobal presence Over 100 countries and territories FORTUNE Global Rankings,July 2005Top Ten Ranking in Fortune 500第六十六页,编辑于星期五:六点 五十二分。67 2/3/2023分析型CRM是擅长之一RetailFinancial TravelCommunications InsuranceManufacturing/SourcingUnion Bank of Norway第六十七页,编辑于星期五

50、:六点 五十二分。68 2/3/2023Technology ROI AwardsHarrahs-Grand Prize WinnerState of Iowa-Winner,Public SectorTDWI Best Practices Award Enterprise Data Warehouse:Union PacificGovernment&Non-profit:State of MichiganWorld Class Solution Awards Jefferson County Public Schools,winner-Data Management category;GCN

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁