《CRM数据挖掘.ppt》由会员分享,可在线阅读,更多相关《CRM数据挖掘.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 7.4CRM数据挖掘数据挖掘制作:钱奇君 梁红梅 数据挖掘数据挖掘1.数据挖掘概述数据挖掘概述 2.数据挖掘的任务数据挖掘的任务 3.数据挖掘过程数据挖掘过程 4.常用数据挖掘方法常用数据挖掘方法 27.4.1数据挖掘概述数据挖掘概述 技术上的定义及含义技术上的定义及含义 数据挖掘(数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。道的但又是潜在有用的信息和知识的过程。商业角度的定义
2、 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识3n依赖关系分析依赖关系分析(Dependency pattern)n数据分类数据分类(Classfication)n概括概括(Summarization)n偏差分析偏差分析(Deviation)n可视化可视化(Visualization)7.4.2数据挖掘任务数据挖掘任务47.4.3数据挖掘过程数据挖掘过程 57.4.4 7.4.4 数据挖掘的方法数据挖掘的方法1
3、 1、关联分析、关联分析2 2、分类分析、分类分析3 3、聚类分析、聚类分析4、决策树、决策树5、遗传算法、遗传算法6、神经网络、神经网络6关联分析 1.1.若两个或者多个变量的取值之间存在某种规律性,就若两个或者多个变量的取值之间存在某种规律性,就成为关联。成为关联。2.2.关联分析的目的就是找出关联分析的目的就是找出隐藏在数据间的关联或相互关隐藏在数据间的关联或相互关系系 ,并建立起关联规则知识。,并建立起关联规则知识。7关联规则的两个重要特性关联规则的两个重要特性如果客户购买了产品购买了产品如果客户购买了产品购买了产品A A,在,在X%X%的情况下,他也可能购买产品的情况下,他也可能购买
4、产品B B1 1、置信度(、置信度(ConfidenceConfidence),又称为正确率,描述),又称为正确率,描述关联规则的可靠程度。则置信度关联规则的可靠程度。则置信度S=P(B|A),S=P(B|A),表示顾表示顾客选择产品客选择产品A A时若选择产品时若选择产品B B的概率。的概率。2 2、支持度(、支持度(SupportSupport),又称覆盖率,描述关联规),又称覆盖率,描述关联规则的适用范围。则支持度为则的适用范围。则支持度为C=P(AB)C=P(AB),表示顾客同,表示顾客同时选择产品时选择产品A A和产品和产品B B的概率。的概率。8举例:举例:记录号购物清单12345
5、 啤酒、尿布、婴儿爽身粉、面包、雨伞尿布、婴儿爽身粉啤酒、尿布、牛奶啤酒、尿布、洗衣粉啤酒、牛奶、可乐上表中,共发生交易上表中,共发生交易5 5次,即次,即T T1 1,T T2 2,T T3 3,T T4 4,T T5 5交易中的商品设为项,即啤酒为交易中的商品设为项,即啤酒为X X1 1,尿布为,尿布为X X2 2,婴儿爽身,婴儿爽身粉为粉为X X3 3,面包为,面包为X X4 4,牛奶为,牛奶为X X5 5,洗衣粉为,洗衣粉为X X6 6,可乐为,可乐为X X7 7。9问题:问题:超市经理想知道商品之间的关联,要求列超市经理想知道商品之间的关联,要求列出哪些同时购买的,且支持度出哪些同时
6、购买的,且支持度0.4 0.4 的商品名的商品名称。称。单项统计结果单项统计结果单项统计单项统计支持度支持度啤酒啤酒尿布尿布婴儿爽身粉婴儿爽身粉牛奶牛奶0.80.80.40.410双项统计双项统计支持度支持度啤酒,尿布啤酒,尿布啤酒,牛奶啤酒,牛奶尿布,婴儿爽身粉尿布,婴儿爽身粉0.60.40.4双项统计结果双项统计结果双项统计结果双项统计结果得出如下规则:得出如下规则:得出如下规则:得出如下规则:R R R R1 1 1 1:啤酒:啤酒:啤酒:啤酒尿布,尿布,尿布,尿布,S=0.6S=0.6S=0.6S=0.6,C=0.6/0.8=0.75C=0.6/0.8=0.75C=0.6/0.8=0.
7、75C=0.6/0.8=0.75R R R R2 2 2 2:尿布尿布尿布尿布啤酒啤酒啤酒啤酒,S=0.6S=0.6S=0.6S=0.6,C=0.6/0.8=0.75C=0.6/0.8=0.75C=0.6/0.8=0.75C=0.6/0.8=0.75R R R R3 3 3 3:牛奶牛奶牛奶牛奶啤酒啤酒啤酒啤酒,S=0.4S=0.4S=0.4S=0.4,C=0.4/0.4=1C=0.4/0.4=1C=0.4/0.4=1C=0.4/0.4=1R R R R4 4 4 4:啤酒:啤酒:啤酒:啤酒牛奶,牛奶,牛奶,牛奶,S=0.4S=0.4S=0.4S=0.4,C=0.4/0.8=0.5C=0.4/
8、0.8=0.5C=0.4/0.8=0.5C=0.4/0.8=0.5R R R R5 5 5 5:尿布:尿布:尿布:尿布婴儿爽身粉,婴儿爽身粉,婴儿爽身粉,婴儿爽身粉,S=0.4S=0.4S=0.4S=0.4,C=0.4/0.8=0.5C=0.4/0.8=0.5C=0.4/0.8=0.5C=0.4/0.8=0.5R R R R6 6 6 6:婴儿爽身粉婴儿爽身粉婴儿爽身粉婴儿爽身粉尿布尿布尿布尿布,S=0.4S=0.4S=0.4S=0.4,C=0.4/0.4=1C=0.4/0.4=1C=0.4/0.4=1C=0.4/0.4=111关联规则的支持度与置信度的实际意义关联规则的支持度与置信度的实际意
9、义置信度低置信度高支持度低关联规则很少正确,而且很少被使用关联规则在多数情况下是正确的,但是很少被使用支持度高关联规则很少正确,但可以经常被使用关联规则在多数情况下是正确的,但可以经常被使用12分类分析分类分析 分类(Classification)是找出一个类别的概念描述。它代表了这类数据的整体信息,即该类的内涵描述。分类的目的是建立一个分类函数或分类模型,它能把数据库的数据项映射到某一个给定的类别中,研究每个类别的特点。13聚类分析聚类分析 聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的
10、过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。14决策树 决策树决策树(decision tree)一般都是自上而下的来生成的。每个一般都是自上而下的来生成的。每个决策决策或事件(即自然状态)或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。干,故称决策树。决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。示。选择
11、分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。15遗传算法遗传算法 遗传算法是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出,它以一种群体中的所有个体为对象,并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。作为一种新的全局优化搜索算法,遗传算法以其简单通用、适于并行处理以及高效、实用等显著特点,在各个领域得到了广泛应用,取得了良好效果,并逐渐成为重要的智能算法之一。16人工神经网络人工神经网络 人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connectionist Model),是对人脑或自然神经网络(Natural Neural Network)若干基本特性的抽象和模拟。人工神经网络以对大脑的生理研究成果为基础的,其目的在于模拟大脑的某些机理与机制,实现某个方面的功能。它是一种运算模型,常用于发现一组输入数据和一个结果间的未知联系。17