《数据挖掘应用案例教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘应用案例教案.pptx(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1数据挖掘应用案例数据挖掘应用案例第四章第四章 数据挖掘应用案例数据挖掘应用案例 数据挖掘是从海量数据中发现有趣知识的而过程,数据挖掘是从海量数据中发现有趣知识的而过程,数据挖掘是从海量数据中发现有趣知识的而过程,数据挖掘是从海量数据中发现有趣知识的而过程,这些知识是隐含的、事先未知的潜在有用信息,挖掘的这些知识是隐含的、事先未知的潜在有用信息,挖掘的这些知识是隐含的、事先未知的潜在有用信息,挖掘的这些知识是隐含的、事先未知的潜在有用信息,挖掘的知识表示形式为概念、规则、规律和模式等,是建立在知识表示形式为概念、规则、规律和模式等,是建立在知识表示形式为概念、规则、规律和模式等,是建立在
2、知识表示形式为概念、规则、规律和模式等,是建立在数据仓库基础上的高层应用。结合领域知识和数据分析数据仓库基础上的高层应用。结合领域知识和数据分析数据仓库基础上的高层应用。结合领域知识和数据分析数据仓库基础上的高层应用。结合领域知识和数据分析技术,数据挖掘为许多特定领域提供解决方案,包括金技术,数据挖掘为许多特定领域提供解决方案,包括金技术,数据挖掘为许多特定领域提供解决方案,包括金技术,数据挖掘为许多特定领域提供解决方案,包括金融、零售和通信、科学与工程、入侵检测和防护等。同融、零售和通信、科学与工程、入侵检测和防护等。同融、零售和通信、科学与工程、入侵检测和防护等。同融、零售和通信、科学与工
3、程、入侵检测和防护等。同时也会影响人们购物、工作、搜索信息、使用计算机、时也会影响人们购物、工作、搜索信息、使用计算机、时也会影响人们购物、工作、搜索信息、使用计算机、时也会影响人们购物、工作、搜索信息、使用计算机、保护隐私和数据安全,以及休闲、健康和幸福等日常生保护隐私和数据安全,以及休闲、健康和幸福等日常生保护隐私和数据安全,以及休闲、健康和幸福等日常生保护隐私和数据安全,以及休闲、健康和幸福等日常生活。随着数据挖掘技术的广泛应用,由此所带来的影响活。随着数据挖掘技术的广泛应用,由此所带来的影响活。随着数据挖掘技术的广泛应用,由此所带来的影响活。随着数据挖掘技术的广泛应用,由此所带来的影响
4、也将继续。也将继续。也将继续。也将继续。第1页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例 4.1 案例一:零售商系统货篮数据挖掘案例一:零售商系统货篮数据挖掘 1、Walmart简介简介 Walmart百货有限公司由美国零售业的传奇人物百货有限公司由美国零售业的传奇人物山姆山姆.沃尔顿先生于沃尔顿先生于1962年在阿肯色州成立。经过年在阿肯色州成立。经过50多年的发展,多年的发展,Walmart公司已经成为美国最大的私人公司已经成为美国最大的私人雇主和世界上最大的连锁零售企业。目前,雇主和世界上最大的连锁零售企业。目前,Walmart在全球在全球15个国家开设了超过个国家开设了超
5、过8000家商场,下设家商场,下设53个品个品牌,员工总数牌,员工总数210多万人,每周光临多万人,每周光临Walmart的顾客为的顾客为2亿人次。亿人次。第2页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)1991年,年,Walmart年销售额突破年销售额突破400亿美元,成亿美元,成为全球大型零售企业之一。据为全球大型零售企业之一。据1994年年5月美国财富月美国财富杂志公布的全美服务行业分类排行榜,杂志公布的全美服务行业分类排行榜,1993年年Walmart销售额高达销售额高达673.4亿美元,比上
6、一年增长亿美元,比上一年增长118亿美元,超过了亿美元,超过了1992年排名第一位的西尔斯年排名第一位的西尔斯(Sears),雄踞全美零售业榜首。),雄踞全美零售业榜首。1995年,年,Walmart销售额持续增长,并创造了零售业的一项世销售额持续增长,并创造了零售业的一项世界纪录,实现年销售额界纪录,实现年销售额936亿美元,在财富杂志亿美元,在财富杂志第3页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)美国最大企业排行榜上名列第四。事实上,美国最大企业排行榜上名列第四。事实上,Walmart的年销售额
7、相当于全美所有百货公司的总合,而且至的年销售额相当于全美所有百货公司的总合,而且至今仍保持着强劲的发展势头。至今,今仍保持着强劲的发展势头。至今,Walmart已拥有已拥有2133家家Walmart商店、商店、469家山姆会员商店和家山姆会员商店和248家家Walmart购物广场,分布在美国、中国、墨西哥、加购物广场,分布在美国、中国、墨西哥、加拿大、英国、波多黎各、巴西、阿根廷、南非、哥斯拿大、英国、波多黎各、巴西、阿根廷、南非、哥斯达黎加、危地马拉、洪都拉斯、沙尔瓦多、尼加拉瓜达黎加、危地马拉、洪都拉斯、沙尔瓦多、尼加拉瓜14个国家。它在短短几十年中又如此迅猛的发展,不个国家。它在短短几十
8、年中又如此迅猛的发展,不得不说是零售业的一个奇迹。得不说是零售业的一个奇迹。第4页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)2、Walmart货篮数据挖掘内容货篮数据挖掘内容 Walmart关注客户的货篮。因为关注客户的货篮。因为Walmart认为商品销认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于货售量的冲刺只是短期行为,而零售企业的生命力取决于货篮。一个小小的货篮体现了客户的真实消费需求和购物行篮。一个小小的货篮体现了客户的真实消费需求和购物行为,每一只货篮里都蕴藏着太多的额客户信息。
9、零售业的为,每一只货篮里都蕴藏着太多的额客户信息。零售业的宗旨是服务客户,宗旨是服务客户,Walmart认为商店的管理核心应该是以认为商店的管理核心应该是以货篮为中心的顾客经营模式,商店排名只能体现商店自身货篮为中心的顾客经营模式,商店排名只能体现商店自身的表现,而货篮可以体现客户的购买行为及消费需求,关的表现,而货篮可以体现客户的购买行为及消费需求,关注货篮可以使门店随时掌握客户的消费动向,从而使门店注货篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。始终与客户保持一致。第5页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续
10、)案例一:零售商系统货篮数据挖掘(续)为了能够准确了解顾客在其门店的购买习惯,为了能够准确了解顾客在其门店的购买习惯,Walmart对其顾客的购物行为进行货篮分析,想知道顾客对其顾客的购物行为进行货篮分析,想知道顾客经常一起购买的商品有哪些。商品相关性分析是货篮分析经常一起购买的商品有哪些。商品相关性分析是货篮分析中最重要的部分,中最重要的部分,Walmart数据仓库里集中了其各门店的数据仓库里集中了其各门店的具体原始交易数据。在这些原始交易数据的基础上,具体原始交易数据。在这些原始交易数据的基础上,Walmart利用利用NCR数据挖掘工具对这些数据进行了分析和数据挖掘工具对这些数据进行了分析
11、和挖掘。挖掘。Walmart发现了一个令人难以理解的现象:在某些发现了一个令人难以理解的现象:在某些特定情况下,特定情况下,“啤酒啤酒”与与“尿布尿布”两件看上去毫无关系的两件看上去毫无关系的商品会经常出现在同一个货篮中,这种独特的销售现象引商品会经常出现在同一个货篮中,这种独特的销售现象引起了管理人员的注意。起了管理人员的注意。第6页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)这是数据挖掘技术对历史数据进行分析的结果,这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。那么这个结果符合现实情
12、况吗反映数据内在的规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?于是?是否是一个有用的知识?是否有利用价值?于是Walmart派出市场调查人员和分析师对这一数据挖掘结果派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在藏在“尿布与啤酒尿布与啤酒”背后的美国人的一种行为模式:在美背后的美国人的一种行为模式:在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去购买尿布。父亲在购买尿布的同时,父亲前去购买尿布。父亲在购买
13、尿布的同时,30%40%的的人往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布人往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在一个货篮的现象。这两件看上去不相干的商品经常会出现在一个货篮的现象。第7页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)如果这个年轻的父亲在卖场只能买到两件商品之一,如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到尿布与啤酒为止。一次同时买到尿
14、布与啤酒为止。Walmart发现了这一发现了这一独特的现象,开始在卖场尝试将尿布与啤酒摆放在相独特的现象,开始在卖场尝试将尿布与啤酒摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而并很快地完成购物;而Walmart也可以让这些客户一也可以让这些客户一次购买两件商品,而不是一件,从而获得了很好的商次购买两件商品,而不是一件,从而获得了很好的商品销售收入。品销售收入。第8页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)当然当然“尿布与啤酒
15、尿布与啤酒”的故事必须具有技术方面的的故事必须具有技术方面的支持。支持。1993年,美国学者年,美国学者Agrawal提出通过分析货篮提出通过分析货篮中的商品集合,来找出商品之间关联关系的关联算法,中的商品集合,来找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买性为。并根据商品之间的关系,找出客户的购买性为。Agrawal从数学及计算机算法角度提出了商品关联关从数学及计算机算法角度提出了商品关联关系的计算方法系的计算方法Aprior算法。算法。Walmart从从20世纪世纪90年代尝试将年代尝试将Aprior算法引入算法引入POS机数据分析中,并获机数据分析中,并获得了成功
16、,于是产生了得了成功,于是产生了“尿布与啤酒尿布与啤酒”的故事。的故事。第9页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)按常规思维,尿布与啤酒风马牛不相及,若不是借按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量数据进行挖掘分析,助数据挖掘技术对大量数据进行挖掘分析,Walmart是是不可能发现数据内在的这一有价值的规律的。不可能发现数据内在的这一有价值的规律的。3、Walmart货篮数据挖掘的关联分析过程货篮数据挖掘的关联分析过程 研究商品关联关系的方法就是货篮分析,研究商品关联关系
17、的方法就是货篮分析,Walmart强调找出商品之间的关联关系,比如啤酒与尿布。换句强调找出商品之间的关联关系,比如啤酒与尿布。换句话说,话说,Walmart重点是分析货篮内商品之间的关联关系。重点是分析货篮内商品之间的关联关系。第10页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)以以Walmart为代表的美式货篮分析的目标一般是为代表的美式货篮分析的目标一般是面积巨大(通常都是上万平方米)商品种类繁多(大面积巨大(通常都是上万平方米)商品种类繁多(大多在多在10万种以上)的卖场,所以要通过货篮分析找出万
18、种以上)的卖场,所以要通过货篮分析找出淹没在不同区域商品之间的关联关系,并将这些关联淹没在不同区域商品之间的关联关系,并将这些关联关系用于商品关联陈列、促销等具体工作中,是很难关系用于商品关联陈列、促销等具体工作中,是很难通过人工完成的。比如,啤酒在酒类区域,尿布在婴通过人工完成的。比如,啤酒在酒类区域,尿布在婴儿用品区域,两个商品陈列区域相差几十米,甚至可儿用品区域,两个商品陈列区域相差几十米,甚至可能是能是“楼上、楼下楼上、楼下”的陈列关系,用肉眼很难发现尿的陈列关系,用肉眼很难发现尿布与啤酒存在关联关系的规律。布与啤酒存在关联关系的规律。第11页/共70页第四章第四章 数据挖数据挖掘应用
19、案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)把找出货篮中商品之间关系的方法称为把找出货篮中商品之间关系的方法称为“美式货篮美式货篮”分析法,这种方法适合应用于类似分析法,这种方法适合应用于类似Walmart这样的大卖场,这样的大卖场,用于找出不同陈列区域商品之间的关系。用于找出不同陈列区域商品之间的关系。4、关联规则挖掘过程、关联规则挖掘过程 如何从大型数据库中挖掘关联规则呢?关联规则的挖如何从大型数据库中挖掘关联规则呢?关联规则的挖掘有以下两步:掘有以下两步:1)根据最小支持度找出事务数据库)根据最小支持度找出事务数据库D中所有的频繁项中所有
20、的频繁项目集。目集。2)有频繁项目集合最小支持度产生强关联规则,也可)有频繁项目集合最小支持度产生强关联规则,也可以使用附加的兴趣度来对规则进行度量。以使用附加的兴趣度来对规则进行度量。第12页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)以支持度、信任度、兴趣度三项指标表现的商品以支持度、信任度、兴趣度三项指标表现的商品关联规则。一个正规的货篮分析报表应该采取三个指关联规则。一个正规的货篮分析报表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关标数字,才可以准确地衡量商品是否真的存在关联关系
21、:采取系:采取“支持度(支持度(Support)-信任度信任度(Confidence)”作为主要商品相关性分析指标,为作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用兴趣度(了强化说明关联关系,往往会运用兴趣度(Lift)指标。)指标。第13页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)(1)支持度)支持度 在货篮分析中,支持度指的是多个商品同时出现在货篮分析中,支持度指的是多个商品同时出现在同一个货篮中的概率。比如,尿布与啤酒同时出现在同一个货篮中的概率。比如,尿布与啤酒同时出现在货篮中的
22、概率是在货篮中的概率是20%,称尿布与啤酒的支持度是,称尿布与啤酒的支持度是20%,按照国际命名规则表示为:,按照国际命名规则表示为:啤酒啤酒Implies尿布尿布=20%第14页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)“尿布与啤酒尿布与啤酒”不等于不等于“啤酒与尿布啤酒与尿布”相关性相关性的单向性,是代表商品之间的相关性具有单向性。的单向性,是代表商品之间的相关性具有单向性。“尿布与啤酒尿布与啤酒”代表了一种因果关系。在代表了一种因果关系。在“尿布与啤酒尿布与啤酒”的故事中,年轻的父亲去的目的是购
23、买尿布,在买的故事中,年轻的父亲去的目的是购买尿布,在买尿布的前提下,才会考虑购买啤酒,因此在购买尿布尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有的父亲中有35%购买了啤酒,不代表购买了啤酒的父购买了啤酒,不代表购买了啤酒的父亲有亲有35%购买了尿布,因为这是两类不同的消费行为,购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反商品之间的因果关系也会不同,因此这个故事不能反过来讲。过来讲。第15页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)要看商品之间是否
24、具有相关性,在计算商品之间要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的信任度,从而寻找商品之品之间的相关性具有多少的信任度,从而寻找商品之间的因果关系。由于商品之间关联关系具有单向性,间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:在零售业也会采取这种表示商品关联关系的方式:尿布尿布=啤酒,即尿布与啤酒之间具有关联关系,啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒。方向是从尿布到啤酒。第16页/共70页第四章第四章 数据挖数据挖掘
25、应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)(2)信任度)信任度 信任度是对支持度进行衡量的指标,用于衡量支信任度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指标是将商品同持度的可信度及数据强度。由于这项指标是将商品同时出现在货篮中概率进行反复运算,因此这是衡量商时出现在货篮中概率进行反复运算,因此这是衡量商品相关性的主要指标。品相关性的主要指标。(3)兴趣度)兴趣度 兴趣度又称为提升度,是对支持度、信任度全面兴趣度又称为提升度,是对支持度、信任度全面衡量的指标,很多时候在衡量商品关联关系时只采用衡量的指标,很多时候
26、在衡量商品关联关系时只采用第17页/共70页第四章第四章 数据挖数据挖掘应用案例掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)这一个指标,可见这个指标的重要性。当兴趣度指标这一个指标,可见这个指标的重要性。当兴趣度指标大于大于1.0时,则表明商品之间可能具有真正的关联关系。时,则表明商品之间可能具有真正的关联关系。兴趣度数据越大,则商品之间的关联意义越大。如果兴趣度数据越大,则商品之间的关联意义越大。如果兴趣度小于兴趣度小于1.0,则表明商品之间不可能具有真正的关,则表明商品之间不可能具有真正的关联关系。联关系。在某些情况下,兴趣度会出现负值,此时商
27、品之在某些情况下,兴趣度会出现负值,此时商品之间很可能具有相互排斥的关系,体现在货篮中,就是间很可能具有相互排斥的关系,体现在货篮中,就是这些商品从来不会出现在同一个货篮中。这些商品从来不会出现在同一个货篮中。第18页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)假如有表假如有表4.1的购买记录。的购买记录。顾客顾客项目项目1纸尿片、啤酒纸尿片、啤酒2牛奶、纸尿片、橙汁牛奶、纸尿片、橙汁3纸尿片、卫生纸纸尿片、卫生纸4纸尿片、卫生纸、啤酒纸尿片、卫生纸、啤酒5橙汁橙汁第19页/共70页第四章第四章 数据挖
28、掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)项目项目纸尿片纸尿片橙汁橙汁牛奶牛奶啤酒啤酒卫生纸卫生纸纸尿片纸尿片41122橙汁橙汁12100牛奶牛奶11100啤酒啤酒20021卫生纸卫生纸10002第20页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)表表4.2中行和列数字表示同时购买这两种商品的额中行和列数字表示同时购买这两种商品的额交易条数。如购买有纸尿片的交易条数为交易条数。如购买有纸尿片的交易条数为4,而同时购,而同时购买纸尿片和啤酒的
29、交易数位买纸尿片和啤酒的交易数位2.信任度表示了这条规则在多大程度上可信。计算信任度表示了这条规则在多大程度上可信。计算“如果纸尿片则啤酒如果纸尿片则啤酒”的信任度。由于在含有纸尿片的信任度。由于在含有纸尿片的的4条交易中,仅有条交易中,仅有2条交易含有啤酒,所以其置信度条交易含有啤酒,所以其置信度为为0.5。第21页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)支持度计算在所有交易集中,既有纸尿片又有啤支持度计算在所有交易集中,既有纸尿片又有啤酒的概率。在酒的概率。在5条记录中,既有纸尿片又有啤酒的二级
30、条记录中,既有纸尿片又有啤酒的二级路有路有2条,则此条规则的支持度条,则此条规则的支持度=2/5=0.4。现在这个规。现在这个规则可表述为:如果一个顾客购买了纸尿片,则有则可表述为:如果一个顾客购买了纸尿片,则有50%的可能购买啤酒。而这样的情况(及购买了纸尿片有的可能购买啤酒。而这样的情况(及购买了纸尿片有购买了啤酒)会有购买了啤酒)会有40%的可能发生。的可能发生。再来考虑下述情况:再来考虑下述情况:第22页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)项项 支持度支持度纸尿片纸尿片 0.45 啤酒啤
31、酒 0.42卫生纸卫生纸 0.4纸尿片纸尿片and啤酒啤酒 0.25纸尿片纸尿片and卫生纸卫生纸 0.2啤酒啤酒and卫生纸卫生纸 0.15纸尿片,啤酒纸尿片,啤酒and卫生纸卫生纸 0.05第23页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)以上情况可得到下述规则:以上情况可得到下述规则:规则规则 信任度信任度if 啤酒啤酒 and 卫生纸卫生纸 then 纸尿片纸尿片 0.05/0.15*100%=33.33%if 纸尿片纸尿片 and 卫生纸卫生纸 then 啤酒啤酒 0.05/0.20*100
32、%=25%if 纸尿片纸尿片 and 啤酒啤酒 then 卫生纸卫生纸 0.05/0.25*100%=20%第24页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)上述三条规则,对于规则上述三条规则,对于规则“if 啤酒啤酒 and 卫生纸卫生纸 then 纸尿片纸尿片”,同时购买啤酒和卫生纸的人中,有,同时购买啤酒和卫生纸的人中,有33.33%会购会购买纸尿片。而单项纸尿片的支持度为买纸尿片。而单项纸尿片的支持度为0.45,也就是说在所,也就是说在所有交易中,会有有交易中,会有45%的人购买纸尿片。得到这
33、个规则的意的人购买纸尿片。得到这个规则的意义不大,如果应用商品促销上作用不是很明显。义不大,如果应用商品促销上作用不是很明显。为此引入另外一个量,即兴趣度,以度量此规则是否为此引入另外一个量,即兴趣度,以度量此规则是否可用。描述的是相对于不可用的规则,可用规则可以提高可用。描述的是相对于不可用的规则,可用规则可以提高多少。可用规则的提升度大于多少。可用规则的提升度大于1.计算方式为:计算方式为:第25页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)Lift(A=B)=Confidence(A=B)/Sup
34、port(B)=Support(A=B)/(Support(A)*Support(B)第26页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)接下来就要产生关联规则。首先,找出频繁集。接下来就要产生关联规则。首先,找出频繁集。所谓频繁集指满足最小支持度或信任度的集合。其次,所谓频繁集指满足最小支持度或信任度的集合。其次,从频繁集中找出强关联规则。强关联规则指既满足最从频繁集中找出强关联规则。强关联规则指既满足最小支持度又满足最小信任度的规则。小支持度又满足最小信任度的规则。第27页/共70页第四章第四章 数
35、据挖掘应用案例数据挖掘应用案例4.1 案例一:零售商系统货篮数据挖掘(续)案例一:零售商系统货篮数据挖掘(续)5、Walmart货篮数据挖掘的应用效果货篮数据挖掘的应用效果 Walmart公司的所有分公司的销售数据、库存数公司的所有分公司的销售数据、库存数据每天通过卫星线路传到总部的而数据仓库里,通过据每天通过卫星线路传到总部的而数据仓库里,通过数据仓库对商品品种和库存进行分析,数据仓库对商品品种和库存进行分析,Walmart公司公司可以研究顾客购买趋势、分析季节性购买模式、及时可以研究顾客购买趋势、分析季节性购买模式、及时补充商品、确定促销商品,等等。补充商品、确定促销商品,等等。Walme
36、rt的缔造者的缔造者Sam Walton在他的自传在他的自传Made in America:My Story中,对于数据仓库评价极高,可以说,数据仓中,对于数据仓库评价极高,可以说,数据仓库改变了库改变了Walmart。第28页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测案例二:通信用户满意指数评测 1、通信用户满意度指数评测数据挖掘的背景简介、通信用户满意度指数评测数据挖掘的背景简介 通信行业正面临与日俱增的市场压力、更精明的通信行业正面临与日俱增的市场压力、更精明的竞争对手和更苛刻的消费者。中国通信行业正从快速竞争对手和更苛刻的消费者。中国通
37、信行业正从快速增长阶段迈入平稳增长阶段,服务质量已经成为企业增长阶段迈入平稳增长阶段,服务质量已经成为企业的核心竞争力。因而通信运营商市场营销工作的重点的核心竞争力。因而通信运营商市场营销工作的重点不仅仅是吸引新用户,突出价格策略的重要性,而是不仅仅是吸引新用户,突出价格策略的重要性,而是要将如何维护老用户作为市场营销工作新的重点,从要将如何维护老用户作为市场营销工作新的重点,从而使服务策略的重要性逐渐突现。而使服务策略的重要性逐渐突现。第29页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)目前,市场上的价格
38、竞争将逐渐过渡到服务竞争。目前,市场上的价格竞争将逐渐过渡到服务竞争。各大通信运营商已经形成了较为激烈的竞争格局,随各大通信运营商已经形成了较为激烈的竞争格局,随着国内运营商及国外运营商进入移动通信市场,这种着国内运营商及国外运营商进入移动通信市场,这种竞争愈演愈烈。通信运营商能否在如此严峻的经营环竞争愈演愈烈。通信运营商能否在如此严峻的经营环境下顺利发展,关键因素在于能否站在消费者的角度境下顺利发展,关键因素在于能否站在消费者的角度考虑产品和服务,消费者是否满意其提供的产品或服考虑产品和服务,消费者是否满意其提供的产品或服务。务。“客户满意客户满意”越来越成为众多通信运营商已经意越来越成为众
39、多通信运营商已经意识和正在努力提高的经营指标,成为运营商工作的重识和正在努力提高的经营指标,成为运营商工作的重点。点。第30页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)2、通信用户满意度指数评测数据挖掘的目标、通信用户满意度指数评测数据挖掘的目标 通信用户满意度是衡量通信服务水平的重要指标,通信用户满意度是衡量通信服务水平的重要指标,也是目前世界上许多国家和地区测评通信服务质量的也是目前世界上许多国家和地区测评通信服务质量的通用做法。通信运营商期望通过用户满意度研究了解通用做法。通信运营商期望通过用户满意
40、度研究了解不同品牌客户和集团客户对该公司的整体服务工作的不同品牌客户和集团客户对该公司的整体服务工作的满意度评价,以及不同品牌客户对本公司各商业流程满意度评价,以及不同品牌客户对本公司各商业流程环节上的服务感受及满意度水平,并了解不同品牌客环节上的服务感受及满意度水平,并了解不同品牌客户对本公司的忠诚度。同时判断当前业务、服务工作户对本公司的忠诚度。同时判断当前业务、服务工作第31页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)中存在的主要问题。重点围绕各个商业过程,有针对中存在的主要问题。重点围绕各个商业过
41、程,有针对性地发现问题,从而改善服务。通过满意度指数,比性地发现问题,从而改善服务。通过满意度指数,比较各地市分公司的服务工作差异,以便为省公司的考较各地市分公司的服务工作差异,以便为省公司的考核提供依据。进行与竞争对手核提供依据。进行与竞争对手CSI(Customer Satisfaction Index,顾客满意指数)测评的比较分析,顾客满意指数)测评的比较分析,确定通信运营商在客户服务工作中有待改善的地方,确定通信运营商在客户服务工作中有待改善的地方,并以绩优区域为标杆,不断提高和推动该通信运营商并以绩优区域为标杆,不断提高和推动该通信运营商的用户满意度。预测今后的业务、服务竞争趋势,制
42、的用户满意度。预测今后的业务、服务竞争趋势,制定应对竞争的一系列策略和方案。定应对竞争的一系列策略和方案。第32页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)3、通信用户满意度指数测评数据挖掘的构建模型、通信用户满意度指数测评数据挖掘的构建模型 各方面满意度的而研究,例如,不同品牌客户和各方面满意度的而研究,例如,不同品牌客户和集团客户对整体服务工作的满意度、不同品牌客户对集团客户对整体服务工作的满意度、不同品牌客户对各商业流程环节上的满意度等,都是基于图各商业流程环节上的满意度等,都是基于图4.1所示的所
43、示的满意度框架模型,只是在不同的满意度分析时具体的满意度框架模型,只是在不同的满意度分析时具体的观测指标有些变动,例如,不同品牌相应的商业过程观测指标有些变动,例如,不同品牌相应的商业过程的指标。的指标。第33页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)网络质量网络质量漫游漫游增值服务增值服务计数计数营业厅营业厅热线热线产品及服务产品及服务信息宣传信息宣传积分计划积分计划投诉投诉商业过程商业过程理性驱动理性驱动感性驱动感性驱动满意度满意度忠诚度度忠诚度度转网转网推荐可能性推荐可能性购买更多购买更多可能性可
44、能性继续使用继续使用可能性可能性品牌形象品牌形象情感要素情感要素客户感觉客户感觉服务质量服务质量客户感觉客户感觉价值价值整体费用整体费用图图4.1 通信运营商满意度模型框架示例通信运营商满意度模型框架示例第34页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)4、通信用户满意度指数评测数据挖掘的而结果分析、通信用户满意度指数评测数据挖掘的而结果分析 某第三方机构对通信用户进行了用户满意指数抽样测某第三方机构对通信用户进行了用户满意指数抽样测评。本次测评的对象涵盖全国各地评。本次测评的对象涵盖全国各地4亿多各类通
45、信用户,采亿多各类通信用户,采用概率抽样方式在用户中选取被访样本,并对被选中的用用概率抽样方式在用户中选取被访样本,并对被选中的用户进行问卷调查。在全国范围内共计访问了户进行问卷调查。在全国范围内共计访问了7万多个通信用万多个通信用户,通过电话调查最终完成有效样本户,通过电话调查最终完成有效样本5076个,获得个,获得10多万多万条用户评价信息,处理数据几百万个。条用户评价信息,处理数据几百万个。样本采集按照样本采集按照3阶段阶段PPS概率抽样,每项业务抽取概率抽样,每项业务抽取720个样本,保证了样本数量的广泛性和代表性。个样本,保证了样本数量的广泛性和代表性。第35页/共70页第四章第四章
46、 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)表表4.3列举了参加测评的列举了参加测评的7个对象客户总体满意度指数。个对象客户总体满意度指数。表表4.3 7个评测对象的客户总体满意度指数个评测对象的客户总体满意度指数 评测对象评测对象客户满意客户满意度度通信业通信业务务1通信业通信业务务2通信业通信业务务3通信业通信业务务4通信业通信业务务5通信业通信业务务6通信业通信业务务7客户总客户总体满意体满意度指数度指数75.176.580.179.871.26968.3第36页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.
47、2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)由上表数据可知,在参与评测的由上表数据可知,在参与评测的7个对象中,通信个对象中,通信业务业务1、通信业务、通信业务2、通信业务、通信业务3、通信业务、通信业务4、通信业、通信业务务5的客户总体满意度处于高水平,并比较接近,各运的客户总体满意度处于高水平,并比较接近,各运营商的服务水平比较稳定。其中,通信业务营商的服务水平比较稳定。其中,通信业务3和通信业和通信业务务4的客户总体满意度指数明显高于通信业务的客户总体满意度指数明显高于通信业务6和通信和通信业务业务7,高出近,高出近12个百分点。个百分点。第37页/共70页第
48、四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)与美国、欧洲等过的通信服务满意度指数测评数与美国、欧洲等过的通信服务满意度指数测评数据相比,我国固定、移动电话用户满意度指数的数据据相比,我国固定、移动电话用户满意度指数的数据具有可比性。固定电话和移动电话的用户满意度指数具有可比性。固定电话和移动电话的用户满意度指数与欧美相比处于较高水平。调查显示,用户对固定电与欧美相比处于较高水平。调查显示,用户对固定电话业务的资费透明度和计费准确性较为关注,对移动话业务的资费透明度和计费准确性较为关注,对移动电话的通话质量和价格水平有改
49、进要求,对电话的通话质量和价格水平有改进要求,对ISP业务的业务的质量改进要求集中于两点:一是提高接通率,二是提质量改进要求集中于两点:一是提高接通率,二是提高网速。高网速。第38页/共70页第四章第四章 数据挖掘应用案例数据挖掘应用案例4.2 案例二:通信用户满意指数评测(续)案例二:通信用户满意指数评测(续)我国通信业务多年持续高速增长,新的网络和新的业我国通信业务多年持续高速增长,新的网络和新的业务层出不穷,电话用户数量逐年猛增。在这样一个快速增务层出不穷,电话用户数量逐年猛增。在这样一个快速增长期,通信服务质量始终是大众关注的热点,也是政府主长期,通信服务质量始终是大众关注的热点,也是
50、政府主管部门监管的重点。虽然目前整体服务质量已有明显提高,管部门监管的重点。虽然目前整体服务质量已有明显提高,用户满意度逐年上升,通信主管部门和各通信运营商的努用户满意度逐年上升,通信主管部门和各通信运营商的努力取得了一定成效,如在用户数激增的情况下,力取得了一定成效,如在用户数激增的情况下,2002年中年中消协全国受理的通信方面用户投诉量反而比消协全国受理的通信方面用户投诉量反而比2001年下降了年下降了1/3,但客观地讲,通信服务质量还是不足,用户抱怨还会,但客观地讲,通信服务质量还是不足,用户抱怨还会存在,通信消费过程中的焦点、热点问题还会不断出现。存在,通信消费过程中的焦点、热点问题还