《数据挖掘概述00553.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概述00553.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、服务即产品服务即产品 品质是生命品质是生命 数据挖掘概述数据挖掘概述贾晓谦贾晓谦贾晓谦贾晓谦2003.8.202003.8.20内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A概念定义vv什么是数据挖掘?什么是数据挖掘?什么是数据挖掘?什么是数据挖掘?简单的说,就是从大量数据中自动提取知识信息。简单的说
2、,就是从大量数据中自动提取知识信息。简单的说,就是从大量数据中自动提取知识信息。简单的说,就是从大量数据中自动提取知识信息。vv两个要点:两个要点:两个要点:两个要点:自动的自动的自动的自动的 知识信息,模式或规则知识信息,模式或规则知识信息,模式或规则知识信息,模式或规则vv暗示了将使用统计学方法暗示了将使用统计学方法暗示了将使用统计学方法暗示了将使用统计学方法vv数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘的意义在于前瞻性,而不是对历史的简单回顾。数据挖掘不是vv数据挖掘不是数
3、据挖掘不是数据挖掘不是数据挖掘不是 Data warehousingData warehousing SQL/Ad Hoc Queries/ReportingSQL/Ad Hoc Queries/Reporting Online Analytical Processing(OLAP)Online Analytical Processing(OLAP)Data VisualizationData Visualizationvv数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工数据挖掘是对数据的深度加工什么激发了数据挖掘vv此三项技术促进了数据挖掘理论与实践的大发展此三
4、项技术促进了数据挖掘理论与实践的大发展此三项技术促进了数据挖掘理论与实践的大发展此三项技术促进了数据挖掘理论与实践的大发展数据的积累vv数据丰富、信息贫乏数据丰富、信息贫乏数据丰富、信息贫乏数据丰富、信息贫乏 ReportsReports、OLAPOLAP分析呈现的是分析呈现的是分析呈现的是分析呈现的是“轻度加工轻度加工轻度加工轻度加工”后的信息后的信息后的信息后的信息 迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法迫切需要自动搜索模式的方法 需要一种强有力的数据深度分析工具的呼声日渐高涨需要一种强有力的数据深度分析工具的呼声日渐高涨需要一种强有力的数据深度分析
5、工具的呼声日渐高涨需要一种强有力的数据深度分析工具的呼声日渐高涨报表太报表太多!晕多!晕了!了!能能自动自动发现模发现模式吗?式吗?vv年龄在年龄在年龄在年龄在25302530之间之间之间之间,男性男性男性男性ITIT工程师买工程师买工程师买工程师买XXXXXX保险的可能性为保险的可能性为保险的可能性为保险的可能性为35%35%计算能力的增强vv硬件资源硬件资源硬件资源硬件资源 过去过去过去过去3030年,计算机硬件稳步发展年,计算机硬件稳步发展年,计算机硬件稳步发展年,计算机硬件稳步发展 处理器达到了振奋人心的速度处理器达到了振奋人心的速度处理器达到了振奋人心的速度处理器达到了振奋人心的速度
6、 大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能大容量存储设备的问世为数据收集提供可能vv软件资源软件资源软件资源软件资源 特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务特别是并行处理系统的发展,使计算机有能力处理更复杂的任务统计分析算法的应用技术分类数据挖掘数据挖掘描述描述类类预测预测类类回归回归分析分析关联规则关联规则决策树决策树聚类聚类时间序列时间序列神经网络神经网络分类分类应用领域vv金融行业金融行
7、业金融行业金融行业 贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析贷款偿还预测和客户信用度分析 目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类目标客户群的识别,分类与聚类 险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险险种关联分析,预测购买了某个险种的客户是否会买另一种保险vv电信行业电信行业电信行业电信行业 流失客户分析流失客户分析流失客户分析流失客户分析 盗用模式分析和异常模式识别盗用模式分析和
8、异常模式识别盗用模式分析和异常模式识别盗用模式分析和异常模式识别 通话量时间序列分析通话量时间序列分析通话量时间序列分析通话量时间序列分析vv零售业零售业零售业零售业 产品相关性分析产品相关性分析产品相关性分析产品相关性分析 客户忠诚度分析客户忠诚度分析客户忠诚度分析客户忠诚度分析vv生物医学生物医学生物医学生物医学 DNADNA序列间相似搜索和比较序列间相似搜索和比较序列间相似搜索和比较序列间相似搜索和比较内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典
9、型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A数据挖掘方法论vvCRISP DMCRISP DM Cross-Industry Standard Process For Data Mining Cross-Industry Standard Process For Data Mining 当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一当今流行的数据挖掘流程标准之一 由由SPSS、NCR、Daimler-Benz制定制定制定制定 数据挖掘方法论
10、 商业理解商业理解商业理解商业理解 数据理解数据理解数据理解数据理解 数据准备数据准备数据准备数据准备 建立模型建立模型建立模型建立模型 总体评估总体评估总体评估总体评估 模型发布模型发布模型发布模型发布商业理解vv 商业理解商业理解商业理解商业理解 确定业务目标确定业务目标确定业务目标确定业务目标 资源评估资源评估资源评估资源评估 确定数据挖掘目标确定数据挖掘目标确定数据挖掘目标确定数据挖掘目标 制定数据挖掘项目计划制定数据挖掘项目计划制定数据挖掘项目计划制定数据挖掘项目计划数据理解vv 数据理解数据理解数据理解数据理解 收集初始数据收集初始数据收集初始数据收集初始数据 描述数据描述数据描述
11、数据描述数据 分析数据分析数据分析数据分析数据 检查数据质量检查数据质量检查数据质量检查数据质量数据准备vv 数据准备数据准备数据准备数据准备 选择数据选择数据选择数据选择数据 清洗数据清洗数据清洗数据清洗数据 构建数据结构构建数据结构构建数据结构构建数据结构 集成数据集成数据集成数据集成数据 规范化数据规范化数据规范化数据规范化数据建立模型vv 建立模型建立模型建立模型建立模型 选择模型技术选择模型技术选择模型技术选择模型技术 设计实验设计实验设计实验设计实验 建立模型建立模型建立模型建立模型 访问模型访问模型访问模型访问模型模型评估vv 模型评估模型评估模型评估模型评估 评估数据挖掘结果评
12、估数据挖掘结果评估数据挖掘结果评估数据挖掘结果 处理过程回顾处理过程回顾处理过程回顾处理过程回顾 制订下一步的计划,如何改进制订下一步的计划,如何改进制订下一步的计划,如何改进制订下一步的计划,如何改进模型发布vv 模型发布模型发布模型发布模型发布 制订发布计划制订发布计划制订发布计划制订发布计划 制订监控和维护策略制订监控和维护策略制订监控和维护策略制订监控和维护策略 产生最终报告产生最终报告产生最终报告产生最终报告 项目回顾项目回顾项目回顾项目回顾内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施
13、过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A应用举例 决策树vv案例描述:案例描述:案例描述:案例描述:某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡某超市对会员实行卡式管理,分为金卡、银卡、铜卡、普通卡 持有不同卡的客户应该得到不同的服务持有不同卡的客户应该得到不同的服务持有不同卡的客户应该得到不同的服务持有不同卡的客户应该
14、得到不同的服务 金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征金卡客户应该提供什么服务?需要找出金卡客户的人群特征 一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现一个新登记的客户成为金卡客户的可能性有多大?服务上要有体现vv研究方法:研究方法:研究方法:研究方法:以决策树作为挖掘工具来寻找持卡客户的人群特征以决策树作为挖掘工具来寻找持卡客户的人群特征以决策树作
15、为挖掘工具来寻找持卡客户的人群特征以决策树作为挖掘工具来寻找持卡客户的人群特征 选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据选取年收入、婚姻状况、家庭子女数作为培训数据 选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体选取会员卡属性作为被预测实体 应用举例 决策树金卡客户金卡客户金卡客户金卡客户收入在收入在收入在收入在1515万万万万美金以上的客美金以上的客美金以上的客美金以上的客户成为金卡客户的可户成为金卡客户的可户成为金卡客户的可户成为金卡客户的可能性为能性为能性为能
16、性为4 45.09%5.09%远大于全部事件的远大于全部事件的远大于全部事件的远大于全部事件的11.5%11.5%应用举例 决策树收入在收入在收入在收入在1515万万万万美金以上的、美金以上的、美金以上的、美金以上的、已婚已婚已婚已婚客户成为金卡客客户成为金卡客客户成为金卡客客户成为金卡客户的可能性为户的可能性为户的可能性为户的可能性为8181.05%.05%应用举例 决策树收入大于$15万元/年是否$3万收入2铜卡(81.86%)2 下页下页应用举例 决策树形成树形成树2 2、计算培训数据列上、计算培训数据列上、计算培训数据列上、计算培训数据列上的的的的信息增益信息增益信息增益信息增益年收入
17、年收入年收入年收入=0.246=0.246 婚姻状况婚姻状况婚姻状况婚姻状况=0.151=0.151 家庭子女数家庭子女数家庭子女数家庭子女数=0.048=0.048性别性别性别性别=0.029=0.0291 1、计算成员卡分、计算成员卡分、计算成员卡分、计算成员卡分类所需的类所需的类所需的类所需的数学数学数学数学期望期望期望期望=0.94=0.943 3、年收入上的、年收入上的、年收入上的、年收入上的信息增益信息增益信息增益信息增益最大,所以作为根最大,所以作为根最大,所以作为根最大,所以作为根节点,依次类推节点,依次类推节点,依次类推节点,依次类推应用举例 决策树应用举例 聚类vv案例描述
18、:案例描述:案例描述:案例描述:某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放某超市定期给会员发送促销杂志,效果不好。原因是对所有会员都发放 同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;同样的杂志,而促销的广告内容只能适合某一部分人,众口难调;市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客
19、户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同市场部门打算对所有会员客户进行一下分类,针对不同的人群发放不同 内容的杂志。内容的杂志。内容的杂志。内容的杂志。vv研究方法:研究方法:研究方法:研究方法:以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;以聚类作为挖掘方法来对客户群进行细分;选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培选取会
20、员的自然属性年收入、婚姻状况、家庭子女数、教育程度作为培 训数据;训数据;训数据;训数据;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;选取销售额作为划分自然属性的度量值;预先设置的聚类数为预先设置的聚类数为预先设置的聚类数为预先设置的聚类数为3 3,既打算把所有会员客户分成,既打算把所有会员客户分成,既打算把所有会员客户分成,既打算把所有会员客户分成3 3类。类。类。类。应用举例 聚类选择第一类客选择第一类客选择第一类客选择第一类客户户户户(46.8%46.8%)第一类客户主要由中等收入第一类客户主要由中等收入第一类客户主要由中等
21、收入第一类客户主要由中等收入客户构成,而且都是单身客户构成,而且都是单身客户构成,而且都是单身客户构成,而且都是单身无子女,每年在本店平均无子女,每年在本店平均无子女,每年在本店平均无子女,每年在本店平均消费消费消费消费72.4272.42美元美元美元美元选择第二类客选择第二类客选择第二类客选择第二类客户户户户(31.5%)(31.5%)第二类客户主要由中等收入第二类客户主要由中等收入第二类客户主要由中等收入第二类客户主要由中等收入客户构成,大多持有铜卡客户构成,大多持有铜卡客户构成,大多持有铜卡客户构成,大多持有铜卡每年在本店平均消费每年在本店平均消费每年在本店平均消费每年在本店平均消费28
22、8.25288.25美元美元美元美元选择第三类客选择第三类客选择第三类客选择第三类客户户户户(22.7%)(22.7%)第三类客户主要由低收入客第三类客户主要由低收入客第三类客户主要由低收入客第三类客户主要由低收入客户构成,学历较低持普通户构成,学历较低持普通户构成,学历较低持普通户构成,学历较低持普通卡,每年在本店平均消费卡,每年在本店平均消费卡,每年在本店平均消费卡,每年在本店平均消费168.35168.35美元美元美元美元应用举例 关联分析vv案例描述:案例描述:案例描述:案例描述:为了分析商品之间的联系,选取为了分析商品之间的联系,选取为了分析商品之间的联系,选取为了分析商品之间的联系
23、,选取1000010000笔交易作为研究对象。统计发现笔交易作为研究对象。统计发现笔交易作为研究对象。统计发现笔交易作为研究对象。统计发现 有有有有60006000笔包含产品笔包含产品笔包含产品笔包含产品A A,75007500笔包含产品笔包含产品笔包含产品笔包含产品B B,而有而有而有而有40004000笔同时包括笔同时包括笔同时包括笔同时包括A A、B B 两产品。两产品。两产品。两产品。vv研究方法:研究方法:研究方法:研究方法:以关联规则作为分析方法来研究以关联规则作为分析方法来研究以关联规则作为分析方法来研究以关联规则作为分析方法来研究A A和和和和B B之间关系;之间关系;之间关系
24、;之间关系;支持度支持度支持度支持度:表示规定的关联规则必须满足的最小阀值;表示规定的关联规则必须满足的最小阀值;表示规定的关联规则必须满足的最小阀值;表示规定的关联规则必须满足的最小阀值;可信度可信度可信度可信度:表示关联规则成立的最小可信程度。表示关联规则成立的最小可信程度。表示关联规则成立的最小可信程度。表示关联规则成立的最小可信程度。应用举例 关联分析vv研究结果:研究结果:研究结果:研究结果:支持度支持度支持度支持度(Support)=(Support)=(同时购买同时购买同时购买同时购买A A和和和和B B的交易数的交易数的交易数的交易数)/)/交易总数交易总数交易总数交易总数 =
25、4000/10000 =4000/10000 =40%=40%可信度可信度可信度可信度(Confidence)=(Confidence)=(同时购买同时购买同时购买同时购买A A和和和和B B的交易数的交易数的交易数的交易数)/)/购买了购买了购买了购买了A A的交易数的交易数的交易数的交易数 =4000/6000 =4000/6000 =66%=66%结论结论结论结论:购买购买购买购买A A产品的顾客有同时买产品的顾客有同时买产品的顾客有同时买产品的顾客有同时买B B产品的可能产品的可能产品的可能产品的可能 (Support=40%,Confidence=66%Support=40%,Con
26、fidence=66%)。)。)。)。内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A应用状态vv数据挖掘是一种技术,和其他的技术一样也需要时间和精力来研究、开发,数据挖掘是一种技术,和其他的技术一样也需要时间和精力来研究、开发,数据挖掘是一种技术,和其他的技术一样也需要时间和精力来研究、开发,数据挖掘
27、是一种技术,和其他的技术一样也需要时间和精力来研究、开发,最终逐步成熟。整个生命周期应包含下列几个阶段:最终逐步成熟。整个生命周期应包含下列几个阶段:最终逐步成熟。整个生命周期应包含下列几个阶段:最终逐步成熟。整个生命周期应包含下列几个阶段:创创新新者者早早期期接接受受者者沟沟坎坎早早期期多多数数接接受受者者后后期期多多数数接接受受者者落落后后 应用状态vv目前已经有许多通用的数据挖掘系统,但都是给那些非常熟悉数据挖掘和目前已经有许多通用的数据挖掘系统,但都是给那些非常熟悉数据挖掘和目前已经有许多通用的数据挖掘系统,但都是给那些非常熟悉数据挖掘和目前已经有许多通用的数据挖掘系统,但都是给那些非
28、常熟悉数据挖掘和数据分析技术的专家设计的,这就是使得系统很难被企业经理或普通百姓数据分析技术的专家设计的,这就是使得系统很难被企业经理或普通百姓数据分析技术的专家设计的,这就是使得系统很难被企业经理或普通百姓数据分析技术的专家设计的,这就是使得系统很难被企业经理或普通百姓使用。使用。使用。使用。vv目前的数据挖掘系统趋向于适合各种商业应用的目前的数据挖掘系统趋向于适合各种商业应用的目前的数据挖掘系统趋向于适合各种商业应用的目前的数据挖掘系统趋向于适合各种商业应用的横向解决方案横向解决方案横向解决方案横向解决方案,而不是针,而不是针,而不是针,而不是针对某个特定商业应用的解决方案。这不能体现商业
29、逻辑与数据挖掘功能的对某个特定商业应用的解决方案。这不能体现商业逻辑与数据挖掘功能的对某个特定商业应用的解决方案。这不能体现商业逻辑与数据挖掘功能的对某个特定商业应用的解决方案。这不能体现商业逻辑与数据挖掘功能的平滑集成,不要期望通用的数据挖掘系统会象与领域无关的关系数据库那平滑集成,不要期望通用的数据挖掘系统会象与领域无关的关系数据库那平滑集成,不要期望通用的数据挖掘系统会象与领域无关的关系数据库那平滑集成,不要期望通用的数据挖掘系统会象与领域无关的关系数据库那样取得成功。样取得成功。样取得成功。样取得成功。vv也有一些好的迹象,例如保险企业收益率分析等也有一些好的迹象,例如保险企业收益率分
30、析等也有一些好的迹象,例如保险企业收益率分析等也有一些好的迹象,例如保险企业收益率分析等纵向解决方案纵向解决方案纵向解决方案纵向解决方案的出现,会的出现,会的出现,会的出现,会为数据挖掘提供一个好的发展方向。为数据挖掘提供一个好的发展方向。为数据挖掘提供一个好的发展方向。为数据挖掘提供一个好的发展方向。主要挑战vv为了使数据挖掘成为一种被广泛接受的技术,必须对下列内容做进一步研为了使数据挖掘成为一种被广泛接受的技术,必须对下列内容做进一步研为了使数据挖掘成为一种被广泛接受的技术,必须对下列内容做进一步研为了使数据挖掘成为一种被广泛接受的技术,必须对下列内容做进一步研究和开发究和开发究和开发究和
31、开发 数据挖掘查询语言的标准化数据挖掘查询语言的标准化数据挖掘查询语言的标准化数据挖掘查询语言的标准化 DMQLDMQL(Data Mining Query LanguageData Mining Query Language)增加与用户的交互,联机挖掘增加与用户的交互,联机挖掘增加与用户的交互,联机挖掘增加与用户的交互,联机挖掘 背景知识与可视化技术的结合背景知识与可视化技术的结合背景知识与可视化技术的结合背景知识与可视化技术的结合 有效性和可伸缩性,不能停留在玩具阶段有效性和可伸缩性,不能停留在玩具阶段有效性和可伸缩性,不能停留在玩具阶段有效性和可伸缩性,不能停留在玩具阶段 应付复杂数据类
32、型,如聚类中量刚处理,序列值处理等应付复杂数据类型,如聚类中量刚处理,序列值处理等应付复杂数据类型,如聚类中量刚处理,序列值处理等应付复杂数据类型,如聚类中量刚处理,序列值处理等 文本挖掘,汉语语料库的完善、分词技术的进一步提高文本挖掘,汉语语料库的完善、分词技术的进一步提高文本挖掘,汉语语料库的完善、分词技术的进一步提高文本挖掘,汉语语料库的完善、分词技术的进一步提高内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战
33、未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A如何选择数据挖掘系统vv功能和方法功能和方法功能和方法功能和方法 有些系统只提供一两种数据挖掘功能,而有些支持多种挖掘功能。有些系统只提供一两种数据挖掘功能,而有些支持多种挖掘功能。有些系统只提供一两种数据挖掘功能,而有些支持多种挖掘功能。有些系统只提供一两种数据挖掘功能,而有些支持多种挖掘功能。有些系统只给出某一挖掘功能的一种方法,而有些则提供多种方法。有些系统只给出某一挖掘功能的一种方法,而有些则提供多种方法。有些系统只给出某一挖掘功能的一种方法,而有些则提供多种方法。有些系
34、统只给出某一挖掘功能的一种方法,而有些则提供多种方法。vv与数据库或数据仓库的结合与数据库或数据仓库的结合与数据库或数据仓库的结合与数据库或数据仓库的结合 无偶合。只操作无偶合。只操作无偶合。只操作无偶合。只操作ASCIIASCII数据文件。数据文件。数据文件。数据文件。松散偶合。数据首先被返回到缓冲区或主存,然后利用挖掘功能分析,松散偶合。数据首先被返回到缓冲区或主存,然后利用挖掘功能分析,松散偶合。数据首先被返回到缓冲区或主存,然后利用挖掘功能分析,松散偶合。数据首先被返回到缓冲区或主存,然后利用挖掘功能分析,这样的系统可伸缩性不好。这样的系统可伸缩性不好。这样的系统可伸缩性不好。这样的系
35、统可伸缩性不好。半松偶合。只对少数几个数据挖掘原语(排序、聚合、多路联接)提半松偶合。只对少数几个数据挖掘原语(排序、聚合、多路联接)提半松偶合。只对少数几个数据挖掘原语(排序、聚合、多路联接)提半松偶合。只对少数几个数据挖掘原语(排序、聚合、多路联接)提 供了有效的实现。供了有效的实现。供了有效的实现。供了有效的实现。紧密偶合。最理想的方式,即把数据挖掘查询优化成循环的数据挖掘紧密偶合。最理想的方式,即把数据挖掘查询优化成循环的数据挖掘紧密偶合。最理想的方式,即把数据挖掘查询优化成循环的数据挖掘紧密偶合。最理想的方式,即把数据挖掘查询优化成循环的数据挖掘 和检索过程,在数据库端实现。和检索过
36、程,在数据库端实现。和检索过程,在数据库端实现。和检索过程,在数据库端实现。如何选择数据挖掘系统vv可伸缩性可伸缩性可伸缩性可伸缩性 数据挖掘有两种伸缩性问题,行(记录)可伸缩性和列(维)可伸缩。数据挖掘有两种伸缩性问题,行(记录)可伸缩性和列(维)可伸缩。数据挖掘有两种伸缩性问题,行(记录)可伸缩性和列(维)可伸缩。数据挖掘有两种伸缩性问题,行(记录)可伸缩性和列(维)可伸缩。行扩大行扩大行扩大行扩大1010倍,而执行时间不超过原来的倍,而执行时间不超过原来的倍,而执行时间不超过原来的倍,而执行时间不超过原来的1010倍,则系统在行上可伸缩。倍,则系统在行上可伸缩。倍,则系统在行上可伸缩。倍
37、,则系统在行上可伸缩。如果执行时间和列(维)呈线性关系,则系统在列上可伸缩。如果执行时间和列(维)呈线性关系,则系统在列上可伸缩。如果执行时间和列(维)呈线性关系,则系统在列上可伸缩。如果执行时间和列(维)呈线性关系,则系统在列上可伸缩。在列上的伸缩性更具有挑战性。在列上的伸缩性更具有挑战性。在列上的伸缩性更具有挑战性。在列上的伸缩性更具有挑战性。vv可视化可视化可视化可视化 挖掘结果可视化。挖掘结果可视化。挖掘结果可视化。挖掘结果可视化。挖掘过程可视化。挖掘过程可视化。挖掘过程可视化。挖掘过程可视化。vv系统平台系统平台系统平台系统平台 UNIXUNIX。WINDOWS WINDOWS 商用
38、数据挖掘系统vvIntelligent MinerIntelligent Miner IBM IBM公司提供的数据挖掘产品,提供了很多挖掘算法:关联、分类、回公司提供的数据挖掘产品,提供了很多挖掘算法:关联、分类、回公司提供的数据挖掘产品,提供了很多挖掘算法:关联、分类、回公司提供的数据挖掘产品,提供了很多挖掘算法:关联、分类、回 归、预测模型、时间序列、聚类。特点有两个,一是算法可伸缩,二是归、预测模型、时间序列、聚类。特点有两个,一是算法可伸缩,二是归、预测模型、时间序列、聚类。特点有两个,一是算法可伸缩,二是归、预测模型、时间序列、聚类。特点有两个,一是算法可伸缩,二是 与与与与DB2D
39、B2数据库系统紧密偶合。数据库系统紧密偶合。数据库系统紧密偶合。数据库系统紧密偶合。vvEeterprise Eeterprise MinerMiner SAS SAS公司开发的产品,特色是提供了多种统计分析工具。公司开发的产品,特色是提供了多种统计分析工具。公司开发的产品,特色是提供了多种统计分析工具。公司开发的产品,特色是提供了多种统计分析工具。vvMineSetMineSet SGI SGI公司开发,特点是具有强大的图形工具,很好的实现了挖掘结果的公司开发,特点是具有强大的图形工具,很好的实现了挖掘结果的公司开发,特点是具有强大的图形工具,很好的实现了挖掘结果的公司开发,特点是具有强大的
40、图形工具,很好的实现了挖掘结果的 可是化问题。可是化问题。可是化问题。可是化问题。vvDBMinerDBMiner 特点是基于数据立方体的联机分析挖掘,包括了有效的频繁模式挖掘功特点是基于数据立方体的联机分析挖掘,包括了有效的频繁模式挖掘功特点是基于数据立方体的联机分析挖掘,包括了有效的频繁模式挖掘功特点是基于数据立方体的联机分析挖掘,包括了有效的频繁模式挖掘功 能和集成的可视化分类方法。能和集成的可视化分类方法。能和集成的可视化分类方法。能和集成的可视化分类方法。内容提要v概念及发展背景概念及发展背景概念及发展背景概念及发展背景v数据挖掘项目实施过程数据挖掘项目实施过程数据挖掘项目实施过程数
41、据挖掘项目实施过程v典型应用举例典型应用举例典型应用举例典型应用举例v未来发展及挑战未来发展及挑战未来发展及挑战未来发展及挑战v数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择数据挖掘系统的选择vQ&AQ&A思考题 1vv数据挖掘只是经理的事还是每个人的事?数据挖掘只是经理的事还是每个人的事?数据挖掘只是经理的事还是每个人的事?数据挖掘只是经理的事还是每个人的事?数据挖掘不可能一直只被经理和商业分析人员使用,每个人都将使用它。数据挖掘不可能一直只被经理和商业分析人员使用,每个人都将使用它。数据挖掘不可能一直只被经理和商业分析人员使用,每个人都将使用它。数据挖掘不可能一直只被经理和商业分析
42、人员使用,每个人都将使用它。未来的发展情况应该是,你使用了数据挖掘提供的功能,但你并不是必未来的发展情况应该是,你使用了数据挖掘提供的功能,但你并不是必未来的发展情况应该是,你使用了数据挖掘提供的功能,但你并不是必未来的发展情况应该是,你使用了数据挖掘提供的功能,但你并不是必 须了解数据挖掘方法。就象你会开车但不一定知道车上某个零部件之间须了解数据挖掘方法。就象你会开车但不一定知道车上某个零部件之间须了解数据挖掘方法。就象你会开车但不一定知道车上某个零部件之间须了解数据挖掘方法。就象你会开车但不一定知道车上某个零部件之间 的公差配合一样。的公差配合一样。的公差配合一样。的公差配合一样。思考题 2vv三种主要的数据仓库应用,信息处理(三种主要的数据仓库应用,信息处理(三种主要的数据仓库应用,信息处理(三种主要的数据仓库应用,信息处理(ReportsReports)、)、)、)、分析处理(分析处理(分析处理(分析处理(OLAPOLAP)、)、)、)、数数数数据挖掘,它们主要区别是什么?据挖掘,它们主要区别是什么?据挖掘,它们主要区别是什么?据挖掘,它们主要区别是什么?