《决策支持系统与数据挖掘PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《决策支持系统与数据挖掘PPT讲稿.ppt(133页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、决策支持系统与数据挖掘决策支持系统与数据挖掘第1页,共133页,编辑于2022年,星期五第3次上机:设计表单(FORM)1第第3次上机内容和要求:次上机内容和要求:内容:表单设计内容:表单设计要求:要求:1、预习预习VF教材教材(绿皮书绿皮书)的第的第7章章 表单设计表单设计2、用表单向导为、用表单向导为三张数据表三张数据表设计表单,如设计表单,如P157页图页图7-153、用表单向导设计多表表单,并存放在表单设计器上修、用表单向导设计多表表单,并存放在表单设计器上修 改(利用属性表、控件等工具),要求做改(利用属性表、控件等工具),要求做两个多表表单两个多表表单4、做、做一个一个“欢迎使用教
2、学管理信息系统欢迎使用教学管理信息系统”的表单。的表单。如如P170 页图页图7-27。第2页,共133页,编辑于2022年,星期五第8章 决策支持系统与商务智能(1)决策支持系统与数据挖掘第3页,共133页,编辑于2022年,星期五第8章(1)决策支持和数据仓库 内容提要:内容提要:决策支持系统(DSS)联机分析处理(OLAP)数据仓库和数据挖掘 数据仓库在商业中的应用数据仓库在商业中的应用 主要术语和概念 主要参考资料第4页,共133页,编辑于2022年,星期五数据仓库数据仓库Data warehouse已讲内容与新内容的关系营销系统营销系统生产系统生产系统财务系统财务系统人力管理人力管理
3、决策支持系统决策支持系统DSS数据仓库数据仓库Data warehouse人工智能人工智能AI商务智能商务智能BI计算机计算机数据库数据库网络网络7种种策略策略TCSOAKWSMISDSSESS4种种战略战略MRPMRPIIERPSCMCRMEC数据挖掘数据挖掘Datamining第5页,共133页,编辑于2022年,星期五本章内容提要:相互关系数据仓库数据仓库OLAP决策支持系统决策支持系统数据挖掘技术数据挖掘技术人工智能人工智能商务智能商务智能第6页,共133页,编辑于2022年,星期五决策支持系统、商务智能与数据仓库定义:定义:决策支持系统决策支持系统(decision support
4、system decision support system DSSDSS)为交互式计算机系统)为交互式计算机系统,运用数据、模型分析、运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协专家知识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化决策的绩效和满助个人或团体决策者提升半结构化决策的绩效和满足。在足。在IBMIBM中,又称为中,又称为商务智能商务智能(business business intelligence intelligence BIBI)。)。定义:定义:数据仓库数据仓库(data warehouse data warehouse DWDW)是
5、一种数)是一种数据库概念的延伸与推广,以适应决策支持需要的一据库概念的延伸与推广,以适应决策支持需要的一种数据的集合。种数据的集合。第7页,共133页,编辑于2022年,星期五数据挖掘与联机分析处理定义:定义:数据挖掘数据挖掘(data mining DM)是一种)是一种探索性探索性的分析方法。的分析方法。(根据已经有的数据根据已经有的数据,挖掘其中的规律挖掘其中的规律)定义:定义:联机分析处理联机分析处理(on-line analytical processes OLAP):是一种:是一种验证性验证性分析方法。分析方法。(先定方法先定方法,后由数据验证后由数据验证)第8页,共133页,编辑于
6、2022年,星期五决策支持系统 DSS决策支持系统决策支持系统(deciseiondeciseion support support system system)第9页,共133页,编辑于2022年,星期五DSS和MIS的不同1、MIS 主要为中层管理提供主要为中层管理提供 信息服务信息服务2、主要是通过查询或报表主要是通过查询或报表 进行联机事务处理(进行联机事务处理(OLTP)3、问题问题:结构化问题结构化问题4、使用:使用:5、主要技术主要技术:关系数据库的关系数据库的 关系运算关系运算1、DSS 支持高层的决策支持高层的决策2、主要是通过对话系统主要是通过对话系统 进行联机分析处理(进
7、行联机分析处理(OLAP)3、问题问题:半结构化问题半结构化问题4、使用、使用 历史性数据库历史性数据库5、主要技术:数据挖掘:、主要技术:数据挖掘:依赖性分析、聚类分析、依赖性分析、聚类分析、神经网络、遗传算法、神经网络、遗传算法、粗糙集理论粗糙集理论 数据库数据库数据仓库数据仓库第10页,共133页,编辑于2022年,星期五决策支持系统(DSS)的半结构化问题决策支持系统决策支持系统(DSS)定义定义:为交互式计算机系统为交互式计算机系统,运用数据、模型分析、专家知识及运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协助个人或团体决策者提其他资源通过友善的人机接口互动,协助个
8、人或团体决策者提升半结构化决策的绩效和满意决策。升半结构化决策的绩效和满意决策。给我销售量最好的产品名单给我销售量最好的产品名单 告诉我出现问题的地区告诉我出现问题的地区 告诉我为什么告诉我为什么(向下钻取向下钻取)让我看看其它数据让我看看其它数据(横向钻取横向钻取)显示最大的利润显示最大的利润 当一个地区的销售低于目标时当一个地区的销售低于目标时,提醒我提醒我半结构化问题:半结构化问题:股票管理、股票管理、贸易市场贸易市场开发开发经费预算经费预算资本获利分析资本获利分析等等 问问 题题第11页,共133页,编辑于2022年,星期五决策支持系统(DSS)的基本模式DSS的基本模式:真实系统决策
9、环境操作响应管理者管理者协作协作人员人员与人的行为有关的信息处理数据MIS信息外部数据问题对话系统对话系统数据库数据库系统模型库模型库方法库方法库知识库知识库DSS第12页,共133页,编辑于2022年,星期五决策支持系统(DSS)的基本构件 基本构件基本构件人人 机对话系统:机对话系统:核心是人人机界面机界面提问方式:“如果.则.”能够给用户必要的提示和帮助数据库数据库:MIS的的DB支持日常支持日常事务处理事务处理DSS的数据的数据仓库可以用仓库可以用联机分析联机分析处理处理(OLAP)支持决策。支持决策。方法库方法库:包括通用算法和包括通用算法和标准函数标准函数:排序算排序算法、分类算法
10、、法、分类算法、最小生成树算法最小生成树算法最短路径算法、最短路径算法、线形规划、整数线形规划、整数规划、动态规划、规划、动态规划、各种统计算法、各种统计算法、各种组合算法各种组合算法等等知识库知识库:包括包括知识的获取知识的获取,知识的解释、知知识的解释、知识的表示、知识识的表示、知识推理、知识库的推理、知识库的管理和维护管理和维护。DSS的知识库使的知识库使用的技术和用的技术和专家专家系统与人工智能系统与人工智能技术一致。技术一致。模型库模型库:可以提供推理可以提供推理比较选择、分析比较选择、分析整个问题的模整个问题的模型型,DSS是以模是以模型驱动型驱动的的,可根可根据具体问题生成据具体
11、问题生成决策模型决策模型,输出输出用于制定或估计用于制定或估计决策决策.第13页,共133页,编辑于2022年,星期五数据库、数据仓库、知识库、方法库数据库、数据仓库、知识库、方法库数据库:数据库:指长期储存在计算机内的、有组织的、可指长期储存在计算机内的、有组织的、可共享的数据集合共享的数据集合 数据仓库:数据仓库:不同于数据库。数据库系统不同于数据库。数据库系统是一种通用的平台,用来管理企业的数据;是一种通用的平台,用来管理企业的数据;而数据仓库是一种概念,在此概念下进行而数据仓库是一种概念,在此概念下进行的构造过程,我们叫它数据仓库处理。所的构造过程,我们叫它数据仓库处理。所以,数据仓库
12、不是花钱可以购买的现成产以,数据仓库不是花钱可以购买的现成产品,它是一个建立的过程。品,它是一个建立的过程。知识库知识库(Knowledge Base)是知识工程中结构化,易操作,易利是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对用,全面有组织的知识集群,是针对某一某一(或某些或某些)领域问题求解的需要,领域问题求解的需要,采用某种知识表示方式在计算机存储采用某种知识表示方式在计算机存储器中、器中、组织、管理和使用的互相联系组织、管理和使用的互相联系的知识片存储集合的知识片存储集合。方法库方法库基基本本数数学学方方法法统统计计方方法法优优化化方方法法预预测测方方法法计计划划方
13、方法法金金融融方方法法计计划划评评审审时时间间序序列列矩矩阵阵运运算算线线性性规规划划判判别别分分析析因因子子分分析析关关联联分分析析初初等等函函数数算算法法插插值值算算法法拟拟合合算算法法平平滑滑算算法法外外推推算算法法回回归归分分析析第14页,共133页,编辑于2022年,星期五数据库与数据仓库数据库与数据仓库第15页,共133页,编辑于2022年,星期五数据仓库建立过程建立过程ETL(Extract Transformation Load)数据加载:数据加载:包括数据的抽取、清洗(包括数据的抽取、清洗(Data Cleaning)、转换和加载)、转换和加载第16页,共133页,编辑于20
14、22年,星期五方法库方法库第17页,共133页,编辑于2022年,星期五方法库方法库中的方法模块方法库中的方法模块方法库基本数学方法统计方法优化方法预测方法计划方法金融方法计划评审矩阵计算时间序列线性规划判别分析因子分析二元相关分析方差分析回归分析外推法平滑法拟合法插值法初等函数法第18页,共133页,编辑于2022年,星期五方法库方法库的输出报表图形第19页,共133页,编辑于2022年,星期五知识库知识库第20页,共133页,编辑于2022年,星期五第21页,共133页,编辑于2022年,星期五工程造价与管理知识库知识库第22页,共133页,编辑于2022年,星期五项目管理知识库知识库 第
15、23页,共133页,编辑于2022年,星期五DSS Image Library Browser 第24页,共133页,编辑于2022年,星期五影响影响DSSDSS的因素的因素 (四个四个)&案例案例第25页,共133页,编辑于2022年,星期五DSS的主要关键要素和决策流程决策流程DSS的主要的主要关键要素(关键要素(4个)个)即影响即影响DSS结果的因素:结果的因素:1、环境环境(如环境的压力、(如环境的压力、主主 管的支持、权力和管的支持、权力和 政治结构等)政治结构等)2、任务任务:决策的工作项目:决策的工作项目3、使用者使用者:使用者的认知方:使用者的认知方 式、动机、期望、使用方式式
16、、动机、期望、使用方式4、DSS系统系统:系统设计的质:系统设计的质 量、推动和导人策略等量、推动和导人策略等问题认知情报搜集方案设计选择方案推动结果决策的流程:决策的流程:西蒙的决策过程西蒙的决策过程第26页,共133页,编辑于2022年,星期五DSS Liftoff In Flight 第27页,共133页,编辑于2022年,星期五CLIME-DSS-2.第28页,共133页,编辑于2022年,星期五Leicester(英国累斯特)(英国累斯特),DSS(STScI/AURUA)第29页,共133页,编辑于2022年,星期五商务商务DSS系统第30页,共133页,编辑于2022年,星期五决
17、策支持系统(DSS)的发展趋势发展趋势决策支持系统发展趋势第31页,共133页,编辑于2022年,星期五决策支持系统(DSS)的发展趋势发展趋势1、智能决策支持系统(、智能决策支持系统(IDSS):):人机接口(对话机)自然语言处理系统自然语言处理系统问题处理系统模型库管理系统数据库管理系统方法库管理系统知识库管理系统推理机推理机模型库数据库方法库知识库用户第32页,共133页,编辑于2022年,星期五企业智能决策支持系统架构图第33页,共133页,编辑于2022年,星期五IDSS智能决策支持系统智能决策支持系统第34页,共133页,编辑于2022年,星期五决策支持系统(DSS)的发展趋势发展
18、趋势2、群体决策支持系统(、群体决策支持系统(GDSS)决决策策室室大屏幕大屏幕大大屏屏幕幕大屏幕远程电信会议远程电信会议远程决策远程决策决决策策局局网网第35页,共133页,编辑于2022年,星期五群体决策支持GDSS的类型及相互关系群组决策支持系统(群组决策支持系统(GDSS)就是由就是由DSS演化来的。演化来的。包括:计算机辅助协同工作(包括:计算机辅助协同工作(CSCW)群组决策支持系统(群组决策支持系统(GDSS)电子会议系统(电子会议系统(EMS)它们之间的关系如图:它们之间的关系如图:GDSS专家专家Delphi法法线上投票线上投票多目标决策多目标决策 EMS电子会议电子会议线上
19、讨论线上讨论 CSCW共同编辑共同编辑协同设计协同设计第36页,共133页,编辑于2022年,星期五GDSS群体决策支持系统第37页,共133页,编辑于2022年,星期五the GDSS tools,word processing 第38页,共133页,编辑于2022年,星期五联机分析处理 OLAP联机分析处理(on-line analyticalprocesses)第39页,共133页,编辑于2022年,星期五OLAP技术是与数据仓库技术相伴发展起来的,1993年,“关系数据库”之父E。F。Codd首次提出了OLAP的概念,专门支持复杂的分析操作。OLAP的主要特征是能够提供数据的多维概念视
20、图。多维信息被抽象为立方体,它包括维和度量值,维是我们说的观察角度,度量值是我们关心的指标值。可以使用户从多角度、多侧面、多层次直观地考察数据仓库中数据,深入理解数据中的信息和内含。第40页,共133页,编辑于2022年,星期五基本概念联锁商店的销售金额销售金额(主题主题)的维维1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察角度角度称为称为“维维”,观察,观察深度深度称为
21、称为“层层”。一个维中可以允许有若干层。一个维中可以允许有若干层。NO1NO2NO3ALL一 二 三 四 all (季)(季)TV PC VCDALL产品产品商商店店第41页,共133页,编辑于2022年,星期五什么是联机分析处理(OLAP)什么是联机分析处理(什么是联机分析处理(OLAP)OLAP是一种验证性分析软件,它具有归纳的作用。它将数据仓库中的数据作为分析对象,通过多种复杂操作,可以对高层管理人员提供有力的决策支持。它可以满足分析人员的要求,进行快速灵活地大数据量复杂的操作处理。并且以一种直观、易懂的形式将结果展示给决策人员。第42页,共133页,编辑于2022年,星期五OLAP与O
22、LTP的比较比较项目比较项目OLAP(联机分析处理)联机分析处理)OLTP(联机事务处理)(联机事务处理)应用基础应用基础数据仓库数据仓库DBMS用户用户决策者(高层管理)决策者(高层管理)一般操作者(低、中)一般操作者(低、中)目的目的为决策提供支持为决策提供支持为日常工作服务为日常工作服务数据特征数据特征导出数据导出数据原始数据原始数据数据细节数据细节综合数据细节程度低综合数据细节程度低 细节程度高细节程度高时间特征时间特征历史数据,一个时段历史数据,一个时段 当前数据当前数据数据量需求数据量需求一次处理需大量数据一次处理需大量数据 一次处理需少量数据一次处理需少量数据第43页,共133页
23、,编辑于2022年,星期五Create OLAP 第44页,共133页,编辑于2022年,星期五NET OLAP control界面 第45页,共133页,编辑于2022年,星期五简单联机分析轴侧图结果第46页,共133页,编辑于2022年,星期五OLAP的分析结果第47页,共133页,编辑于2022年,星期五Analyzer OLAP 第48页,共133页,编辑于2022年,星期五OLAP Example 1 第49页,共133页,编辑于2022年,星期五OLAP Market分析 第50页,共133页,编辑于2022年,星期五什么是联机分析处理(OLAP)2、OLAP试测环境构建的4个过程
24、:OLAP 主主 题题OLAP概念模型概念模型-星形、雪花、星座模型星形、雪花、星座模型OLAP 逻辑模型逻辑模型-多维数据模型多维数据模型OLAP 物理模型物理模型-ROLAP/MOLAP第51页,共133页,编辑于2022年,星期五OLAP联机分析概念模型LAP概念模型:星型、雪花型、星座型第52页,共133页,编辑于2022年,星期五基本概念联锁商店的销售金额销售金额(主题主题)的维度1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售
25、金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察深度深度称为称为“层层”。一个维中可以允许有若干层。一个维中可以允许有若干层。NO1NO2NO3ALL一 二 三 四 all (季)(季)TV PC VCDALL产品产品商商店店第53页,共133页,编辑于2022年,星期五OLAP vs 第54页,共133页,编辑于2022年,星期五联机分析处理的基本数据模型OLAP的基本概念的基本概念模型模型:1、星型模型(星型模型(star schema)星型模型的主体是事实表(如:销售表)其主要事实称为量或度量量或度量(如:销售金额),另一种表称为维表维表,用以建立多维结构中的维值,一般
26、有一个事实表和n个维表。在维表 中给出取值条件,在事实表中获得值的结果。商店标识符产品标识符日期标识符 单价 金额日期标识符 日 月 季 年 产品标识符 产品名 类 名 大类名 现存货物日期表(维表)销售表(销售表(事实表事实表)商店表(维表)商店表(维表)商店标识符 商店名 市名 省名 国名 洲名产品表(维表)产品表(维表)实例实例第55页,共133页,编辑于2022年,星期五联机分析处理的基本数据模型2、雪花模式、雪花模式 很多情况维呈现层次状,即具有一定深度。就成为雪花模式。商店标识符 商店名 市标识符 产品标识符 类标识符 产品名 现存货物商店标识符产品标识符日期标识符 单价 牺牲金额
27、日期标识符 月标识符 月年标识符季标识符年标识符季月标识符季标识符月类标识符大类标识符类名国标识符国名洲标识符省标识符省名国标识符市标识符市名省标识符大类标识符大类名洲标识符洲名销售表(事实表)事实表)产品表类表洲表大类表商店表市表省表国表年表日期表月表季表第56页,共133页,编辑于2022年,星期五联机分析处理的基本数据模型3、星座模式、星座模式 通过共享维,将多个星型模式连接在一起,构成星座模式。产品标识符 产品名 类 名 大类名 现存货物日期标识符 日 月 季 年商店标识符产品标识符日期标识符 单价 牺牲金额商店标识符 商店名 市名 省名 国名 洲名产品标识符 日期标识符 供应商标识
28、单价 数量 金额供应商标识符 供应商名 市名 省名 国名 洲名事实表事实表第57页,共133页,编辑于2022年,星期五案例银行交易分析银行交易分析第58页,共133页,编辑于2022年,星期五机构表机构表联机分析处理的实例:银行交易分析OLAP的操作实例的操作实例 (如(如:银行交易分析)银行交易分析)1、雪花模型:、雪花模型:帐号ID统计日期机构代号发生金额发生笔数帐号ID帐户类名称科目名称帐户名称日期ID月ID日月ID年ID 月年ID年省行代号ID省行名时间表帐户表帐户表帐户交易事实表帐户交易事实表交易分析雪花模型交易分析雪花模型OLAP的逻辑模型是的逻辑模型是四维四维数据模型,它的多维
29、数组形式为(时间,帐号,机构,发生金额数据模型,它的多维数组形式为(时间,帐号,机构,发生金额与笔数)如(与笔数)如(2004年年1月月15日,日,4321567,工行汉口分理处,工行汉口分理处,360万元,万元,567笔)笔)第59页,共133页,编辑于2022年,星期五联机分析处理的实例:银行交易分析2、银行交易量分析、银行交易量分析:年年季季月月发生额发生额2003q1119779862903。302003q1210791201658。282003q1318749783281。052003q2419138629532。602003q2517192112346。632003q2620601
30、215354。17年年季季月月发生笔数发生笔数2003q1181,7622003q1253,9652003q1385,3682003q2479,3962003q2568,3342003q26124,123发生发生金额金额发生发生笔数笔数第60页,共133页,编辑于2022年,星期五案例分析结果发现发现2月份交易额萎缩,月份交易额萎缩,1月和月和4月进出资月进出资金量较大,但交易笔数相对比较小。这金量较大,但交易笔数相对比较小。这表明客户进行大笔资金调度,进一步对表明客户进行大笔资金调度,进一步对帐户做切片操作,最终可以将进行大笔帐户做切片操作,最终可以将进行大笔资金调度的客户锁定。资金调度的客
31、户锁定。第61页,共133页,编辑于2022年,星期五逻辑模型逻辑模型(多维数据模型多维数据模型)第62页,共133页,编辑于2022年,星期五联机分析处理的基本概念基本概念基本概念:1、对象(、对象(Object)关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。2、维(、维(dimension)对对象的观察角度称为对对象的观察角度称为“维维”。如在联锁商店的销售金额可以有三维:。如在联锁商店的销售金额可以有三维:时间维:按时间角度分析、统计其销售金额。时间维:按时间角度分析、统计其销售金额。商品维:按不同商品角度分析统计的销售金额。
32、商品维:按不同商品角度分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。3、层(、层(layer)观察深度称为观察深度称为“层层”。一个维中可以允许有若干层。如:在联锁商店的。一个维中可以允许有若干层。如:在联锁商店的 时间维时间维可以有日、旬、月、季、年等层可以有日、旬、月、季、年等层 商品维商品维可以有商品类(如家电类)商品大类(如电气产品大类)等可以有商品类(如家电类)商品大类(如电气产品大类)等 地域维地域维可以有市、省、国、洲等可以有市、省、国、洲等第63页,共133页,编辑于2022年,星期五联机分析处理的多维数据模型多
33、维数据模型(逻辑模型逻辑模型)OLAP的多维结构的多维结构 多维结构由多个维组成,当每个维确定一个取值时,即可获得一个多维结构中的变量。这个变量称为数据单元,或单元单元。(cell)这种表示方式称为多维数组。也称为数据立方体数据立方体。(如:产品维成员:vcd;日期维成员:2003年3月19日;商店维成员:NO。1)商商店店NO1NO2NO3ALL一 二 三 四 all(季)(季)TV PC VCDALL产品产品多维结构的操作:多维结构的操作:1、切片、切片2、切块、切块3、旋转、旋转4、钻探(、钻探(下钻下钻如地域如地域 时间时间 和和上探上探(反方(反方 向向)第64页,共133页,编辑于
34、2022年,星期五数据仓库的操作(下钻、上卷)第65页,共133页,编辑于2022年,星期五With the Oracle OLAP data model 第66页,共133页,编辑于2022年,星期五Relationships between common OLAP 第67页,共133页,编辑于2022年,星期五Oracle OLAP 第68页,共133页,编辑于2022年,星期五SAP OLAP 第69页,共133页,编辑于2022年,星期五MS SQL Server2005的功能:分析服务第70页,共133页,编辑于2022年,星期五数据仓库DW与数据挖掘DM数据仓库与数据挖掘数据仓库与
35、数据挖掘(data warehousedata warehouse data mining data mining)第71页,共133页,编辑于2022年,星期五数据仓库第72页,共133页,编辑于2022年,星期五引论数据仓库数据仓库(data warehouse)在1988年Devlin 和 Murphy发表了首篇数据仓库的论文,在19931993年年,由 William H.Inmon 所写的Building the Data Warehouse首次系统地阐述了数据仓库的思想和理论。知识发现知识发现(Knowledge Discovery in Database KDD KDD)在198
36、91989年年8 8月月第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现技术。数据挖掘数据挖掘(Data Mining DM DM)在19951995年年,在美国计算机年会(ACM)上,首次提出数据挖掘的概念。数据挖掘是数据挖掘是KDDKDD过程过程中最为关键的步骤中最为关键的步骤,在实际使用中两个术语的应用往往不加区别。第73页,共133页,编辑于2022年,星期五数据仓库定义:数据仓库数据仓库是一个面向主题面向主题的,集成的,随时间变化的非易失性数据的集合,用于支持管理层的决策过程。数据仓库数据仓库的的特性:1、面向主题性主题性(创建和使用都围绕主题:产品、客户等)
37、2、数据集成性集成性(从业务处理系统获取,如:OLTP、EC 等,要经过数据预处理:挑选、清理、综合)3、数据的时变性时变性(数据不能长期不变)4、数据的非易失性非易失性(数据不能更改)5、数据的集合性集合性(多维数据库方式进行存储的多维模式)6、支持决策作用支持决策作用(根本的目的是对决策的支持,以便提 高管理决策的质量和效果)第74页,共133页,编辑于2022年,星期五清洗操作,最后加载到数据仓库数据仓库中 数据数据准备准备第75页,共133页,编辑于2022年,星期五数据仓库数据仓库与数据数据集市 第76页,共133页,编辑于2022年,星期五决策分析与多维分析、数据挖掘等的关系决策分
38、析与多维分析、数据挖掘等的关系数据库数据库数据仓库数据仓库决策分析决策分析数据挖掘数据挖掘关系数关系数据模型据模型多维数多维数据模型据模型关系型分析关系型分析多维分析多维分析第77页,共133页,编辑于2022年,星期五以数据仓库为基础的电子商务架构第78页,共133页,编辑于2022年,星期五数据仓库典型产品简介公司公司产品产品管理管理数据抽取数据抽取建模建模OLAP 数据挖掘数据挖掘数据展示数据展示接口接口OracleOracle v9。i强良好强MSSQL Server强强SASSAS强特色Business ObjectBusiness ObjectBrioBrioCrystalDeci
39、sionsCrystal青大海青大海威威HIGHWAY强强参考:徐洁磐参考:徐洁磐 数据仓库与决策支持系统数据仓库与决策支持系统 科学出版社科学出版社 P192224 第79页,共133页,编辑于2022年,星期五数据仓库数据仓库市场保持了良好的增长 第80页,共133页,编辑于2022年,星期五数据挖掘、知识发现第81页,共133页,编辑于2022年,星期五什么是数据挖掘(DM)什么是什么是数据挖掘数据挖掘(data mining)从数据仓库中利用知识发现技术)从数据仓库中利用知识发现技术(如:(如:依赖性分析、聚类分析、基于神经网络的数依赖性分析、聚类分析、基于神经网络的数据挖掘技术、基于
40、遗传算法的数据挖掘技术、基于据挖掘技术、基于遗传算法的数据挖掘技术、基于粗糙集的数据挖掘技术等粗糙集的数据挖掘技术等)寻求商业模式。)寻求商业模式。数据挖掘的数据挖掘的目标目标:1、找到、找到更好的顾客更好的顾客 2、增加市场分额和获取、增加市场分额和获取更高利润更高利润 3、了解顾客的全面关系、了解顾客的全面关系,制定制定定价策略定价策略和和产品包装产品包装方式方式。4、分辨、分辨顾客的生命期信息顾客的生命期信息 5、分析、分析购卖行为购卖行为和和促销反映促销反映,增加促销效益增加促销效益。第82页,共133页,编辑于2022年,星期五什么是数据知识发现(KDD)数据知识发现知识发现(kno
41、wledge discovery database KDD)1996年年 fayyad 的定义:知识发现是从数据集中识别有效模式的非平凡过程,该模式是新颖的,有潜在应用价值的和最终可以理解的。数据挖掘是知识发现的关键过程。数据挖掘是知识发现的关键过程。商务智能中的商务智能中的KDD过程:过程:数据数据目标数据目标数据预处理预处理后数据后数据转化后转化后数据数据商务商务智能智能模式模式数据选择预处理数据转化数据挖掘数据挖掘解释/评价第83页,共133页,编辑于2022年,星期五数据挖掘的14种算法关联规则关联规则分类分析分类分析聚类分析聚类分析APRIoRI算法算法回回归归分分析析差差异异分分析
42、析划分法层次法基于密度方法基于网格方法决决策策树树算算法法粗粗集集算算法法人人工工神神经经网网络络贝贝叶叶斯斯方方法法遗遗传传算算法法第84页,共133页,编辑于2022年,星期五数据挖掘的主要技术(算法)内容数据挖掘主要技术数据挖掘主要技术1、描述(归纳)、描述(归纳)2、分类预测、分类预测3、聚类分析、聚类分析4、关联分析、关联分析5、依赖性分析、依赖性分析6、粗糙集、粗糙集7、模糊技术、模糊技术MS SQL Server 2005 的的 数据挖掘算法:数据挖掘算法:1、贝叶斯算法、贝叶斯算法2、决策树算法、决策树算法3、时序算法、时序算法4、聚类算法、聚类算法5、序列聚类算法、序列聚类算
43、法6、关联规则算法、关联规则算法7、神经网络算法、神经网络算法8、文本挖掘技术、文本挖掘技术第85页,共133页,编辑于2022年,星期五数据挖掘第86页,共133页,编辑于2022年,星期五数据挖掘的方法数据挖掘的方法数据挖掘的方法第87页,共133页,编辑于2022年,星期五四类重要的数据挖掘方法聚类聚类分析分析关联分关联分析析异常检测异常检测预测预测建模建模第88页,共133页,编辑于2022年,星期五数据挖掘技术(DM)1、分类和预测:、分类和预测:分类分类在机器学习中称为在机器学习中称为模式识别模式识别,分类技术包括,分类技术包括统计方法(统计方法(logistic 回归、线形判别、
44、二次判别、回归、线形判别、二次判别、费歇尔判别)费歇尔判别)k近邻分类、决策树分类、基于关近邻分类、决策树分类、基于关联规则的分类、贝叶斯分类、神经元网络分类、联规则的分类、贝叶斯分类、神经元网络分类、支持向量机分类支持向量机分类 预测预测是对业务信息所代表的对象的是对业务信息所代表的对象的显著性显著性区别,区别,对对象的区别对待,进而达到对对象的区别对待,进而达到控制成本或者提高控制成本或者提高效率效率。第89页,共133页,编辑于2022年,星期五数据挖掘数据挖掘技术:预测方法、预测方法、预测方法第90页,共133页,编辑于2022年,星期五聚类分析聚类分析、聚类分析、聚类分析是多元分析的
45、一种是多元分析的一种,也是非监督模式的一个重要分支。它把一个也是非监督模式的一个重要分支。它把一个没有类别标记的样没有类别标记的样本集,按某种准则划分成若干个子集(类)本集,按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。相似的样本尽量划分到不同的类中。传统的聚类分析是一种传统的聚类分析是一种硬划分硬划分,它把每个待划分的对象严格地划分到某类,它把每个待划分的对象严格地划分到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的属性,它们在中,具有非此即彼的性质。而实际上大多数对象并没有严格的属性,它们在性
46、态和类属方面存在着中介性。具有亦此亦彼的性质,因此适合进行性态和类属方面存在着中介性。具有亦此亦彼的性质,因此适合进行软划分软划分。分类算法将数据按含义划分成组,用户可以用此算法生成分类算法将数据按含义划分成组,用户可以用此算法生成侧面侧面,例如,例如:感感兴趣的顾客侧面。兴趣的顾客侧面。一些常见的聚类算法包括:一些常见的聚类算法包括:模式识别、侧面生成、线形模式识别、侧面生成、线形聚族和概念聚族聚族和概念聚族。第91页,共133页,编辑于2022年,星期五数据挖掘技术(DM)聚类分析聚类分析:是将一个数据集合按照某个标准分成几:是将一个数据集合按照某个标准分成几个簇。个簇。分类分类聚类聚类收
47、入收入债债务务贷款贷款不不贷贷款款收入收入债债务务123分类分类第92页,共133页,编辑于2022年,星期五蛋白质的聚类分析第93页,共133页,编辑于2022年,星期五SPSS数据挖掘方法-聚类分析聚类分析 第94页,共133页,编辑于2022年,星期五关联规则关联规则4、关联规则挖掘:、关联规则挖掘:对不同类型之间的相互关系分析其对不同类型之间的相互关系分析其潜在的逻辑规律潜在的逻辑规律,为业务运作提供决策,为业务运作提供决策支持。是在给定的事务数据库中找出支持。是在给定的事务数据库中找出最最小支持度小支持度和和最小置信度最小置信度的规则的规则 如:如:x y第95页,共133页,编辑于
48、2022年,星期五数据挖掘数据挖掘软件SPSS(贝叶斯网络)第96页,共133页,编辑于2022年,星期五数据挖掘数据挖掘技术:逻辑斯蒂回归 第97页,共133页,编辑于2022年,星期五数据挖掘技术(DM)3、依赖性分析、依赖性分析:1、基本概念:、基本概念:规则规则:一般形式为:一般形式为“IF 条件成立,条件成立,THEN 结论结论”。通过关联规则,可以发现这三种规则:通过关联规则,可以发现这三种规则:有用的、有用的、价值不高的、价值不高的、费解的。费解的。价值不高的规则价值不高的规则往往是对一些商业领域内众所周知的规则的重现。往往是对一些商业领域内众所周知的规则的重现。如:今天是情人节
49、,那么鲜花的价格肯定会暴涨。如:今天是情人节,那么鲜花的价格肯定会暴涨。费解的规则费解的规则往往是数据中一些偶然的东西。如:有一天某个超市发往往是数据中一些偶然的东西。如:有一天某个超市发现购买消暑商品的顾客增加,但是只有这一天特别突出,前后消量趋现购买消暑商品的顾客增加,但是只有这一天特别突出,前后消量趋于平常。于平常。有用的规则有用的规则多是那些多是那些“潜在的,别人没有发现的也没有广泛运用在潜在的,别人没有发现的也没有广泛运用在商业中的规则商业中的规则”如如:尿布与啤酒之间的依赖性尿布与啤酒之间的依赖性第98页,共133页,编辑于2022年,星期五依赖性分析原理依赖性分析原理依赖性分析原
50、理:依赖性分析原理:依赖性分析算法在数据仓库的条目或对象之间依赖性分析算法在数据仓库的条目或对象之间抽取依赖性抽取依赖性.利用依赖性分析算法利用依赖性分析算法可以从某一对象可以从某一对象的信息来推断另一数据对象的信息的信息来推断另一数据对象的信息.一组依赖性可以表示为一组依赖性可以表示为依赖图依赖图.人们利用依赖性人们利用依赖性分析是分析是为了解变动,并了解变动发生的可能原因为了解变动,并了解变动发生的可能原因.如如:销后服务对产品销售的影响销后服务对产品销售的影响.第99页,共133页,编辑于2022年,星期五依赖性分析依赖性分析支持度:支持度:如果如果88%的顾客购买了商品的顾客购买了商品