《数据仓库与数据挖掘技术第1章.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术第1章.ppt(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库与数据挖掘技术第第1章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述1.1 数据仓库引论11.1.1为什么要建立数据仓库 11.1.2什么是数据仓库21.1.3数据仓库的特点71.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤111.1.5分析数据仓库的内容121.2 数据挖掘引论131.2.1为什么要进行数据挖掘 131.2.2什么是数据挖掘181.2.3数据挖掘的特点211.2.4数据挖掘的基本过程与步骤221.2.5分析数据挖掘的内容261.3 数据挖掘与数据仓库的关系281.4 数据仓库与数据挖掘的应用311.4.1数据挖掘在零售业的应用311.4.2数据挖掘技术在商业
2、银行中的应用 361.4.3数据挖掘在电信部门的应用401.4.4数据挖掘在贝斯出口公司的应用421.4.5数据挖掘如何预测信用卡欺诈421.4.6数据挖掘在证券行业的应用43思考练习题一441.1.1 为什么要建立数据仓库为什么要建立数据仓库v数据仓库的作用 v建立数据仓库的好处建立数据仓库的好处1.1.2 什么是数据仓库什么是数据仓库v1数据仓库的概念 在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化
3、的数据集合。“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。”“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。”数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。数据仓库是大量有关公司数据的数据存储。仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是
4、我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。数据仓库的定义v 综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。2与数据仓库相关的几个概念数据(da
5、ta)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。操作数据原子数据汇总数据特定查询响应数据仓库环境v数据类型的分类 v元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。v数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。v数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。v数据库系统是一个由硬件、软件
6、、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图1.2所示的数据库系统及相关技术的演化。v数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。数据库系统及相关技术的演化 1.1.3 数据仓库的特点数据仓库的特点1主题与面向主题主题与面向主题2数据仓库数据的集成性数据仓库数据的集成性3数据仓库数据的不可更新性数据仓库数据的不可更新性4DW数据的时态性数据的时态性1.1.4
7、 数据进入数据仓库的基本过程与建立数据仓库的步骤数据进入数据仓库的基本过程与建立数据仓库的步骤1数据进入数据仓库的基本过程数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。2建立数据仓库的步骤建立数据仓库的步骤1)收集和分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作型数据库中提取、转换和净化数据到数据仓库;6)选择访问和报表工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库;1.1.5 分析数据仓库的内容分析数据仓库的内容操作型数据和分析型数据的区别操作型数据
8、和分析型数据的区别 1.2.1 为什么要进行数据挖掘为什么要进行数据挖掘 1数据挖掘的作用数据挖掘的作用数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis
9、)等业务问题提供了有效的方法。2数据挖掘的背景数据挖掘的背景(1)数据挖掘的商业背景(2)数据挖掘的技术背景(3)数据挖掘的社会背景3数据挖掘对企业的影响数据挖掘对企业的影响 1.2.2 什么是数据挖掘什么是数据挖掘1数据挖掘概念数据挖掘概念定义1 G.Piatetsky 等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2 有人简单认为,数据挖掘就是数据库中知识的发现。定义3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义4 有人认为,数据挖掘就是从大量数据中提取或挖掘知识。定义5 Fayyad等在“知识发现96国际会议上”认为,知识发
10、现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。2数据挖掘的分类数据挖掘的分类3与数据挖掘相关的几个概念与数据挖掘相关的几个概念v1)直接数据挖掘v利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解
11、成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。v2)间接数据挖掘v不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。v3)描述式数据挖掘v以简洁概要的方式描述数据,并提供数据的有意义的一般知识。v4)预测式数据挖掘v分析数据,建立一个或一组模型,并试图预测新数据集的行为。3与数据挖掘相关的几个概念(续)与数据挖掘相关的几个概念(续)v5)数据库查询工具和数据挖掘工具之间的差异查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数
12、据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。v6)信息v7)知识(knowledge)v8)数据、信息与知识的转化关系1.2.3 数据挖掘的特点数据挖掘的特点v1)处理的数据规模十分庞大;v2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西;v3)DM对数据的迅速变化做出快速响应,以提供决策支持信息;v4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新;v5)DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。1.2.4 数据挖掘的基本过程与步骤数
13、据挖掘的基本过程与步骤1数据挖掘的基本过程数据挖掘的基本过程v(1)数据准备v数据准备(data preparation):本阶段又可进一步细分成数据集成、数据选择和预分析。v(2)挖掘v挖掘(mining):DM处理器(data mining processor)综合利用前面提到的多种DM方法分析数据。v(3)表述v表述(presentation):与检验证型工具一样,DM将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。v(4)评价v评价(assess):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。2进行数据挖掘的步骤进行数据挖掘的步骤v
14、(1)问题定义问题定义问题定义主要是指利用数据挖掘可以分析哪些问题。问题定义主要是指利用数据挖掘可以分析哪些问题。v(2)发现信息发现信息通过数据挖掘分析从其客户那里发现更多的信息。通过数据挖掘分析从其客户那里发现更多的信息。v(3)制定计划制定计划v(4)采取行动采取行动v(5)监测效果监测效果1.2.5 分析数据挖掘的内容分析数据挖掘的内容v1)直销v2)争取客户v3)保留客户v4)交叉销售v5)趋势分析v6)欺诈检测1.3 数据挖掘与数据仓库的关系数据挖掘与数据仓库的关系v用户包括偶然用户(casual user)、高级用户(power user)和专家(expert)。v查询协同管理包
15、括一些访问工具和系统管理工具,为用户访问数据仓库和其他系统提供手段。v数据仓库管理包括安全和特权管理,跟踪数据的更新,数据质量检查,管理和更新元数据,审计和报告数据仓库的使用和状态,删除数据,复制、分割和分发数据,备份和恢复,存储管理。v信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。1.4.1 数据挖掘在零售业的应用数据挖掘在零售业的应用v超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。(1)重心从商品转换到客户分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。(2)数据分析卖主(供应商)可以通过数据挖掘技术
16、来增加商品的利润率,通过竞争成为“种类首领”。1.4.2 数据挖掘技术在商业银行中的应用数据挖掘技术在商业银行中的应用v在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。v在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以及金融危机预测等方面。v1996年,银行系统和技术评论认为年,银行系统和技术评论认为“数据挖掘技术将是本年度金融服务领域最数据挖掘技术将是本年度金融服务领域最重要的应用。重要的应用。”v在进行数据挖掘的银行包括美国第一银行、Headland抵押公司、FCC国家银行、联邦住房贷
17、款抵押公司、Wells Fargo银行、NationsBanc服务公司、银行、Advata抵押公司、化学银行、Chevy Chase银行、美国银行公司和USAA联邦储蓄银行 1.4.3 数据挖掘在电信部门的应用数据挖掘在电信部门的应用v1998年,西部电信用SAS的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统。v1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份报告对客户跳槽造成的损失进行了量化,同时他们估计获得一个新客户的费用高达400美元。1.4.4 数据挖掘在贝斯出口公司的应用数据挖掘在贝斯出口公司的应用v贝斯出口公司是英国最大
18、的啤酒出口商。该公司选择了IBM的智能挖掘器作为其数据挖掘的商务解决方案。1.4.5 数据挖掘如何预测信用卡欺诈数据挖掘如何预测信用卡欺诈v对于这一问题可以有下列3种解决的途径:v1)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用Brio,Businee Objects及Congnos等公司开发的工具将很容易构造出模型。由于用这种方法需要将数据下载到客户端计算机中,所以能够从数据仓库中创建视图来表示将要挖掘的虚拟数据。v2)通过从关系数据仓库中抽取记录数据,这将会受到一定的限制。v3)通过构造SQL语句以适当格式得到所需的数据。1.4.6 数据挖掘在证券行业的应用数据挖掘在证券行业的应用v关于股票预测,市场上有许多采用数据挖掘技术对股票进行预测的软件。如NETPROPHET是神经网络应用公司开发的一个股票预测应用软件,它采用了神经网络技术,将输出的结果用两条曲线分别表示实际股票值和预测股票值。