数据仓库与数据挖掘技术cnfq.docx

上传人:jix****n11 文档编号:48246088 上传时间:2022-10-05 格式:DOCX 页数:25 大小:167.17KB
返回 下载 相关 举报
数据仓库与数据挖掘技术cnfq.docx_第1页
第1页 / 共25页
数据仓库与数据挖掘技术cnfq.docx_第2页
第2页 / 共25页
点击查看更多>>
资源描述

《数据仓库与数据挖掘技术cnfq.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术cnfq.docx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第一章商务智能基本概念一数据仓库的发展与展望作为商务智能三大核心技术之一的数据仓库发源于处理日常业务的数据库。传统数据库在日常的业务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息。为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-数据仓库(DW,Data Warehouse)。1. 数据仓库-一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术2. 而传统数据库系统无法承担起这一责任

2、。因为传统数据库的处理方式与决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据的操作问题l 系统响应问题在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要高、操作时间要快。用户的业务处理操作请求往往在很短的时间内就能完成,这就使系统在多用户的情况下,也可以保持较高的系统响应时间。但在决策分析处理中,用户对系统和数据的要求发生了很大的变化。有的决策问题处理请求,可能会导致系统长达数小时的运行。有的决策分析问题的解决,则需要遍历数据库中大部分数据。这些操作必然要消耗大量的系统资源,这是实时处理业

3、务的事务联机处理系统所无法忍受的。l 据测数据需求的问题在进行决策分析时,需要全面、正确的集成数据,这些集成数据不仅包含企业内部各部门的又关上护具,而且还包含企业外部的、甚至竞争对手的相关数据。但是在传统数据库中,只存储了本部门的事务处理数据,而没有与决策问题有关的集成数据,更没有企业外部数据。(数据的集成操做是有数据仓库处理,不是由决策分析程序处理)。在决策数据的继承中还需要解决数据混乱问题。例如,同一实体的属性在不同的应用系统中,可能有不同 的数据类型、不同的字段名称。这样在使用这些数据进行决策之前,必须对这些数据进行分析,确认其真实含义。在决策分析中,系统常常需要从数据库中抽取数据、查找

4、有用的数据,然后将这些数据导入其他文件或数据库中,供用户使用。这些被抽取出来的数据,有可能被其他用户再次抽取。由于这种不加限制数据的连续抽取,使企业的数据控件构成了一个错综复杂的数据“蜘蛛网”,即形成了自然演化体系结构。在这个数据“蜘蛛”网中,有可能两个节点上的数据来自于同一个原始数据库。但是由于数据抽取的时间、抽取方法、抽取级别等方面的差异,可能使这两个节点的数据不一致。这样,在对同一个问题的决策分析中,由于数据的出发基准不同,而可能导致截然相反的结果。也就是说,由于决策分析过程中所形成的自然演化体系,造成了数据可信度的降低,必然导致数据u转化为信息的不可行与不可信,使企业无法将大量宝贵的信

5、息资源转化为企业的核心竞争力。数据的集成还涉及外部数据与非结构化数据的应用问题。决策分析中经常要用到系统外数据,如行业的统计报告,管理咨询公司的市场调查分析数据。这些数据必须经过格式、类型的转换,曾能被决策系统应用。在决策分析系统中要求数据能够进行定期的、及时的更新,数据的更新期可能是一天,也可能是一周,而传统数据库缺乏数据动态更新的能力。为完成事务处理的需要,传统数据库中的数据一般只保留当前的数据。但是对于决策分析而言,历史上的、长期的数据却具有重要的意义。利用历史数据可对未来的发展进行正确的预测,但是传统数据库却无法长期保留大量的历史数据。在决策分析过程中,决策人员往往需要的并不是非常详细

6、的数据,而是一些经过汇总、概要的数据。但在传统数据库中为支持日常的事务处理需要,只保留一些非常详细的数据,这对决策分析十分不利。l 策数据的操作问题在对数据的操作方式上,决策分析人员则往往希望以专业用户的身份,而不是参数用户的身份对数据进行操作。他们希望能够用各种工具对数据进行多种形式的操作,希望数据操作的结果能以商务智能的方式表达出来。而传统的业务处理系统智能以标准的固定报表方式为用户提供信息,使用户很难理解信息的内涵,无法用于管理决策。由于系统响应、决策数据需求和决策数据操作等问题的影响,使企业无法使用现有的事务处理系统去解决决策分析的需要。因此,决策分析需要一个能够不受传统事务处理的约束

7、,能够高效处理决策分析数据的环境,由此而产色和难过了可以满足这一要求的数据存储和数据组织技术-数据仓库。数据仓库与数据库的对比表对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析的应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位二数据仓库的定义与基本特性数据仓库具有这样一些重要的特性:面向主题性、数据的集成性、数据的时变

8、性、数据的非易失性、数据的集合性和支持决策作用。1. 面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述不仅涉及数据自身,并且还涉及数据之间的联系。2. 数据集成性数据仓库的集成性就是指根据决策分析的要求,将分散于各处的元数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。首先要从源数据库中挑选出数据仓库所需要的

9、数据;然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中数据的单位、字长与内容按照数据仓库的要求统一起来,消除元数据中字段的同名异义、异名同义现象,这些工作统称为数据的清理;在将元数据加载进数据仓库后,即元数据装入数据仓库后,还需要将数据仓库中的数据进行某种程度的综合,经根据决策分析的需要对这些数据进行概括、聚集处理。3. 数据的时变性数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中不断生成主题的新快照,以满足决策分析的需要。数据仓库数据的时变性,不仅反映在数据的追加方面,而且还反映在数据的删除上。尽管数据仓库中的数据可以长期

10、保留,但是在数据仓库中的数据存储期限还是有限的,一般保留5-10年,在超过期限以后,也需要删除。数据仓库中数据的时变性还表现在概括数据的变化上。数据仓库中的概括数据是与时间有关的,概括数据需要按照时间进行综合,按照时间进行抽取。因此,在数据仓库中的概括数据必须随着时间的变化而重新进行概括处理。4. 数据的非易失性数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。数据在追加以后,一般不再修改。数据的非易失性,可以支持不同的用户在不同的时间查询、分析相同的问题时,获得同一结果。避免了以往决策分析中面对同一问题,因为数据的变化而导致结论不同的尴尬。5. 数据的集

11、合性目前数据仓库所采用的数据集合方式主要是以多为数据库方式进行存储的多维模式、以关系数据库方式进行存储的关系模式或以两者相结合的方式进行存储的混合模式。6. 支持决策作用数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理这等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据中敏锐地发现众多的上级。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。三数据仓库的体系结构数据仓库体系结构建立在其概念结构基础之上,并根据商务

12、智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。1. 数据仓库的概念结构数据仓库应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具。数据仓库建立以后,首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化处理,再加载到数据仓库数据库中,最后在根据用户的需求将数据发布到数据集市/知识挖掘库中。当用户使用数据仓库时,可以通过OLAP等数据仓库的应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。如图业务系统外部数据源数据准备区数据仓库数据库数据集市/数据挖掘库数据集市/数据挖

13、掘库应用工具应用工具管理工具用户用户2.数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没有一个独立的数据仓库。系统的数据不存储在统一数据仓库中,每个主题有自己的物理存储区。但是不同的主题数据仓库在设计时采用了统一企业数据模型,这就保证了不同主题数据仓库可以cia用相同的字段结构、编码和关键字,可以保证不同主题数据仓库的联合查询。四数据仓库的参照结构数据仓库的参照结构由不同的层次组成,这些层次包含了数据仓库的基本功能层、数据仓库的管理层和数据仓库的环境支持层。数据仓库的基本功能层包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据及时,完成数据仓库的

14、查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。1. 数据仓库基本功能层包含数据源、数据准备区数据仓库功能结构、数据集市知识挖掘库以及数据仓库的数据存取与使用功能部分,如图数据源数据准备区数据仓库数据集市/知识挖掘库数据仓库的数据存取与使用A. 数据仓库的数据源包含业务数据、历史数据、办公数据、Web数据、外部数据及数据源元数据,如图业务数据历史数据办公数据Web数据外部数据数据源元数据a. 业务数据是指从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理系统数据库中的数据。b. 历史数据

15、是指组织在长期的信息处理过程中所积累下来的数据,这些数据一般进行了脱机处理,以磁带或其他脱机存储设施保存,对业务系统的当前运行不起作用。这些数据一般要根据仓库模型和用户的决策分析需求来确定是否加载进数据仓库c. 办公数据主要是指组织内部的办公系统数据,这些数据分电子数据和非电子数据两种。非电子数据主要指那些文件、通知、会议纪要等公文。办公数据源的数据结构十分复杂,这就给数据仓库的数据抽取、加载增加了很大的难度。有时甚至需要人工处理以后,才能加载到数据仓库。办公数据在数据仓库中常常用于支持对跨部门的决策分析。对于办公数据中非电子数据的抽取和加载首先要利用扫描仪将书面文档转变为电子图像,然后利用可

16、是文字识别软件(OCR)将图像文件转换为文本文件,最后还要创建能够描述和组织文档内部信息的元数据。经过这些处理以后,非电子数据才能加载到数据仓库。d. Web数据是企业通过internet所获得的数据,则和谐数据可以通过企业的电子商务系统获取,也可以通过网络调查获取。Web数据大多是HTML格式,需要将其转换成数据仓库的统一格式后才能家再进数据仓库。e. 外部数据是指那些不为企业所操作、所拥有、所控制的数据。这些数据有的是电子形式的,如证券市场的证券数据,或市场咨询部门的研究报告。有的是以电子形式的,如报刊、政府公告等。f. 数据源元数据属于元数据管理层范围,在数据仓库哦那广州的所有数据都需要

17、通过元数据管理层来进行管理、控制。源数据的元数据描述了关于源数据的一些说明,包含了源数据的来源,源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪一个系统、哪一个历史数据、哪一个办公数据、哪一个Web页上、哪一个外部系统抽取来的。源数据的名称,用以说明源数据现在和过去的名称。源数据的定义,用以说明源数据在数据仓库中的作用、用途及数据类型,长度等基本属性。数据的变化时间是指源数据在数据源的创建时间和在数据仓库中的创建时间及变化时间。这些信息主要用于对源数据的管理;B. 数据准备区由于数据仓库的数据来源十分复杂,这些数据在进入数据仓库之前常常需

18、要在数据准备区内进行筛选、清理等数据的标准化处理。因此,数据准备区的功能结构部分由数据的标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与源数据抽取和创建等操作组成。 数据的标准化处理元数据抽取与创建数据的过滤与匹配数据的净化处理标明数据的时间戳确认数据质量a. 数据的标准化处理主要是将同名不同内容、同内容不同名、同名同内容但不同结构的数据进行统一处理。例如,在不同数据源中,关于销售地点“上海市”,有的系统用了“上海”,有的用了“上海市”,有的甚至用了“沪”等值,但是它们的实际含义都是一致的,为此需要对这些值进行统一处理,这样才不至于导致数据仓库的应用混乱。b. 数

19、据的过滤与匹配主要是对进入数据仓库的数据按照用户的需要进行筛选,将不需要的数据从数据源中剔除,而留下的数据要能够与数据仓库用户的需求相匹配。c. 数据的净化处理主要是对准备加载到数据仓库中的数据进行正确性判断,将那些数据内容错误、格式错误或类型错误的数据进行修正、净化处理。例如,数据仓库中的客户邮政编码是字符类型,但在有的数据源中却以数字类型表示。此时,就需要将其转换为字符类型。d. 表明数据的时间戳,由于在数据仓库重要进行数据的概括,以分析事务的发展趋势。而数据的概括与发展趋势的分析,都需要知名数据的时间属性。因为数据的概括往往是基于时间进行的,而趋势的分析也是以时间为基轴描绘的。因此在将数

20、据夹加载到数据仓库之前必须完成数据的时间戳设置,使时间具有时间属性。e. 确认数据质量,数据仓库中数据质量的高低是数据仓库能否成功的关键因素之一。例如,在对客户进行邮寄广告促销时,由于客户名称的错误,可能会激怒客户,导致客户转向其他供应商而造成客户的流失。有的又会因客户地址的错误耽误时间,造成邮寄广告费的浪费。这些信息应用的失败,都是由于数据质量的低劣所造成的。因此,需要在数据准备区通过手工的方式或软件自动检测的方式来完成对数据质量的确认。f. 元数据抽取与创建,在数据的求精过程中,还需要从数据源中确定这些源数据的元数据内容,完成元数据的名称与定义,以及其有关描述,为今后数据仓库的管理提供基础

21、。C. 数据仓库功能结构数据仓库的功能结构部分有数据重整、数据仓库创建和元数据管理3部分组成,如图数据重整数据仓库创建元数据管理数据集成与分解数据仓库的建模元数据浏览与导航数据概括与聚集数据的概括数据预算与推导数据的聚集元数据的创建数据翻译与格式化数据的调整与确认数据转换与映射建立结构化查询创建词汇表a. 数据重整是为使数据仓库能够更好地为用户服务所进行的一些操作。l 数据集成与分解。对来自不同系统的数据进行集成,创建新的数据。有时按照数据处理的需要,在将数据存储到数据仓库过程中,可能要将一个表中的数据分解成数据仓库的两个或多个数据块。l 数据的概括与聚集。就是根据某一属性将数据进行汇总。例如

22、,客户每天的采购就是特定客户在一天内的所有采购总和。数据的概括处理就要根据用户使用数据仓库的需要,预先进行数据的汇总与叠加操作,为使用数据仓库提供便利。l 数据的预算与推导。为提高数据仓库信息使用者的使用效率,在数据仓库中需要事先对信息使用者的常规操作进行预先设置。即无须用户干预就可以实现数据的预算和推导。作为数据预算和推导的算法应该作为数据仓库的元数据进行存储和管理。l 数据的转换与映射、数据的翻译与格式化(跟数据准备区的操作类似)b. 数据仓库创建-重点作为数据仓库的核心功能,应该完成数据仓库的建模、数据的概括、数据的聚集、数据的调整与确认,并建立结构化查询。l 数据仓库的建模。从已经创建

23、的数据模型中导出数据仓库的数据模型(星型模型或雪花模型),如果没有数据模型,就需要构造新的数据模型。在数据仓库模型的书籍过程中,要完成数据的分割、主题域和粒度的确认,实际数据库的设计模型和数据仓库的物理数据库模式的定型等工作。l 数据的概括。根据用户的需要,从初步的概括数据中创建用户所需的高度概括数据。l 数据的聚集。从拥有大批量数据的数据仓库中进行查询分析,是一个非常费时的操作。例如,在一个有1000个产品和10万个客户的数据仓库中,为执行一个概括性查询,就要涉及1亿条记录,需要较长的时间才能完成,这对经常查询的信息使用者而言是无法接受的。因此,在数据仓库中,常常要根据一些典型的查询需求,对

24、数据仓库中数据进行聚集处理。例如,可以对产品的地区分布、品牌的分布进行事先聚集,只有这样才能使用户在数据仓库的使用中每次都感受到使用时间的一致性和快速性。l 数据的调整与确认。在数据完成概括聚集以后,需要对概括与聚集后的数据进行确认,如果数据概括、聚集的效果不好,还需要进行一些调整,以保证数据仓库的使用效果l 建立结构化查询。为提高一些结构化查询,可以预定义这些查询,并将这些结构化查询结果作为元数据存储在元数据库中。当用户进行数据仓库的查询时,只要从元数据库中取回就可,这样可以大大提高数据仓库的运行效率。c. 元数据管理-重点(元数据有这么重要吗?wwq)数据仓库的功能能够发挥在很大的程度上取

25、决于元数据的管理功能,元数据管理功能的强弱决定了数据仓库功能发挥的好坏。元数据管理功能主要包含元数据浏览与导航、元数据的创建和创建词汇表。l 元数据浏览与导航。数据仓库的建设者在数据仓库的建设和维护中需要利用数据仓库的元数据浏览和导航功能,而且数据仓库用户在使用数据仓库时也需要利用元数据的浏览及导航功能对数据仓库所提供的各种决策辅助信息加以说明。l 元数据创建。在数据重整过程中需要从集成数据、概括数据和衍生数据中捕获元数据。确定数据的粒度和分割程度、数据的翻译和转移规则,捕获映射规则及数据源和数据仓库之间的映射关系。这些都是元数据创建的内容。l 创建词汇表。在创建数据仓库的过程中,需要根据所捕

26、获的元数据建立元数据的词汇表。在词汇表中一般需要包含元数据的名称,别名,简述,创建时间,上次更新时间,关键字,数据来源,转移/转换信息,概括或推到算法等内容。D. 数据集市/知识挖掘库数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为相似,如图求精与重整数据集市/知识挖掘库创建元数据管理过滤与匹配建模元数据浏览与导航集成与分割概括概括与聚集聚集元数据的抽取与创建预算与推导调整与确认标明时间维的数据源建立结构化查询创建词汇表只是数据集市设立的目的在于为某一部门或某一领域的用户提供服务,而设立数据仓库的目的则在于为企业全体用户提供服务。因此,可以将数据集市/知识挖掘库看成是数据仓库的一个逻辑上

27、或物理上的子集。E. 数据仓库的存取与使用数据仓库的存取与使用结构主要用于实现数据仓库的最终功能,为数据仓库的最终用户提供进行决策分析和知识挖掘的功能。为达到这一目的,数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、数据仓库分析与报告及元数据管理,如图数据仓库存取与检索数据仓库分析与报告元数据管理数据仓库直接存取报表处理工具元数据管理与报表数据集市存取分析与决策支持工具数据集市重整业务建模与分析处理工具元数据抽取与创建转换为多维结构数据挖掘工具创建局部存储图形工具数据仓库存取与检索部分为用户提供了访问数据仓库或数据集市的功能,利用这些功能可以将用户所检索的数据转换为多维数据并存入多维数

28、据库。可以将数据仓库或数据集市中的数据“卸载”下来,成为局部存储数据,便于用户进行局部分析、数据挖掘、翻译转换等处理。这就需要解决如何从预定义的查询到即席的查询、到迭代的查询、到细剖查询的实现。为用户使用方便,这里还提供了管理与使用数据仓库元数据管理功能。这些功能可以帮助用户了解数据仓库或数据集市的名称、描述说明、数值、价值来源及版本内容,了解数据的名称、数值等内容和数据从抽取到存入数据仓库或数据集市的转移过程,了解数据的定位和数据的可靠性,以及如何存取和使用数据。这些功能有助于用户掌握数据的正确内容、信息的粒度、信息的概括成都、原始数据的来源和日期。并可以按照其上下文查看数据,将数据转换为信

29、息。此外,还可以验证数据源的质量,在数据抽取和存储过程中用于判断数据的可靠性和质量。数据仓库分析与报告为最终用户使用数据仓库提供了一组工具,可以是用户能够依靠数据仓库或数据集市进行决策分析或知识挖掘。这些工具包含了报表处理工具、分析与决策支持工具、业务建模与分析处理工具、数据挖掘工具等。具体地说,这些工具具有地理信息系统(GIS)、数据挖掘工具、联机分析处理(OLAP)、可视化工具、经理信息系统(EIS)、统计工具、internet浏览器、元数据浏览器、第四代语言、图形用户界面(GUI)建立程序、电子表格、报表生成器和数据访问工具等。地理信息系统(GIS)可以利用数据仓库中的数据图示化地表达数

30、据关系。例如,可以通过GIS了解生活在某一特定销售点范围之内的客户数量,或在两个销售点之间的平均到达时间。利用GIS还可以确定对公司感兴趣的潜在客户居住区域,帮助企业确定新的销售点位置。利用数据挖掘工具和统计工具可以找出隐藏在大量数据背后的商业规律。例如,哪些客户可能会在信用上发生问题,哪些客户可能会对企业的促销手段作出积极的反应。连接分析处理和经理信息系统能够以便捷的手段让用户完成复杂的数据查询,并能以形象的图形、图像和表格的方式给出决策分析的结果。Internet浏览器主要为用户的WEB数据仓库使用提供便利。电子表格作为办公处理软件,许多企业都已经拥有。电子表哥也可作为数据仓库的分析工具加

31、以应用。但是将数据仓库中的数据转入电子表格还需费一番周折。可视化工具、元数据浏览器、第四代语言、图形用户界面(GUI)建立程序、报表生成器和数据访问工具等都可以作为数据仓库的范文分析工具使用,知识在实际应用中各有千秋。例如,OLAP可以提供强大的数据查询功能,但是报表的生成能力就不如报表生成器。而第四代语言与GUI建立程序可以提供受限的查询界面,并能知道用户完成查询。这对数据仓库的安全使用与知道新用户使用数据仓库十分有利,但不利于有经验的用户对数据仓库的知识挖掘。此外,根据需要也可以用第四代语言建立一个OLAP工具。2. 数据仓库的管理层数据仓库的运行除依靠上面所介绍的数据仓库基本功能外,还需

32、要能对这些基本功能进行管理的结构框架,这样数据仓库才能正常运行使用。数据仓库管理层由数据仓库的数据管理层和数据仓库的元数据管理层组成。A. 数据仓库的数据管理层包含数据抽取与新数据需求和查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统,数据归档、恢复及净化系统。数据抽取与新数据需求和查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统数据抽取与新数据需求和查询管理主要负责完成从数据源中抽取数据的管理;用户在数据仓库应用中出现对新数据的要求时,从新的数据源或当前数据源中按照用户需求追踪和充实新数据;对数据查询中的并行处理工作的管理。数据加载、存

33、储、刷新和更新系统负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。安全性与用户授权管理系统主要负责数据仓库的安全管理工作,禁止用户对数据仓库进行某些非法操作;根据用户的管理权限和工作需要给予用户对数据仓库的不同操作权限。数据归档、恢复及净化系统中的数据归档、恢复功能主要负责定期对数据仓库中的数据进行归档、备份,以便在数据仓库遭到破坏时可以恢复;而净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工

34、作的管理。B. 数据仓库的元数据管理层数据仓库的有效性完全建立在数据的定义(元数据)之上。元数据已经渗透到数据仓库的各种活动中,数据源的性质有所获得数据的定义来刻画,增加时间戳就需要有与元数据相关的时间信息,元数据还要为数据仓库的数据操作提供索引。数据仓库的元数据管理层负责管理数据仓库所使用的元数据,其中包括数据仓库、数据集市/知识挖掘库和词汇表管理,元数据抽取、创建、存储和更新管理,预定义的查询、报表和索引管理,刷新和复制管理,登录、归档、恢复与净化管理。如图:括数据仓库、数据集市/知识挖掘库和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新和复制管理登录、归档、恢

35、复与净化管理a. 数据仓库、数据集市/知识挖掘库和元数据词汇表管理元数据管理层利用元数据词汇表来管理数据仓库和数据集市中逻辑数据模型和物理数据模型,以及与技术和业务相关的数据说明。元数据主要包含两大部分的元数据:一类元数据用于说明从数据源想数据仓库转移的数据,主要方便数据仓库维护人员对数据舱仓库的应用;另一类元数据用于建立从数据仓库想数据仓库前端工具的映射,以方便用户对数据仓库的使用。b. 元数据抽取、创建、存储和更新管理元数据在数据仓库对数据源进行数据抽取、清理、加载等操作过程中需要对所涉及的元数据进行抽取、创建、存储和更新处理。即从数据源中将关于这些数据的说明抽取出来,如果在元数据库中没有

36、这些元数据,就需要创建并存储在元数据库中。如果这些元数据已经存在于元数据库中,则需要根据最新情况进行更新。c. 预定义的查询、报表和索引管理在元数据管理中还需要对设计人员为数据仓库用户预定义的查询和报表进行管理,将预定义的查询和报表处理方式,甚至处理结果置于元数据库中,这样当用户需要进行相同的预定义查询和报表时,就可以提供相应的结果。而预定义的查询和报表处理方式也需要存储在元数据中。元数据管理层哈需要实现大型数据仓库的多级索引、数据压缩和复合键等方面的管理。d. 刷新和复制、登录、归档、恢复与净化管理当数据仓库所连接的数据源发生变化时,数据仓库的内容也要定期刷新。这些刷新工作的进行需要依靠元数

37、据库中所包含的有关说明。为保证数据仓库的安全,需要经常定期进行复制。这样在数据仓库遇到破坏后,可以从备份中将数据仓库恢复。数据仓库的备份与恢复工作也有赖于元数据的帮助。用户在使用数据仓库时需要进行身份的验证,对用户的登录管理也离不开元数据的支持。元数据在加载进数据仓库之前必须要进行净化处理,而净化处理的规则也需要元数据说明。3. 数据仓库的环境支持层数据仓库的运行除需要数据仓库管理层对基本功能进行管理外,还需要有数据仓库的环境支持层对基本功能提供支持。数据仓库的环境支持层有数据仓库数据传输层和数据仓库基础层组成。A. 数据仓库的数据传输层数据仓库中不同结构之间的数据传输,需由数据仓库的传输层完

38、成,数据传输层包含了数据传输和传送网络、客户-服务器代理和中间件、数据复制系统、数据传输的安全和保障系统。如图数据传输和传送网络客户-服务器代理和中间件数据复制系统数据传输的安全和保障系统a. 数据传输层的组成在数据传输层中的数据传输和传送网络包含网络协议、网络管理框架、网络操作系统和网络。从数据仓库的角度看,网络操作系统的性能应该支持内核线程、高达4TB的内存、最大为1TB的特大型文件系统、大小可变的应用程序所用页面及并行处理,并有日志文件系统、内存分页管理功能、动态加载核心模块功能,可以为数据仓库提供良好的可恢复性能。而且操作系统应该遵循开放系统标准,能够支持系统的互操作,这样才能使数据仓

39、库在多操作系统环境中运行。数据仓库中的网络问题在于贷款,在数据仓库的网络配置中可以将用户和系统数据分隔到不同的网络中,以增加系统的整体带宽。系统数据流量可以通过100Base-TX以太网、FDDI、ATM、千兆位或HIPPI接口,而用户数据流量则放在10/100Base-TX以太局域网上。b. 客户-服务器代理与中间件包含数据库网管、数据仓库的中间件、传输层的数据舱仓库数据发布和复制系统等。数据库网管便于将数据仓库链接到其他软件产品上。而数据仓库的中间件一般用于补充数据仓库中其他组件功能的不足,如用于监视数据库与查询管理程序之间的TCP/IP包,这就可以提供关于数据仓库用户、被访问数据库及访问

40、时间等信息。利用这些信息可以对数据仓库的结构进行调整,提高数据仓库的性能。目前许多数据库管理系统开始将各种中间件的功能添加到数据库管理系统中,英雌,在选择中间件之前需要了解中间件的功能是否已经在数据库管理系统存在。传输层的数据仓库数据发布和复制系统主要用于将数据源中的源数据库数据复制到数据仓库的目标数据库上,或将数据仓库中的元数据库数据复制到数据集市的目标数据库上。源数据库和幕布奥数据库可以在同一台机器上,也可以不再同一台及其上。数据的复制可以根据制定的时间进行数据发送,还可以在数据发送过程中对发送数据进行修改,然后再发送到目标数据库上。c. 数据复制系统在传输层的复制系统中有发布与复制系统、

41、数据库网管内定义的复制工具和专用的数据仓库产品等。d. 数据传输的安全和保障系统数据传输的安全和保障系统不仅要解决保障数据仓库中的数据安全问题,还需要保护用户正常使用数据仓库的权利问题。因此数据仓库安全保障系统需要设立用户的安全角色,明确哪些用户可以访问哪些数据,确认用户对数据的访问是否威胁到系统的安全;为不同数据设立不同的安全级别,根据安全需要对数据进行安全分区;对用户进行鉴别,并将鉴别的用户通知安全保障系统;保护用户访问数据的路径。B. 数据仓库的基础层包含系统管理、工作流程管理、存储系统和处理系统部分,如图:系统管理工作流程管理存储系统处理系统系统管理部分为数据仓库的设计者和最终用户提供

42、执行、管理、终止工具和应用程序等功能。工作流程管理部分主要支持处理集成和管理,以协调各种工具、应用程序和操作有条不紊地进行,正确完成对数据仓库和数据集市的抽取、刷新、复制、更新、聚集、概括及其他维护人物和系统管理了任务。利用工作流程的管理实现对数据仓库和数据集市的自动维护与刷新,并且可以提供预定义的报表和查询结果,以提高系统的设计者和最终用户的工作效率。存储系统为数据源、数据仓库、数据集市中的数据库目录提供了数据库和文件管理器,为数据仓库的存取与使用提供多为的和本地的存储。处理系统实际上是数据仓库核心的基本操作环境,即数据源、数据仓库、数据集市、数据仓库存取与使用、中间件的操作环境。数据仓库的

43、基础结构层还需要考虑配置管理程序、存储管理程序、安全性管理程序、软件分布管理程序、特许证管理程序、性能监控程序和容量分析程序等。五数据挖掘概述数据挖掘(DM,Data Mining)是基于数据库的知识发现(KDD,Knowledge Discovery in Database)过程中最为关键的步骤,因此,在实际应用中对数据挖掘和KDD这两个数据的应用往往不加区别。1.数据挖掘的发展经营管理的实际需要:进入21世纪以后,全球经济一体化的进程日益加快,企业所面临的市场竞争压力日趋严重,企业经营管理者西夏王能够从企业基类的大量历史数据中找到应对日趋严重的竞争压力良方,希望能够从这些数据中找到经营管理

44、出现问题的根本原因。例如,经营管理者往往希望了解企业的某些产品为什么销售业绩良好,是产品自身的原因?还是销售的原因?如果是销售的原因,产品的销售人员在销售中采用了什么销售方式?处于这些因素的考虑,是企业经营管理人员,特别是决策人员希望能够采用某种工具从这些数据中去找原因,能够快速地从大量数据中挖掘出对经营管理有用的信息,以应对瞬息万变的市场压力。2.数据挖掘的定义从技术角度和商业角度给出数据挖掘的定义。A.数据挖掘的技术定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随即的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。知识,如果从严格的意义上讲,热门们通常

45、将概念、规则、模式、规律和约束等看作是知识。但是知识都是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。同时还要能够易于被用户理解,最好能用自然语言表达所发现的结果。人们将数据看作是形成知识的源泉,数据挖掘就是从知识的源泉去挖掘知识。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图像和图像数据;甚至可以是分布在网络上的异构数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以用于信息管理、查询优化、决策支持和过程控制等。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据库中挖掘

46、知识,提供决策支持。在这种需求的推动下,汇集了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员。B.数据挖掘的商业定义数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键之时,即从一个数据库中自动发现相关商业模式。数据挖掘是利用统计学和机器学习的技术来探求哪些符合市场、客户行为的模式。对于数据挖掘的应用不仅要依靠良好的算法建立模型,而且更重的是要解决如何将数据挖掘技术集成到当今复杂的信息技术应用环境中。其次还需要有商务分析人员参与,因为数据挖掘技术不具

47、备人所特有的经验和直觉,不能区分挖掘出的哪些模式在现实中是有意义的,哪些是无意义的。因此,商务分析人员的参与是必不可少的。数据挖掘是一类深层次的数据分析技术。数据挖掘工具与传统数据分析工具的比较如图:传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从过去的事实中列出管理人员感兴趣的事实锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、为重属性数、维中数据均是少量的数据维、为重属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动、少量的人员指导技术状况成熟统计分析工具成熟,其他在发展中六数据挖掘技术与工具随着海量数据搜集、强大的多处理器计算机和数据挖掘算法这3中基础技术的发展和成熟,数据挖掘技术已在数据仓库系统中得到了广泛的应用。A.常用的数据挖掘技术数据挖掘的发展受到数据库系统、统计学、机器学习、可视化技术、信息技术及其他学科的影响,如神经网络、模糊/粗糙集理论、知识表示

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术规范

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁