《(精品)《数据仓库与数据挖掘》(演示稿)第7章.ppt》由会员分享,可在线阅读,更多相关《(精品)《数据仓库与数据挖掘》(演示稿)第7章.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、复旦大学复旦大学 软件学院软件学院2004.042004.04数据仓库与数据挖掘数据仓库与数据挖掘(第(第7章)章)1第第7章章数据挖掘中的数据预处理数据挖掘中的数据预处理主要内容主要内容数据预处理的基本功能数据预处理的基本功能数据预处理的主要方法数据预处理的主要方法数据清理数据清理数据采样数据采样数据集成与变换数据集成与变换数据约简数据约简数据的概念分层数据的概念分层2DM的过程的过程(1)DW 的步骤:的步骤:数据准备:数据准备:数据集成数据集成数据选择数据选择预分析预分析挖掘挖掘表述表述评价评价(2)DW 系统的结构:系统的结构:用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知
2、识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专用数据库接口3数据准备阶段数据准备阶段:数据的选择(选择相关的数据)数据的选择(选择相关的数据)净化(消除噪音、冗余数据)净化(消除噪音、冗余数据)推测(推算缺失数据)推测(推算缺失数据)转化(离散值数据与连续值数据之间的相互转换、转化(离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等)数据值的分组分类、数据项之间的计算组合等)数据缩减(减少数据量)数据缩减(减少数据量)经过处理过的数据一般存储在数据仓库中。数据准经过处理过的数据一般存储在数据仓库中。数据
3、准备是否做得充分将影响到数据挖掘的效率和准确度备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。以及最终模式的有效性。数据挖掘的过程数据挖掘的过程4数据挖掘的过程数据挖掘的过程挖掘阶段:该阶段是数据挖掘的核心步挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得分析数据并通过可视化工具表述所获得的模式或规则。的模式或规则。5数据挖掘的过程数据挖掘的过程评价阶段:
4、在数据挖掘中得到的模式可能是没有实评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。以直接用数据来检验其准确性。巩固和运用阶段:用户理解的、并被认为是符合实巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识
5、。同时还要对知识进际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。要对知识作进一步的优化。6数据预处理的必要性数据预处理的必要性l数据挖掘要
6、求的数据:干净、准确、简洁、数据挖掘要求的数据:干净、准确、简洁、完整。完整。l原始数据存在的问题:原始数据存在的问题:n杂乱性:来自多种数据库和文件系统,缺乏统杂乱性:来自多种数据库和文件系统,缺乏统一标准和定义。一标准和定义。n冗余性:同一个事务在数据库中可能存在多个冗余性:同一个事务在数据库中可能存在多个相同的物理描述。相同的物理描述。n不完整性:设计缺陷或人为原因造成数据丢失、不完整性:设计缺陷或人为原因造成数据丢失、不确定、不完整。不确定、不完整。7数据预处理的基本功能数据预处理的基本功能l数据清洗数据清洗l数据集成数据集成l数据变换数据变换l数据约简数据约简8数据预处理的基本功能数
7、据预处理的基本功能数据清洗数据清洗l功能:功能:n去除源数据中的噪声数据和无关数据去除源数据中的噪声数据和无关数据n重复数据处理重复数据处理n缺值数据处理缺值数据处理n数据类型转换数据类型转换l方法:方法:n有监督方法:有领域专家指导有监督方法:有领域专家指导n无监督方法:样本数据训练算法无监督方法:样本数据训练算法9数据预处理的基本功能数据预处理的基本功能数据集成数据集成l功能:功能:n数据的选择:从多数据源中选择数据数据的选择:从多数据源中选择数据n数据冲突处理:如字段同名异义、异名同义、数据冲突处理:如字段同名异义、异名同义、长度不同。长度不同。n数据不一致处理:如单位、命名、结构、含数
8、据不一致处理:如单位、命名、结构、含义不一致。义不一致。n数据类型的选择数据类型的选择10数据预处理的基本功能数据预处理的基本功能数据变换数据变换l功能:功能:n格式化:将元组集按照格式化条件合并,即对属格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处理。性值量纲的归一化处理。n归纳:处理元组属性值之间的归纳:处理元组属性值之间的“is-a”语义关系。语义关系。n多维数据组织:采用切片、旋转、投影等操作将多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体形式组织成为不同层次、原始数据按照多维立方体形式组织成为不同层次、不同粒度、不同维度的聚集。不同粒度、不同维度的聚集
9、。11数据预处理的基本功能数据预处理的基本功能数据简化数据简化l功能:在对数据挖掘任务和原始数据充功能:在对数据挖掘任务和原始数据充分理解的基础上,发现依赖于目标的表分理解的基础上,发现依赖于目标的表达数据的有用特征,从而尽可能地精简达数据的有用特征,从而尽可能地精简数据量。数据量。l方法:方法:n属性选择:属性剪枝、并枝、相关分析。属性选择:属性剪枝、并枝、相关分析。n数据抽样:随机抽样、等间隔抽样、分层抽数据抽样:随机抽样、等间隔抽样、分层抽样。样。12数据预处理的主要方法数据预处理的主要方法l基于约略集的属性约简方法:按等价关系对属性集基于约略集的属性约简方法:按等价关系对属性集进行划分
10、,求出最小约简集。进行划分,求出最小约简集。l基于概念树的数据浓缩方法:将元组逐层归纳为概基于概念树的数据浓缩方法:将元组逐层归纳为概念树,并去除噪声数据。念树,并去除噪声数据。l基于信息论的数据泛化方法:数据立方体法、面向基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。属性的归纳方法、最大熵方法。l基于统计分析的属性选取方法:主成分分析、回归基于统计分析的属性选取方法:主成分分析、回归分析、公共因素模型分析,找出特征属性。分析、公共因素模型分析,找出特征属性。l遗传算法:高效进行数据聚类预处理。遗传算法:高效进行数据聚类预处理。13数据清理数据清理空缺值处理空缺值处理
11、忽略有空缺值的元组忽略有空缺值的元组人工填写空缺值人工填写空缺值使用一个全局常量填充空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的使用与给定元组属同一类的所有样本的平均值填充空缺值平均值填充空缺值使用最可能的值填充空缺值使用最可能的值填充空缺值14数据清理数据清理噪声数据处理噪声数据处理l噪声:测量变量中的随机错误或偏差。噪声:测量变量中的随机错误或偏差。l数据平滑技术:数据平滑技术:n分箱方法:考察邻近数据(同一箱中)的值分箱方法:考察邻近数据(同一箱中)的值来平滑数据值。来平滑数据值。n聚类方法:通过聚类发现孤立点。聚
12、类方法:通过聚类发现孤立点。n计算机与人工相结合方法:识别噪声数据。计算机与人工相结合方法:识别噪声数据。n回归分析:建立回归方程,识别噪声数据。回归分析:建立回归方程,识别噪声数据。15数据清理数据清理不一致数据处理不一致数据处理l数据不一致处理:数据不一致处理:n单位单位n命名命名n结构结构n含义含义l方法:方法:n数据集成数据集成n数据变换数据变换16数据采样数据采样l数据采样:使用样本集代替整个数据集。数据采样:使用样本集代替整个数据集。l方法:方法:n随机采样:使用随机函数。随机采样:使用随机函数。n分层采样:根据数据分布的不平衡性(密度)分层采样:根据数据分布的不平衡性(密度)控制
13、采样频率。控制采样频率。n窗口采样:使用窗口保存一批数据作为学习算窗口采样:使用窗口保存一批数据作为学习算法的训练样本集。法的训练样本集。n静态采样与动态采样:静态或动态确定样本集静态采样与动态采样:静态或动态确定样本集与母数据库的相似度。与母数据库的相似度。17数据集成数据集成l基本任务:将多个数据源中的数据结合起来存放基本任务:将多个数据源中的数据结合起来存放在一致的数据存储(如数据仓库)中。在一致的数据存储(如数据仓库)中。l功能:功能:n数据的选择:从多数据源中选择数据数据的选择:从多数据源中选择数据n数据冲突处理:如字段同名异义、异名同义、长度不数据冲突处理:如字段同名异义、异名同义
14、、长度不同。同。n数据不一致处理:如单位、命名、结构、含义不一致。数据不一致处理:如单位、命名、结构、含义不一致。n数据类型的选择数据类型的选择18数据集成数据集成方法:方法:实体识别方法:利用元数据识别同名异义、异实体识别方法:利用元数据识别同名异义、异名同义的实体名同义的实体冗余属性识别方法:利用相关分析方法,计算冗余属性识别方法:利用相关分析方法,计算属性间的相关度属性间的相关度重复元组识别方法:同一个数据存放在多个相重复元组识别方法:同一个数据存放在多个相同的元组中同的元组中数据值不一致检测与处理方法:单位、命名、数据值不一致检测与处理方法:单位、命名、结构转换结构转换19数据变换数据
15、变换l基本任务:将数据转换成为适合于挖掘的形基本任务:将数据转换成为适合于挖掘的形式。式。l方法:方法:n数据平滑:去除数据中的噪声,分箱、聚类、数据平滑:去除数据中的噪声,分箱、聚类、回归数据清理回归数据清理n聚集:对数据进行汇总和聚集,为多粒度数据聚集:对数据进行汇总和聚集,为多粒度数据构造多维立方体数据归约构造多维立方体数据归约n数据概化:使用功能分层,用高层概念替换低数据概化:使用功能分层,用高层概念替换低层原始数据数据归约层原始数据数据归约20数据变换数据变换l方法:方法:n规范化:将属性值按比例缩放使其落入一个规范化:将属性值按比例缩放使其落入一个小的特定区间加快分类规则挖掘、学习
16、小的特定区间加快分类规则挖掘、学习阶段的速度;最小阶段的速度;最小/最大规范化、小数定标最大规范化、小数定标规范化等规范化等n属性构造:构造新的属性添加到属性集中属性构造:构造新的属性添加到属性集中提高精度和对高维数据结构的理解,有利提高精度和对高维数据结构的理解,有利于挖掘过程于挖掘过程21数据约简数据约简基本任务:将海量的源数据进行约简,但基本任务:将海量的源数据进行约简,但仍保持或接近源数据的完整性,使数据挖仍保持或接近源数据的完整性,使数据挖掘产生相同或几乎相同的结果。掘产生相同或几乎相同的结果。数据约简的方法:数据约简的方法:数据立方体聚集数据立方体聚集维归约维归约数据压缩数据压缩数
17、值压缩数值压缩离散化和概念分层离散化和概念分层22数据约简数据约简数据立方体聚集数据立方体聚集数据立方体存储多维数据,创建在最低层数据立方体存储多维数据,创建在最低层数据立方体的称为基本立方体,最高层抽数据立方体的称为基本立方体,最高层抽象的数据立方体称为顶点立方体,较高层象的数据立方体称为顶点立方体,较高层的数据立方体将减少结果数据。的数据立方体将减少结果数据。数据立方体聚集即将感兴趣的实体提高其数据立方体聚集即将感兴趣的实体提高其抽象层次,以减少结果数据,便于分析使抽象层次,以减少结果数据,便于分析使用。用。23数据约简数据约简维归约维归约基本任务:删除不相关的维或属性(数百个)基本任务:
18、删除不相关的维或属性(数百个),以减少数据量。,以减少数据量。方法:属性子集选择法,即找出最小属性集,方法:属性子集选择法,即找出最小属性集,使得数据的概论分布尽可能接近使用所有属使得数据的概论分布尽可能接近使用所有属性的原分布。性的原分布。问题:问题:n个属性有个属性有2n个子集,个子集,如何找到如何找到“好好的的”子集?子集?24数据约简数据约简维归约维归约属性子集选择法:压缩搜索空间的启发式算法属性子集选择法:压缩搜索空间的启发式算法启发式方法的技术:启发式方法的技术:逐步向前选择:从空属性集开始,选择最好的属性添逐步向前选择:从空属性集开始,选择最好的属性添加入属性集。加入属性集。逐步
19、向后删除:从属性全集开始,删除其中最差的属逐步向后删除:从属性全集开始,删除其中最差的属性。性。向前选择和向后删除结合:每一步选择一个最好的属向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余的属性中删除一个最差的属性。性,并在剩余的属性中删除一个最差的属性。判定树归纳:删除不出现在判定树中的属性判定树归纳:删除不出现在判定树中的属性25数据压缩数据压缩基本任务:对数据进行编码和变换,得到基本任务:对数据进行编码和变换,得到数据的压缩表示,使用时进行解压缩,重数据的压缩表示,使用时进行解压缩,重新构造原数据(无损)或原数据的近似值新构造原数据(无损)或原数据的近似值(有损)。(有损)。方法:方法:离散余弦变换(离散余弦变换(DCT)离散小波变换(离散小波变换(DWT)主成分分析(主成分分析(PCA)26数据的概念分层数据的概念分层基本任务:利用离散化技术将属性域划分基本任务:利用离散化技术将属性域划分为区间,用区间标号代替实际的数据值,为区间,用区间标号代替实际的数据值,以减少属性值的数量。以减少属性值的数量。方法:方法:分箱分箱直方图分析直方图分析聚类分析聚类分析基于熵的离散化基于熵的离散化基于自然划分的数据分段基于自然划分的数据分段27