《数据预处理方法与改进的建议.pptx》由会员分享,可在线阅读,更多相关《数据预处理方法与改进的建议.pptx(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据预处理的必要性数据预处理是整个数据挖掘与知识发现过程中的一个重要步骤。不完整、含噪声的和不一致的数据是现实世界大型数据库或数据仓库的共同特点。数据的预处理能有效的提高数据质量,节约大量的时间和空间。一些比较成熟的算法对其处理的数据集合一般有一定的要求。第1页/共55页数据预处理的常规方法1.数据清洗去掉噪声和无关数据 2.数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式 4.数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等 第2页/共55页第3页/共55页数据清洗处理空缺值数据并不总是完整的在
2、分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入第4页/共55页数据清洗处理空缺值空缺值要经过推断而补上1.忽略该记录2.去掉属性 3.手工填写空缺值4.使用默认值5.使用属性平均值6.使用同类样本平均值 7.预测最可能的值第5页/共55页噪声数据的处理分箱分箱:把待处理的数据按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围
3、内,就称把该属性值放进这个子区间代表的“箱子”里。分箱技术需要确定的主要问题:分箱方法,即如何分箱数据平滑方法,即如何对每个箱子中的数据进行平滑处理第6页/共55页噪声数据的处理分箱分箱的方法:分箱前对记录集按目标属性值的大小进行排序。等深分箱法 等宽分箱法 用户自定义区间 最小熵例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000第7页/共55页噪声数据的处理分箱等深分箱法(统一权重)按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱
4、的权重,也称箱子的深度。设定权重(箱子深度)为4,上述例子分箱后的结果如下。箱1:800 1000 1200 1500箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500箱4:4000 4500 4800 5000第8页/共55页噪声数据的处理分箱等宽分箱法(统一区间)在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。设定区间范围(箱子宽度)为1000元人民币,分箱后箱1:800 1000 1200 1500 1500 1800箱2:2000 2300 2500 2800 3000箱3:3500 4000 4500箱4:4800 5
5、000 第9页/共55页噪声数据的处理分箱最小熵使在各区间分组内的记录具有最小的熵。信息是信号、符号或消息所表示的内容,用以消除对客观事物认识的不确定性信息量的直观定义:信息量的大小取决于信息内容消除人们认识的“不确定程度不确定程度”,所消除的不确定程度越大,则所包含的信息量就越大。第10页/共55页熵信息的度量(利用概率来度量)A到1000人的学校去找B。传达室人告诉他,“B是信息管理系”,而管理系有100人。他获得的信息是100/10000.1,也就是将可能性空间缩小到原来的1/10.又有人告诉他:B在信息管理与信息系统教研室(10人),则第2个信息的确定性又缩小到原来的100/1000*
6、10/100=10/1000,也就是将可能性的空间缩短到原来的1100.只要可能性范围缩小了,获得的信息量总是正的。如果为只要可能性范围缩小了,获得的信息量总是正的。如果为0 0,获得的信息为获得的信息为。如果为负,反而扩大了其可能性范围。如果为负,反而扩大了其可能性范围。第11页/共55页熵信息的度量信息量大小的单位用比特来衡量。1比特的信息量是指含有两个独立均等概率状态的事件所具有的不确定性能被全部消除所需要的信息。信息量:H(x)=-H(x)=-P(Xi)log2P(Xi)i=1,2,3,P(Xi)log2P(Xi)i=1,2,3,n,n 其中Xi表示第i个状态(共n个状态);P(Xi)
7、代表出现第i个状态时的概率;H(x)为消除不确定性所需的信息量,单位为比特(bit)。例如:币下落可能有正反两种状态,出现这两种状态的概率都是1/2,即:则,H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5)=1比特。同理可得,投掷均匀正六面体骰子的H(X)2.6比特。第12页/共55页噪声数据的处理分箱用户自定义区间 用户根据需要自定义区间。用户自定义:如将客户收入划分为1000元以下、10002000、20003000、30004000和4000元以上几组,分箱后箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3
8、:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000 第13页/共55页噪声数据的处理聚类簇:一组数据对象集合。同一簇内的所有对象具有相似性,不同簇间对象具有较大差异性。聚类:将物理的或抽象对象的集合分组为由不同簇,找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。通过聚类分析发现异常数据:相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。特点:直接形成簇并对簇进行描述,不需要任何先验知识。第14页/共55页噪声数据的处理聚类第15页/共55页噪声数据的处理回归回归:发
9、现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即利用拟合函数对数据进行平滑。方法:线性回归(简单回归):利用直线建模,将一个变量看作另一个变量的线性函数。如:Y=aX+b,其中a、b称为回归系数,可用最小二乘法求得a、b系数。非线性回归 第16页/共55页噪声数据的处理回归xyy=x+1X1Y2Y1第17页/共55页数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中1.模式匹配2.数据冗余3.数据值冲突第18页/共55页数据集成模式匹配整合不同数据源中的元数据。实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no。
10、第19页/共55页数据集成数据冗余同一属性在不同的数据库中会有不同的字段名。一个属性可以由另外一个表导出。如:一个顾客数据表中的平均月收入属性,它可以根据月收入属性计算出来。有些冗余可以被相关分析检测到第20页/共55页数据集成数据值冲突对于一个现实世界实体,其来自不同数据源的属性值或许不同。产生的原因:表示的差异、比例尺度不同、或编码的差异等。例如:重量属性在一个系统中采用公制,而在另一个系统中却采用英制。同样价格属性不同地点采用不同货币单位。第21页/共55页数据变换聚集对数据进行汇总avg(),count(),sum(),min(),max()例如:每天销售额(数据)可以进行合计操作以获
11、得每月或每年的总额。可以用来构造数据立方体第22页/共55页数据变换数据概化用更抽象(更高层次)的概念来取代低层次或数据层的数据对象例如:街道属性,就可以泛化到更高层次的概念,诸如:城市、国家。同样对于数值型的属性,如年龄属性,就可以映射到更高层次概念,如:年轻、中年和老年。第23页/共55页数据变换规范化将数据按比例进行缩放,使之落入一个特定的区域,以消除数值型属性因大小不一而造成挖掘结果的偏差。如将工资收入属性值映射到-1.0,1.0范围内。方法:(1)最小-最大规范化(2)零-均值规范化(z-score规范化)(3)小数定标规范化第24页/共55页最小-最大规范化已知属性的取值范围,将原
12、取值区间old_min,old_max映射到new_min,new_max保留了原来数据中存在的关系。但若将来遇到超过目前属性old_min,old_max取值范围的数值,将会引起系统出错第25页/共55页最小-最大规范化第26页/共55页零-均值规范化(z-scorez-score规范化)根据属性A的均值和偏差来对A进行规格化,常用于属性最大值与最小值未知;或使用最大最小规格化方法时会出现异常数据的情况。第27页/共55页零-均值规范化(z-scorez-score规范化)第28页/共55页小数定标规范化通过移动属性A值的小数位置,将属性A的值映射到0,1之间,用小数的科学表示法来达到规格化
13、的目的。移动的小数位数取决于属性A绝对值的最大值。第29页/共55页小数定标规范化第30页/共55页数据变换属性构造利用已有属性集构造出新的属性,并加入到现有属性集合中以帮助挖掘更深层次的模式知识,提高挖掘结果准确性。例如:根据宽、高属性,可以构造一个新属性:面积。第31页/共55页数据归约的方法1.数据立方体聚集:2.维归约3.数据压缩4.数值归约5.离散化和概念分层生成第32页/共55页数据归约数据立方体聚集数据立方体基本概念:数据立方体是数据的多维建模和表示,由维和事实组成。维属性事实数据数据立方体聚集定义将n维数据立方体聚集为n-1维的数据立方体。第33页/共55页数据归约数据立方体聚
14、集第34页/共55页数据归约数据立方体聚集聚集后的销售数据立方体 第35页/共55页下图数据是某商场20002002年每季度的销售数据,对这种数据进行聚集,使结果数据汇总每年的总销售额,而不是每季度的总销售额。聚集后数据量明显减少,但没有丢失分析任务所需的信息。对年度内的各季度数据进行sum(求和)聚集数据归约数据立方体聚集第36页/共55页数据归约维归约维归约去掉无关的属性,减少数据挖掘处理的数据量。例如:挖掘顾客是否会在商场购买Mp3 播放机的分类规则时,顾客的电话号码很可能与挖掘任务无关,应该可以去掉。目标:寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。第
15、37页/共55页维归约选择相关属性子集1.逐步向前选择从一个空属性集(作为属性子集初始值)开始,每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性为止。2.逐步向后删除 从一个全属性集(作为属性子集初始值)开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止。3.向前选择和向后删除结合4.判定树(决策树)归纳利用决策树的归纳方法对初始数据进行分类归纳学习,获得一个初始决策树,所有没有出现这个决策树上的属性均认为是无关属性,因此将这些属性从初始属性集合删除掉,就可以获得一个较优的属性子集。第38页/共55页数据
16、归约数据压缩数据压缩用数据编码或者变换,得到原始数据的压缩表示。在数据挖掘领域通常使用的两种数据压缩方法均是有损的:主成分分析法(PCA)假定待压缩的数据由N个取自k个维的元组或数据向量组成。主要成分分析并搜索得到c个最能代表数据的k维正交向量,这里 ck。这样就可以把原数据投影到一个较小的空间,实现数据压缩小波转换第39页/共55页利用分箱方法对数据分布情况进行近似数值归约直方图(“频率值”对应关系图)第40页/共55页优点:获取样本的时间仅与样本规模成正比方法:不放回简单随机抽样放回简单随机抽样聚类抽样:先聚类,再抽样分层抽样:先分层,再抽样数值归约抽样(采样)第41页/共55页数据归约离
17、散化与概念分层生成三种类型的属性值:名称型e.g.无序集合中的值序数e.g.有序集合中的值连续值e.g.实数离散化技术以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。概念分层概念分层定义了一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。用较高层次的概念替换低层次(如年龄的数值)的概念,以此来减少取值个数。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。概念分层结构可以用树来表示,树的每个节点代表一个概念。第42页/共55页数据
18、归约概念分层生成第43页/共55页数据预处理方法的一些改进第44页/共55页对数据预处理方法的分析与思考数据预处理的每一个步骤都有着多种不同的方法。某些不同的处理方法在不同的阶段可分别使用。预处理方法中有较多的统计方法。第45页/共55页不同阶段中相同的预处理方法分箱:可以选用箱均值或箱中位数来平滑噪声,也可以用做数值归约和概念分层产生的离散方法。回归:在数据清理阶段,既可以用来填充缺失值,又可以平滑噪声,同时在数据归约阶段还可以实现数值归约。聚类:在平滑噪声时可以使用这种方法,聚类分析可以通过离散化数值属性来达到离散和概念分层,从而实现数值归约。第46页/共55页不同阶段中相同的预处理办法决
19、策树:可以通过构造决策树预测属性的值来填充缺失值,也可以用决策树进行属性子集选择,实现数值归约。卡方检验:用来检测两个属性之间的相关性,在数据集成时可以识别冗余属性,数据归约中的数值归约第47页/共55页归纳大部分方法可以在数据清理和数据归约中使用。数据清理和数据归约在整个数据预处理中相对更重要,特别是数据归约。第48页/共55页预处理中的统计方法第49页/共55页思考能否将统计学中的一些方法无变化地、直接地用到数据挖掘的数据预处理中?为什么?如果不能,这些统计方法又怎么样才能有效的应用到预处理中?第50页/共55页传统统计学VS数据挖掘传统统计学所处理的数据,是以概率论为基础的,通过预先设计
20、的试验方法或抽样方法而获得的,这保证了这些数据满足一定的概率模型。数据挖掘所面临的是大规模数据 数量超巨大 变量个数巨大 数据之间存在着复杂的相关关系以及缺失数据第51页/共55页数据挖掘VS数理统计目标相同:发现数据中的规律。用样本推断总体规律是统计学的核心方法之一,而数据挖掘更注重对总体规律的分析。统计学研究的问题常常会遇到一个普遍适用的模型,而数据挖掘得到的是每个数据集的规律,常常不具有普遍意义。统计学追求精确,建立一个模型并证明之,而数据挖掘注重实验。第52页/共55页一些归纳如果我们注意到上述的差异,在处理实际问题的时候,结合数据挖掘中数据的特点,综合应用许多领域的各种专业知识,就能成功地将统计学方法应用到数据预处理中。而这些专业知识包括了数据库管理、统计学、计算机科学、人工智能、模式识别、运筹学等。第53页/共55页对数据预处理方法整体改进意见强调数据预处理要与专业知识和实际应用相结合,而且这种结合要实施在数据预处理的每一个步骤中。把对初始数据源的获取作为数据预处理的一个重要步骤。数据预处理的五个步骤:初始数据源的获取、数据清理、数据集成、数据变换、数据归约。提倡对数据预处理采取循环模式。第54页/共55页感谢您的观看!第55页/共55页