《第四章:数据预处理.ppt》由会员分享,可在线阅读,更多相关《第四章:数据预处理.ppt(106页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章数据预处理数据预处理北方工业大学信息工程学院北方工业大学信息工程学院内容内容数据预处理概述数据清洗数据集成和变换数据归约北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述原始业务数据(或数据仓库)是数据挖掘的信息来源这些数据通常含有噪声、大量的空缺值和不一致现象影响数据挖掘的效率和结果的有用性,甚至产生一些无效归约北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述根据用户的需要确定挖掘任务在领域专家的建议和指导小采用合适的方法重新组织原始数据为数据挖掘过程
2、提供干净、准确、简洁的数据提高数据挖掘效率和准确性使之能够最大程度上支持数据挖掘算法北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述原始数据中存在的问题不一致原始数据来源于多个不同的应用系统或数据库缺乏统一的分类标准和信息的编码方案北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述原始数据中存在的问题重复同一事物在数据库中存在两条或多条完全相同的记录相同的信息冗余地存在于多个数据源中北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述原始数据中存在的问题不完整某些属性值可能会缺失或者不确定含噪声一个测量变量中的随机错
3、误或偏离期望的孤立点值北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述原始数据中存在的问题纬度高在一次数据挖掘中,只需要一部分属性就可以得到期望知道的知识数据不平衡某类样本数量明显少于其他类样本数量的数据集北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述数据预处理的方法和功能数据清洗(Data cleaning)填充空缺值识别孤立点去掉原始数据中的噪声和无关数据北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述数据预处理的方法和功能数据集成(Data integration)将多个数据源中的数据结合起来存放在一个
4、一致的数据存储中涉及多个数据源的数据匹配问题,数值冲突问题和数据的冗余问题等北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述数据预处理的方法和功能数据变换(Data transformation)把原始数据转换成为适合数据挖掘的形式对数据的汇总、聚集、概化、规范化等包括进行属性的构造北方工业大学信息工程学院北方工业大学信息工程学院数据预处理概述数据预处理概述数据预处理的方法和功能数据归约(Data reduction)产生数据的归约表示使得数据量减小,更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果包括数据立方体聚集、维归约、数据压缩、数值归约、离散
5、化和概念分层等数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗属性选择与处理从原始数据中选取合适的属性进行数据挖掘选取原则尽可能赋予属性名和属性值明确的含义统一多数据源的属性值
6、编码 保证在各个数据源中对同一事物特征的描述是统一的 如男、女,0、1,M、F等北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗属性选择与处理选取原则处理唯一属性 原始数据中的关键属性或唯一属性对数据挖掘是无用的 如ID,姓名等去除重复属性 原始数据中会出现意义相同或者可以用于表示同一信息的多个属性 如年龄和出生日期北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗属性选择与处理选取原则去除可忽略字段 当一个属性缺失非常严重时合理选择关联字段 如果属性X可以由另一个或多个属性推导或者计算出来,则认为这些字段之间的关联度高 属性和它的关联属性只选择其一即可 如商品的
7、价格、数量和总价格 月薪与年薪数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗空缺值处理忽略该记录去掉属性写空缺值依据背景资料,手工填写使用默认值Unknown挖掘算法可能认为形成了一个有用的知识使用属性平均值北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗空缺值处理使用同类样本平均值预测最可能的值从现有数据的多个信息推测空缺值根据其他完整的记录数据,使用一定的
8、预测方法,得到最可能的预测值一些数据挖掘算法在处理空值方面的能力比较强,如决策树算法、关联规则算法等,能够快速产生较为准确的知识模型!数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理噪声:在测量一个变量时可能产生一些误差或者错误,使得测量值相对于真实值有一定的偏差,这种偏差称之为噪声处理方法分箱聚类回归北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗
9、噪声数据处理分箱(binning)通过考察相邻数据来确定最终值把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理 数据排序 确定箱子个数/每组个数(深度) 采用分箱方法(统一权重,统一区间,最小熵,用户自定义区间) 平滑处理(对每一个数据)北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)箱子:按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就把该属性值放进这个子区间代表的箱子内统一权重 又称等深分箱法 每箱有相同的记录数 每箱记录数称为箱的权重北方工业大学信息
10、工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)统一区间 也称等宽分箱法 使数据集在整个属性值的区间上平均分布 每个箱的区间范围是一个常量北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)最小熵 使在各区间分组内的记录具有最小的熵 熵是信息理论中数据无序程度的度量标准 数据集的熵越低,说明数据之间的差异越小 最小熵划分就是为了使每箱中的数据具有最好的相似性 最小熵方法得到的各个分箱的全体,应该是各种分箱可能中,具有最小熵的分箱结果北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(b
11、inning) 用户自定义区间 按用户的需求定义某些希望观察的区间 对数据进行平滑 按平均值:对同一箱中的数据求平均值,并用这个平均值替代该箱中的所有数据 按边界值:对于箱子中的每个数据,观察它与箱子两个边界值的距离,并用距离较小的那个边界值替代该数据 按中值:取箱子的中值,来替代本箱中的所有数据,如果个数是偶数,用中间两个数的平均值北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 一个表的客户收入字段(属性) 共16个记录5000,800,1000,2000,1800,2300,2500,35004800,4500,1200,1500,2
12、800,3000,1500,4000北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 排序800,1000,1200,1500,1500,1800,2000,23002500,2800,3000,3500,4000,4500,4800,5000 分箱个数 统一权重:箱子深度为4(箱子里的数目) 统一区间:箱子的数目为4 自定义:箱子个数为5北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 统一权重北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binni
13、ng)例子 统一区间:数据取值范围为800,5000,每个箱子的宽度为(5000-800)/4,得到4个宽度相等的子区间:800,1850)、1850,2900)、2900,3950)、3950,5000)北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 用户自定义:1000以下、10002000、20003000、30004000、4000以上北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 按平均值平滑北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(
14、binning)例子 按边界值平滑北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理分箱(binning)例子 按中值平滑北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理聚类(clustering)将物理的或抽象对象的集合分组为由类似的对象组成的多个类的过程聚类的结果是生成一组由数据对象组成的集合,成为簇同一簇中的对象具有相似性,并且一个对象与同簇中任何一个对象之间的相似性一定强于它与其他簇中任何一个对象之间的相似性物以类聚人以群分北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理聚类要找到那些落在簇之外的值,称为
15、孤立点这些孤立点被视为噪声聚类方法不需要任何先验知识(无示教学习)数据清洗数据清洗噪声数据处理聚类 分几类,如何确定质心/重心,相似性算法北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理回归(regression)回归试图发现相关的变量之间的变化模式通过使数据适合一个函数来平滑数据,即通过建立数据模型来预测下一个数值回归方法分为线性回归和非线性回归如 Y=aX+b 一元线性回归 Z=aX+bY+c 多元线性回归可以使用最小二乘法求得回归系数a,b北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗噪声数据处理回归(regression)如 Y=a+bX+
16、cX2 非线性回归数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗不平衡数据的处理各类样本数目不平衡情况下的分类学习如二分类中的正类的学习样本比负类的学习样本多得多如欺诈识别、入侵检测、医疗诊断以及文本分类等都是典型的不平衡数据问题北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗不平衡数据的处理基本思想是通过改变训练数据的分布来消除或减小数据的不平衡分为以下方法
17、过抽样欠抽样北方工业大学信息工程学院北方工业大学信息工程学院数据清洗数据清洗不平衡数据的处理过抽样 通过增加少数类样本来提高少数类的分类性能 如复制少数类样本 没有给少数类增加任何新的信息,而且可能会导致过度拟合欠抽样 通过减少多数类样本来提高少数类的分类性能 通过随机地去掉一些多数类样本来减少多数类的规模 会丢失多数类的一些重要信息数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变
18、换数据集成和变换数据集成把多个数据存储合并起来数据变换为了使数据符合算法和挖掘目标的需要,如数据的取值范围、粒度等,需要对它们进行变换之后才能使用北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据集成涉及数据的冲突问题和不一致数据的处理问题模式匹配数据冗余数据值冲突北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据集成模式匹配用户希望发现客户背景和客户购买类型、购买力的关系北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据集成数据冗余重复:多个相同的记录冗余属性:一个属性可以由其他属性推导得出北方工业大学
19、信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据集成数据冗余相关分析法:检测一个属性蕴涵另一个属性的可能性北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据集成数据值冲突在多个数据源中,表示同一实体的属性值可能不同如单位为元、千元;类型为0/1、Y/N等数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换平滑聚集
20、数据概化规范化北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换平滑去除噪声,将连续的数据离散化,增加粒度等分箱、聚类、回归等方法实际上是把一个区域内的值用同一个数值表示,在一定的误差允许条件下减少了属性的取值个数,进而减少挖掘算法的工作量北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换聚集对数据进行汇总不使用单个客户的每次的交易明细,只需其消费总额即可北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换数据概化将属性中的低层概念概化到高层概念如客户的出生日期,概化到年龄,再概化到年龄段,再概
21、化到年代(80后,90后)北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化将数据按比例缩放,使之落入一个特定的区域,如0,1,称为规范化/标准化规范化对基于距离的聚类算法和神经网络算法是非常重要的可以保证输入值在一个相对小的范围内常用方法 最小-最大规范化 零-均值规范化 小数定标规范化北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化最小-最大规范化 区间映射 前提条件是属性的取值范围必须已知北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化最小-最大规范化new_min
22、 x new_max old_min x old_max 北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化最小-最大规范化北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化零-均值规范化 根据属性值的平均值和标准差进行规范化 求样本的平均值 求样本的标准差 规范化北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化零-均值规范化 属性值范围可以未知(利用样本的全部信息构建)北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化小数定标规范化
23、 通过移动属性值的小数点位置进行规范化 需要在属性取值范围已知的条件下使用 小数点移动的位数根据属性的最大绝对值确定北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换规范化小数定标规范化 如客户收入数据 范围为800-5000北方工业大学信息工程学院北方工业大学信息工程学院数据集成和变换数据集成和变换数据变换属性构造根据已有的属性构造新的属性添加到挖掘数据集中例如,根据客户月收入数据,构造“收入水平”属性,取值为低、中、高对分类算法有帮助连续离散数字符号多-少数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数
24、据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约从大数据集中得到其归约表示小数据集归约的目的是减少原始数据量可以在小数据集上得到与原始数据相同的挖掘结果数据归约方法(属性的减少,记录的减少,属性值的不同个数减少等)数据立方体聚集维归约数据压缩数值归约离散化和概念分层生成数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业
25、大学信息工程学院北方工业大学信息工程学院数据归约数据归约数据立方体聚集一个数据立方体由维和事实组成一个数据立方体可以是n维的对数据立方体聚集就是去掉一维,变为n-1维立方体,依此类推北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数据立方体聚集如果挖掘时感兴趣的是年度的总销售量,不关心每个省份的销售量,可以进行聚集,得到2维数据立方体数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程
26、学院数据归约数据归约维归约去掉不相关的,即与挖掘任务无关的属性/维找到一个最小属性子集,使得这个子集能够具有和原数据集相同或近似的分布北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约维归约属性子集选择方法逐步向前选择 原属性集S和S的一个初始为空的子集S 从S中选择最好的属性(最相关的属性)a加入到S,直到满足结束条件逐步向后删除 从S中选择最坏的属性(最不相关的属性)b删除,直到满足结束条件向前选择和向后删除相结合 每一次选择一个最好的属性,删除一个最坏的属性北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约维归约属性子集选择方法判定树归约 根,全集;属性测试,
27、子集;分支,测试结果;叶子节点,判定类北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约维归约属性子集选择方法判定树归约 判定树是一种分类算法 在每一个测试点,算法从属性集中选择相关性最强的属性作为判定条件 根据判定结果把数据划分成多个互斥的类 算法结束时,所有内部节点代表的属性被认为是相关属性而选中,不在树中的属性被认为是不相关的,应该删除北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约维归约属性子集选择方法基于统计分析的归约 用少量的特征元组去描述高维德原始知识基 主成分分析、逐步回归分析、公共因素模型分析等可以直接用于维回归数据预处理数据清洗数据集成和变换数
28、据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数据压缩用数据编码或者变换,得到原始数据的压缩表示分无损压缩和有损压缩无损 基于熵的编码方法有损 主成分分析法:将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法,创建一个由具有“最主要特征”的向量组成的集合来替换原数据,把原数据映射到一个较小的空间,实现数据压缩数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理
29、不平衡数据的处理数据集成数据变换数据立方体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约通过某种方法,选择较小的数据来替代原数据,减少数据量常用方法直方图聚类抽样线性回归非线性回归北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约直方图(histogram)使用分箱方法对数据进行近似每个箱代表一个区域范围内的值箱的宽度代表值域范围箱的高度代表这个范围内的值的个数一维直方图:每个箱可以代表一个属性的值和频率多维直方图:每个箱可以代表两个及以上属性的值和频率单桶:每
30、个箱只表示一个属性值北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约直方图(histogram)单桶(一个值)、值域范围北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约聚类用数据的聚类来代表实际数据北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约抽样(sampling)不是对属性进行选择或者删除是对记录进行选取即用较小的数据样本集表示大的数据集样本与原数据集具有相同的数据分布北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约抽样(sampling)抽样方法 不放回简单随机抽样 放回简单随机抽样 聚类抽
31、样 把数据集D的数据放入M个聚类,从每个聚类中抽取样本 分层抽样 把数据集D划分成互不相交的部分,每一部分称为一层,从每层中抽取样本北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约线性回归线性回归和非线性回归用数据模型而不是记录/实际数据来近似数据只保存数据模型的参数北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约数值归约非线性回归通过一定的函数转换,将非线性关系转换为线性关系数据预处理数据清洗数据集成和变换数据归约属性选择与处理空缺值处理噪声数据处理不平衡数据的处理数据集成数据变换数据立方
32、体聚集维归约数据压缩数值归约离散化与概念分层数据预处理的方法与功能数据预处理的方法与功能北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层将连续数据用有限数量的离散数据替代采用的方法是把数据划分区间,每个区间中的数据用一个值/符号来代替分箱、直方图、聚类等都是离散化技术如果在数据集上递归地使用某种离散化技术,就形成了数据集的概念分层北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层数值数据的离散化与概念分层生成数值数据的概念分层可以通过数据分析自动产生,如
33、分箱、直方图、聚类、基于熵的离散化等缺点是划分出来的层没考虑边界值是否直观或自然如20,30优于23.333,36.97北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层数值数据的离散化与概念分层生成3-4-5规则 自然划分分段的方法进行概念分层 递归地将给定数据区域划分为3、4或5个等宽的区间北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层数值数据的离散化与概念分层生成3-4-5规则北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层数值数据的离散化与概念分层生成3-4-5规则构造概念分层 例子 数据集
34、D是某公司每月利润增长数据 单位:千元 取值范围:-1332 区间规范化:-20,40)北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约离散化与概念分层数值数据的离散化与概念分层生成3-4-5规则构造概念分层 例子 考虑区间两端的值所占的比例非常少,可以设置一个置信区间(5%95%)/六西格玛/正态分布,以这两点为初始的划分区间,最后再将两边的区间加上。北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约北方工业大学信息工程学院北方工业大学信息工程学院数据归约数据归约北方工业大学信息工程学院北方工业大学
35、信息工程学院数据归约数据归约数据归约数据归约离散化与概念分层分类数据的概念分层生成分类属性值所包含的数据是数值型、字符型或字符串等即具有有限个取值的属性(可枚举的)数据之间没有大小关系数据归约数据归约离散化与概念分层分类数据的概念分层生成由用户或专家在模式级显式地说明数据的包含关系数据归约数据归约离散化与概念分层分类数据的概念分层生成通过显式数据分组说明分层结构的一部分 如1,.,10定义为上旬,中旬,下旬数据归约数据归约离散化与概念分层分类数据的概念分层生成根据属性值的个数自动产生分层 把具有最少不同值的属性放在最高层 属性的不同值数据越多,所处的概念层越低根据数据语义产生分层 在数据模式中加入属性的说明 这些说明把属性组联系在一起 当一个属性被增加进属性组时,依靠数据语义可以把所有相关的属性增加进来