《数据挖掘概念与技术数据预处理课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术数据预处理课件.ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/5/261数据预处理 2009年4月27日 2023/5/2622.1 数据预处理的原因 n正确性(Correctness)n一致性(Consistency)n完整性(Completeness)n可靠性(Reliability)数据质量的含义 2023/5/263数据错误的不可避免性 n数据输入和获得过程数据错误n数据集成所表现出来的错误n数据传输过程所引入的错误 n据统计有错误的数据占总数据的5%左右Redmen,Orr98数据错误的危害性n高昂的操作费用n糟糕的决策制定n组织的不信任n分散管理的注意力2023/5/264数据预处理的形式n数据清理n数据集成n数据变换n数据归约20
2、23/5/2662.2描述性数据汇总n极差、四分位数、离群点和箱形图n方差 标准差2.2.2 度量数据的离散趋势2023/5/2672.2描述性数据汇总n直方图、分位数图、分位数-分位数图n散点图、散点图阵、nLoess曲线2.2.3 基本描述数据汇总的图形显示2023/5/2682.3 数据清理 n忽略元组n人工填写空缺值n使用一个全局常量填充空缺值 n使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平均值n使用最可能的值填充空缺值2.3.1 缺失值 2023/5/2610n实体识别:元数据可帮助避免错误n属性冗余:相关分析n数据重复n数据值冲突的检测与处理:2.4 数据集成和
3、变换2.4.12.4.1 数据集成数据集成2023/5/2611n平滑n聚集n数据概化n规范化:最小-最大、Z-Score、按小数定标n属性构造 2.4.22.4.2 数据变换数据变换2023/5/26132.5 数据归约归约数据集小、近似保持原数据的完整性2.5.3 数据压缩:编码机制压缩数据 方法:小波变换、主成分分析(PCA)数值压缩:用替代的、较小的数据表示数据 方法:有参方法 回归和对数线性模型 无参方法 直方图 聚类 抽样 2023/5/26152.6 离散化和概念分层:2.6.1 对数值数据:分箱 直方图分析 聚类分析 基于熵的离散化(entropy)通过信息增益方法确定区间边界
4、 使用类信息,更可能将区间边界定义准确 基于卡方分析的区间合并 通过自然划分分段 3-4-5规则(P58):将数值数据划分成相对一致的区间2023/5/26162.6.2 对分类数据:n分类数据是离散数据。一个分类属性可能有有限个不同的值。n方法 n由用户和专家在模式级显式的说明属性的部分序n通过显式的数据分组说明分层结构的一部分n说明属性集,但不说明他们的偏序n只说明部分的属性集数据挖掘原语划分挖掘相关的数据挖掘相关的数据 挖掘的知识类型挖掘的知识类型背景知识背景知识模式的兴趣度量模式的兴趣度量结果的表示与可视化结果的表示与可视化任务相关数据任务相关数据n数据库(或数据仓库)名称数据库(或数
5、据仓库)名称n例如:例如:AllElectronics_dbn数据库表(或数据仓库的立方体)数据库表(或数据仓库的立方体)n例如:表例如:表item,customer,purchase,items_soldn数据选择条件数据选择条件n例如:选取本年度加拿大地区购买商品的数据例如:选取本年度加拿大地区购买商品的数据n选取条件可能在概念上层次高于选取条件可能在概念上层次高于DB/DW的数据的数据n如:如:”type=home entertainment”,DB/DW中数据中数据tv,cd player,vcrn有关的属性(或维)有关的属性(或维)n例如:例如:item表的表的name,price属
6、性属性;customer表的表的income,age属性。属性。n系统应具备自动选取相关属性的机制,比如通过评估各属性与特系统应具备自动选取相关属性的机制,比如通过评估各属性与特定操作的相关程度。定操作的相关程度。n数据分组的标准数据分组的标准n例如:根据日期进行分组例如:根据日期进行分组挖掘的知识类型挖掘的知识类型n描述描述(characterization)n区别分析区别分析(discrimination)n关联关联(association)n分类分类/预测预测(classification/prediction)n聚类聚类(clustering)n例例:用户如果想发掘用户如果想发掘All
7、Electronics数据库中用户的购买数据库中用户的购买习惯,可能会选择下面关联规则:习惯,可能会选择下面关联规则:P(X:customer,W)Q(X,Y)=buys(X,Z)X是是customer表的主键,表的主键,P,Q是谓词变量是谓词变量(在相关数据在相关数据中定义中定义),W,Y,Z是目标变量。可能的挖掘结果是:是目标变量。可能的挖掘结果是:nage(X,”3039”)income(X,”40k49k”)=buys(X,”VCR”)2.2%,60%naccupation(X,”student”)age(X,”2029”)=buys(X,”computer”)1.4%,70%背景知识
8、:概念层次背景知识:概念层次n概念层次概念层次n模式层次模式层次(schema hierarchy)(schema hierarchy)n例:例:Streetcityprovince_or_statecountryn集合集合-分组层次分组层次(set-grouping hierarchy)n例:例:young,middle_aged,seniorall(age)20-39=young,40-59=middle_agedn基于操作层次基于操作层次(operation-derived hierarchy)n包括信息解码,复杂数据对象的信息提取,数据聚类,数据分布分析算包括信息解码,复杂数据对象的信
9、息提取,数据聚类,数据分布分析算法等法等n例:例:email address:login-name department university countryn基于规则层次基于规则层次(rule-based hierarchy)n例:例:low_profit_margin(X)=price(X,P1)and cost(X,P2)and(P1-P2)$50n用户对数据间关系的预测用户对数据间关系的预测n可以用于评价挖掘模式的兴趣度量可以用于评价挖掘模式的兴趣度量结果模式的可视化结果模式的可视化n挖掘系统应能够用多种形式来显示发掘挖掘系统应能够用多种形式来显示发掘出来的模式出来的模式n如:规则,表
10、,报表,图表,图,决策数和立方体如:规则,表,报表,图表,图,决策数和立方体n挖掘系统应能够支持挖掘结果的多种操挖掘系统应能够支持挖掘结果的多种操作作n如:如:drill-down,roll-up,slicing,dicing,rotation挖掘原语,语言和体系结构n数据挖掘原语n数据挖掘语言n数据挖掘系统体系结构n总结DMQL一个数据挖掘语言n动机动机n为了能提供交互式数据挖掘能力为了能提供交互式数据挖掘能力n通过提供一个类似通过提供一个类似SQL的语言的语言n希望能像希望能像SQL语言一样成为挖掘标准语言语言一样成为挖掘标准语言n希望成为系统开发和演化希望成为系统开发和演化(evolut
11、ion)的基础的基础n希望促进信息交换,技术转移,商业化并获得广希望促进信息交换,技术转移,商业化并获得广泛承认泛承认n设计设计nDMQL 在前面介绍的挖掘原语基础之上进行设计在前面介绍的挖掘原语基础之上进行设计任务相关数据语法表示(续)任务相关数据语法表示(续)n例:如果挖掘例:如果挖掘AllElectronics的加拿大顾客经常购买的商的加拿大顾客经常购买的商品之间的关联,针对顾客不同收入和年龄,并且数据品之间的关联,针对顾客不同收入和年龄,并且数据用购买日期进行分组。挖掘相关数据可以写成用购买日期进行分组。挖掘相关数据可以写成:use database AllElectronics_db
12、in relevance to I.name,I.price,C.income,C.agefrom customer C,item I,purchase P,item_sold Swhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_IDgroup by P.date 挖掘知识类型的语法挖掘知识类型的语法n:=|n:=Mine characterization as analyze n例:例:mine characteristics as customerPurchasing analyze count
13、%n:=Mine comparison as for where versus where analyze n例:例:mine comparison as purchaseGroups for bigSpenders where avg(I.price)$100 analyze count versus budgetSpenders where avg(I.price),$100概念层次语法n语法:语法:Use hierarchy for n不同概念层次采用不同定义方式不同概念层次采用不同定义方式n模式概念层次模式概念层次define hierarchy time_hierarchy on d
14、ate as date,month quarter,yearn集合集合-分组概念层次分组概念层次define hierarchy age_hierarchy for age on customer aslevel1:young,middle_aged,senior level0:alllevel2:20,.,39 level1:younglevel2:40,.,59 level1:middle_agedlevel2:60,.,89 level1:senior概念层次语法(续)n基于操作概念模式基于操作概念模式(operation-derived hierarchies)define hiera
15、rchy age_hierarchy for age on customer as age_category(1),.,age_category(5):=cluster(default,age,5)all(age)n基于规则概念模式基于规则概念模式(rule-based hierarchies)define hierarchy profit_margin_hierarchy on item as level_1:low_profit_margin level_0:all if(price-cost)$50 level_1:medium-profit_margin$50)and(price-co
16、st)=$250)level_1:high_profit_margin$250兴趣度量语法n语法:语法:with threshold=threshold_valuen例例:with support threshold=0.05with confidence threshold=0.7 挖掘知识表示语法n 用户指定显示方法用户指定显示方法display asdisplay as n 为在不同概念层次上观察结果:为在不同概念层次上观察结果:Multilevel_Manipulation:=Multilevel_Manipulation:=roll up onroll up on|drill dow
17、n ondrill down on|addadd|dropdrop 一个完整的DMQL语句use database AllElectronics_db use hierarchy location_hierarchy for B.addressmine characteristics as customerPurchasing analyze count%in relevance to C.age,I.type,I.place_made from customer C,item I,purchases P,items_sold S,works_at W,branch Bwhere I.item
18、_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and P.method_paid=AmEx and P.empl_ID=W.empl_ID and W.branch_ID=B.branch_ID and B.address=Canada and I.price=100with noise threshold=0.05 display as table其它数据挖掘语言n关联规则语言关联规则语言nMSQL(Imielinski&Virmani99)nMineRule(Meo Psaila and Ceri96)nQu
19、ery flocks 基于基于Datalog 语法语法(Tsur et al98)nOLEDB for DM(Microsoft2000)n和和 OLE DB,OLE DB for OLAP一起致力于一起致力于DB,DW,DM的标准化的标准化n到到2000年年3月止,已经完成了月止,已经完成了predictive modeling(classification&Prediction),clustering,还未包含还未包含 characterization,discrimination,association modeling 等。等。nCRISP-DM(CRoss-Industry Stan
20、dard Process for Data Mining)n是一个国际性项目,包含数据库公司,数据仓库公司,用户公司是一个国际性项目,包含数据库公司,数据仓库公司,用户公司(user companies)n目的在于提供有效数据挖掘的平台和过程结构目的在于提供有效数据挖掘的平台和过程结构(process structure)n强调运用数据挖掘技术来解决商业问题强调运用数据挖掘技术来解决商业问题挖掘原语,语言和体系结构n数据挖掘原语n数据挖掘语言n数据挖掘系统体系结构n总结数据挖掘系统体系结构n数据挖掘系统与数据挖掘系统与 DB/DW 系统的耦合程度系统的耦合程度n零耦合零耦合用文件作为数据源和存
21、放结果数据用文件作为数据源和存放结果数据,不推荐不推荐n松散耦合松散耦合n用用DB/DW作数据源,查询结果写入文件或作数据源,查询结果写入文件或DB/DW;但不使用;但不使用DB/DW的提供的数据结构和查询优化方法。的提供的数据结构和查询优化方法。n半紧耦合半紧耦合提升挖掘系统性能提升挖掘系统性能n部分挖掘原语在部分挖掘原语在DB/DW中实现,如中实现,如sorting,indexing,aggregation,histogram analysis,multiway join,precomputation of some statistic functions such as count,su
22、m,max,min,standard deviation.n紧耦合紧耦合一个统一的信息处理环境一个统一的信息处理环境nDM 被集成到被集成到DB/DW系统,作为信息系统的一个组成部分;并利系统,作为信息系统的一个组成部分;并利用用DB/DW的数据结构,索引模式查询处理过程对挖掘查询进行优的数据结构,索引模式查询处理过程对挖掘查询进行优化。化。挖掘原语,语言和体系结构n数据挖掘原语n数据挖掘语言n数据挖掘系统体系结构n总结总结n数据挖掘查询原语数据挖掘查询原语n任务相关数据任务相关数据n挖掘知识类型挖掘知识类型n背景知识背景知识n兴趣度量兴趣度量n知识表示和可视化知识表示和可视化n数据挖掘查询语言数据挖掘查询语言nDMQL,MS/OLEDB for DM等等.n数据挖掘系统体系结构数据挖掘系统体系结构n零耦合,松散耦合,半紧密耦合,紧密耦合零耦合,松散耦合,半紧密耦合,紧密耦合