数据挖掘5章概念描述特征化与比较课件.ppt

上传人:飞****2 文档编号:69921020 上传时间:2023-01-11 格式:PPT 页数:55 大小:420KB
返回 下载 相关 举报
数据挖掘5章概念描述特征化与比较课件.ppt_第1页
第1页 / 共55页
数据挖掘5章概念描述特征化与比较课件.ppt_第2页
第2页 / 共55页
点击查看更多>>
资源描述

《数据挖掘5章概念描述特征化与比较课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘5章概念描述特征化与比较课件.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、概念描述概念描述2023/1/101特征化和比较特征化和比较n什么是概念描述什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n解析特征化解析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较挖掘类比较:获取不同类之间的不同处获取不同类之间的不同处n在大型数据库中挖掘描述统计度量在大型数据库中挖掘描述统计度量n讨论讨论n总结总结2023/1/102什么是概念描述什么是概念描述?n描述性 vs.预测性 数据挖掘n描述性数据挖掘描述性数据挖掘:n预测性数据挖掘预测性数据挖掘:n概念描述:n特征化特征化:对所选择的数据集给出一个简单明了的描述,汇总n比较比较:提供对于两

2、个或多个数据集进行比较的描述2023/1/103概念描述和概念描述和OLAPOLAP区别区别n概念描述:n 能够处理复杂的数据类型和各种汇总方法n 更加自动化nOLAP:OLAP:n只能限制于少量的维度和数据类型n用户控制的流程2023/1/104特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2023/1/105数据概化和基于汇总的特征化数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高

3、的层次n方法:nOLAP方法:n面向属性的归纳2023/1/106OLAPOLAP方法方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如:count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析,不能自动的选择哪些字段和相应的概念层次2023/1/107面向属性的归纳nKDD Workshop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍:n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组,并累计他们对应的计数

4、值进行n和使用者之间交互式的呈现方式.2023/1/108基本方法基本方法n数据聚焦数据聚焦:选择和当前分析相关的数据,包括维。n属性删除属性删除:如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。n属性阈值控制属性阈值控制:typical 2-8,specified/default.n概化关系阈值控制概化关系阈值控制:控制最终关系的大小2023/1/109基本算法基本算法nInitialRelInitialRel:得到相关数据,形成初始关系表n

5、PreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。n结果的表示结果的表示:概化关系、交叉表、3D立方体2023/1/1010示例示例nDMQL:use Big_University_DBmine characteristics as“Science_Students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status

6、in“graduate”n相应的相应的SQL:SQL:Select name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“Msc”,“MBA”,“PhD”2023/1/1011类特征化:示例类特征化:示例Prime Generalized RelationInitial Relation2023/1/1012概化结果的表示概化结果的表示n概化关系:n一个表格,其中有属性字段,后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts,bar charts,c

7、urves,cubes,and other visual forms.n量化特征规则:(上表与上表与136页例页例4.26)2023/1/1013表达方式表达方式-概化关系概化关系(133页例页例4.22)2023/1/1014表达方式表达方式交叉表交叉表(133页例页例4.23)2023/1/1015使用使用CubeCube技术进行实现技术进行实现n对给定的数据动态创建数据立方体:对给定的数据动态创建数据立方体:n便于有效的下钻操作n可能增加响应时间n解决方法:实现存储一些较高层次的统计信息。n使用预定义的数据立方体:使用预定义的数据立方体:n预先构建数据立方体nCube计算的花费和额外的存

8、储空间2023/1/1016特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化分析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2023/1/1017属性相关性分析属性相关性分析nwhy?n哪些维需要包括?n需要概化到什么层次?n减少属性;从而容易理解模型结果nWhat?n使用统计的方法进行数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化,分析比较 2023/1/1018属性相关性分析属性相关性分析n步骤:n数据收集n使用保守的A

9、OI进行预相关分析n相关性分析,删除不相关和弱相关属性n使用AOI产生概念描述2023/1/1019相关性度量标准相关性度量标准n相关性度量标准决定了如何对属性进行判断的标准n方法n信息增益information gain(ID3)n增益比gain ratio(C4.5)nGini索引gini indexn不确定性n相关系数2023/1/1020Entropy 和 Information Gainn集合S中类别Ci的记录个数是si 个 i=1,m n期望信息n属性A的熵是n信息增益2023/1/1021一个例子一个例子(131页例页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名

10、称 gender,major,birth_place,birth_date,phone#,and gpanGen(ai)=concept hierarchies on ainUi=attribute analytical thresholds for ainTi=attribute generalization thresholds for ainR=attribute relevance threshold2023/1/1022例子:分析特征化(续)例子:分析特征化(续)n1.数据收集ntarget class:graduate studentncontrasting class:under

11、graduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major,birth_place,birth_date and gpanaccumulate countsn候选关系:gender,major,birth_country,age_range and gpa2023/1/1023例子:分析特征化例子:分析特征化(2)(2)Candidate relation for Target class:Graduate students(=120)Candidate relation for Contras

12、ting class:Undergraduate students(=130)2023/1/1024例子:分析特征化例子:分析特征化(3)(3)n3.相关性分析n计算期望信息n计算每个属性的熵Number of grad students in“Science”Number of undergrad students in“Science”2023/1/1025例子:分析特征化例子:分析特征化(4)(4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributes2023/1/1026例子:分析特征化例子:分析特征化

13、(5)(5)n4.Initial working relation(W0)derivationnR=0.1n删除不相关或者弱相关的属性=drop gender,birth_countryn删除比较类的关系n5.在W0进行AOI分析Initial target class working relation W0:Graduate students2023/1/1027特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较挖掘类比较:获取不同类之间的不同处获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2023/1/1028挖掘类

14、比较挖掘类比较n比较:比较两个或者更多类.n方法:n将相关的数据分成目标类和比较类。n将两个类别的数据概化到相同的层次。n用相同层次的描述对元组进行比较。n对于每个元组展现其描述和两个衡量标准:nsupport-distribution within single classncomparison-distribution between classesn将差异很大的元组特别显示出来n相关性分析:n发现最能体现类别之间差异的属性.2023/1/1029例子:分析性比较例子:分析性比较(133页例页例5.10)nTaskn使用区别规则来分析本科生和研究生nDMQL queryuse Big_Un

15、iversity_DBmine comparison as“grad_vs_undergrad_students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”where status in“graduate”versus“undergraduate_students”where status in“undergraduate”analyze count%from student2023/1/1030例子:分析性比较例子:分析性比较(2)(2)

16、n条件:nattributes name,gender,major,birth_place,birth_date,residence,phone#and gpanGen(ai)=concept hierarchies on attributes ainUi=attribute analytical thresholds for attributes ainTi=attribute generalization thresholds for attributes ainR=attribute relevance threshold2023/1/1031例子:分析性比较例子:分析性比较(3)(3)

17、n1.数据收集n目标类和比较类n2.属性相关性分析nremove attributes name,gender,major,phone#n3.同步概化ncontrolled by user-specified dimension thresholdsnprime target and contrasting class(es)relations/cuboids2023/1/1032例子:分析性比较例子:分析性比较(4)(4)Prime generalized relation for the target class:Graduate studentsPrime generalized rel

18、ation for the contrasting class:Undergraduate students2023/1/1033例子:分析性比较例子:分析性比较(5)(5)n4.在目标和比较类别上,Drill down,roll up and other OLAP operations,确定概化层次.n5.展现方式n generalized relations,crosstabs,bar charts,pie charts,or rulesn比较性的度量,以体现目标类和比较类之间的差别ne.g.count%2023/1/1034量化区分规则量化区分规则nCj=目标类nqa=概化元组n也覆盖比

19、较类别的元组nd-weightn范围:0,1n量化区别规则2023/1/1035例子例子:量化区别规则量化区别规则n量化区别规则(135页例页例5.11)nwhere 90/(90+120)=30%Count distribution between graduate and undergraduate students for a generalized tuple2023/1/1036类别描述类别描述n量化特征规则n必要n量化区别规则n充分n量化描述规则n必要和充分2023/1/1037例子例子:量化描述规则量化描述规则(136页例页例5.13)n对于目标类Europe的量化描述规则(13

20、7页例页例5.14)Crosstab showing associated t-weight,d-weight values and total number(in thousands)of TVs and computers sold at AllElectronics in 19982023/1/1038特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量在大型数据库中挖掘描述统计度量n讨论n总结2023/1/1039挖掘数据散布特征挖掘数据散布特征n动机n更好的了解数据:集中趋势,

21、差别 和 分布n数据散布特征 nmedian,max,min,quantiles,outliers,variance,等.2023/1/1040衡量中心趋势衡量中心趋势n平均值n带权平均n中位数:一个整体度量n如果是奇数,则为中间数,偶数则为中间两数的平均n用插值的方法进行估计n模n出现次数最多的值nUnimodal,bimodal,trimodalnEmpirical formula:2023/1/1041衡量离散趋势衡量离散趋势n四分位数四分位数,异常异常 和和 盒图盒图n四分位数四分位数:Q1(25th percentile),Q3(75th percentile)n中间四分位区间中间四

22、分位区间:IQR=Q3 Q1 n五数概括五数概括:min,Q1,M,Q3,maxn盒图盒图:ends of the box are the quartiles,median is marked,whiskers,and plot outlier individuallyn异常异常:usually,a value higher/lower than 1.5 x IQRn方差和标准差nVariance s2:(algebraic,scalable computation)nStandard deviation s is the square root of variance s22023/1/10

23、42 盒图分析盒图分析n五数概括五数概括:Minimum,Q1,M,Q3,Maximumn盒图盒图n数据用盒子的形式表现n盒子的两端分别是两个分位数,i.e.,the height of the box is IRQn中位数用一条线来表示。n延长线:从盒子延长到最大和最小值2023/1/1043A BoxplotA boxplot2023/1/1044数据分布的可视化:盒图分析数据分布的可视化:盒图分析2023/1/1045在大型数据库中挖掘统计信息在大型数据库中挖掘统计信息n方差方差n标准差标准差:方差的平方根n衡量分散程度n当且仅当所有值一样的时候为0。n方差和标准差都是代数的2023/1

24、/1046直方图(频率直方图)直方图(频率直方图)n图形化表示类描述的基本统计信息n频率直方图2023/1/1047分位数图分位数图2023/1/1048分位数分位数-分位数分位数(Q-Q)(Q-Q)图图2023/1/1049散布图散布图2023/1/1050Loess Loess 曲线曲线2023/1/1051图形化的表示基本统计描述图形化的表示基本统计描述n直方图直方图:n盒图盒图:n分位数图分位数图:each value xi is paired with fi indicating that approximately 100 fi%of data are xi n分位数分位数-分位数

25、图分位数图(q-q):graphs the quantiles of one univariant distribution against the corresponding quantiles of anothern散布图散布图:each pair of values is a pair of coordinates and plotted as points in the planenLoess(local regression)Loess(local regression)曲线曲线:add a smooth curve to a scatter plot to provide bett

26、er perception of the pattern of dependence2023/1/1052特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论讨论n总结2023/1/1053面向属性的归纳 vs.示例学习方法n原理和基本假设的不同n机器学习:正负样本。n概念描述:只有正样本。n训练样本集的大小n机器学习:训练样本集小n概念描述:训练样本集大。n概化方法的不同n机器学习:按照元组概化n概念描述:按照属性概化2023/1/1054特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2023/1/1055

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁