《第5章-概念描述:特征化与比较--数据挖掘:概念与技术-教学课件.ppt》由会员分享,可在线阅读,更多相关《第5章-概念描述:特征化与比较--数据挖掘:概念与技术-教学课件.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第5章章 概念描述:特征化与比较概念描述:特征化与比较n从数据分析的角度看,数据挖掘可以分为描述性挖掘和预从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘。测性挖掘。q描述性挖掘:以简洁概要的方式描述数据,并提供数据描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。的有趣的一般性质。q预测性数据挖掘:通过分析数据建立一个或一组模型,预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。并试图预测新数据集的行为。5.1 什么是概念描述?什么是概念描述?n概念描述是以简洁的形式在更一般的(而不是在较低层的)概念描述是以简洁的形式在更一般的(而不是在较
2、低层的)抽象层描述数据。抽象层描述数据。q当所描述的概念所指的是一类对象时,也称为类描述。当所描述的概念所指的是一类对象时,也称为类描述。n概念指的是一类数据的集合。概念指的是一类数据的集合。qe.g.e.g.研究生,大客户。研究生,大客户。n概念描述产生特征化和比较描述。概念描述产生特征化和比较描述。q特征化:提供给定数据集的简洁汇总。特征化:提供给定数据集的简洁汇总。q区分:提供两个或多个数据集的比较描述。区分:提供两个或多个数据集的比较描述。概念描述与概念描述与OLAP的区别的区别n概念描述和数据仓库的联机分析处理(概念描述和数据仓库的联机分析处理(OLAP)都跟数据概)都跟数据概化密切
3、相关,即以简洁的形式在更一般的抽象层描述数据,化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。允许数据在抽象层概化,便于考察数据的一般行为。n两者的主要区别:两者的主要区别:q概念描述概念描述n可以处理复杂数据类型的属性及其聚集。可以处理复杂数据类型的属性及其聚集。n一个更加自动化的过程。一个更加自动化的过程。qOLAPn实际使用的实际使用的OLAP系统中,维和度量的数据类型都非系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型。种简单的数据分析模型。n
4、一个由用户控制的过程。一个由用户控制的过程。5.2.1 数据概化:数据立方体方法数据概化:数据立方体方法n执行计算并将结果存储在数据立方体中。执行计算并将结果存储在数据立方体中。n优点:优点:q数据概化的一种有效实现。数据概化的一种有效实现。q可以计算各种不同的度量值。可以计算各种不同的度量值。n比如:比如:count(),sum(),average(),max()q概化和特征分析通过一系列的数据立方体操作完成,比如上概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等。卷、下钻等。n缺点:缺点:q只能处理非数值类型的维和简单聚集数值类型的度量值(大只能处理非数值类型的维和简单聚集数
5、值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)部分现有商业系统中,只能为非数值类型的维产生概念分层)。q缺乏智能分析,不能自动确定分析中该使用哪些维,应该概缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次。化到哪个层次。5.2.2 面向属性的归纳面向属性的归纳特点:特点:n一种面向关系数据查询的、基于汇总的在线数据分析技术。一种面向关系数据查询的、基于汇总的在线数据分析技术。n受数据类型和度量类型的约束比较少。受数据类型和度量类型的约束比较少。1.面向属性的归纳的基本步骤面向属性的归纳的基本步骤n数据收集。获得初始工作关系。数据收集。获得初始工作关系。
6、n进行面向属性的归纳。进行面向属性的归纳。q基本操作是数据概化,对有大量不同值的属性,进行进基本操作是数据概化,对有大量不同值的属性,进行进一步概化。一步概化。n属性删除属性删除n属性概化属性概化q属性概化控制:控制概化过程,确定有多少不同的值才属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性。算是有大量不同值的属性。n属性概化临界值控制属性概化临界值控制n概化关系临界值控制概化关系临界值控制产生的结果表:产生的结果表:n数据收集时的困难数据收集时的困难q用户在指定相关的数据集方面存在困难,遗漏在描述用户在指定相关的数据集方面存在困难,遗漏在描述中可能起作用的属性。中可能
7、起作用的属性。q用户可能引进太多的属性。用户可能引进太多的属性。属性概化控制属性概化控制n确定什么是确定什么是“具有大量的不同值具有大量的不同值”,控制将属性概化到多,控制将属性概化到多高的抽象层。高的抽象层。n属性概化控制的两种常用方法:属性概化控制的两种常用方法:q属性概化临界值控制属性概化临界值控制n对所有属性设置一个概化临界值或者是对每个属性都对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值(一般为设置一个临界值(一般为2到到8)。)。q概化关系临界值控制概化关系临界值控制n为概化关系设置一个临界值,确定概化关系中,不同为概化关系设置一个临界值,确定概化关系中,不同元组的个
8、数的最大值。(通常为元组的个数的最大值。(通常为10到到30,应该允许在,应该允许在实际应用中进行调整)。实际应用中进行调整)。q两种技术的顺序使用:使用属性概化临界值控制来概化两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的每个属性,然后使用关系临界值控制进一步压缩概化的关系。关系。n相等元组的合并、累计计数和其他聚集值。相等元组的合并、累计计数和其他聚集值。当属性不同值个数大于某阈值,删除或概化。当属性不同值个数大于某阈值,删除或概化。当概化关系中不同元组个数超过阈值,当概化关系中不同元组个数超过阈值,进一步概化;否则不再概化。进一步概化;否
9、则不再概化。通过面向属性归纳得到的主概化关系:通过面向属性归纳得到的主概化关系:gendermajorbirth_country age_range residence_city gpa countM Science Canada 20.25 Richmond very_good 16F Science Foreign 25.30 Burnaby excellent 22.5.2.2 面向属性的归纳算法面向属性的归纳算法n输入输入q1.DB;2.数据挖掘查询数据挖掘查询DMQuery;3.属性列表属性列表;4.属性的概念分层属性的概念分层;属性的概化临界值;属性的概化临界值;n输出输出q主概化
10、关系主概化关系Pn算法描述:算法描述:1.W get_task_relevant_data(DMQuery,DB)2.prepare_for_generalization(W)/预处理预处理1.扫描扫描W,收集每个属性,收集每个属性a的不同值。的不同值。2.对每个属性对每个属性a,根据临界值确定是否删除,如果不删除,则计算其最小,根据临界值确定是否删除,如果不删除,则计算其最小期望层次期望层次L,并确定映射对,并确定映射对(v,v)。3.P generalization(W)q通过使用通过使用v代替代替W中每个中每个v,累计计数并计算所有聚集值,导出,累计计数并计算所有聚集值,导出P。1.每个
11、概化元组的插入或累积计数。每个概化元组的插入或累积计数。2.用数组表示用数组表示P。5.2.3 导出概化的表示导出概化的表示n概化关系概化关系q一部分或者所有属性得到概化的关系,包含计数或其他一部分或者所有属性得到概化的关系,包含计数或其他度量值的聚集。度量值的聚集。locationitemsalescount亚洲亚洲 TV 15 300欧洲欧洲 TV 12 250北美北美 TV 28 450亚洲亚洲 计算机计算机15 300欧洲欧洲 计算机计算机 12 250北美北美 计算机计算机28 450某年销售某年销售概化关系概化关系n交叉表交叉表q二维交叉表使用每行显示一个属性,使用每列显示二维交叉
12、表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中。另外一个属性将结果集映射到表中。q可视化技巧:可视化技巧:n条形图、饼图、曲线和数据立方体浏览工具(用单元的大条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量)。小代表计数,用单元亮度代表另外的度量)。locationitemTV计算机两项和计算机两项和salescountsalescountsalescount亚洲亚洲15300 120 10001351300欧洲欧洲 .北美北美 .所有地区所有地区 .n量化规则量化规则q使用使用t_weight表示主概化关系中每个元组的典型性表示主概化
13、关系中每个元组的典型性n量化特征规则量化特征规则q将概化的结果映射到相应的量化特征规则中,比如:将概化的结果映射到相应的量化特征规则中,比如:量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即,量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即,如果如果X在目标类中,则在目标类中,则X满足满足conditioni的概率是的概率是wi:兴趣度度量兴趣度度量一个关于维一个关于维item、location和和cost的数据立方体,的数据立方体,单元的单元的size表示对应单元的计数,单元的亮度表示另一表示对应单元的计数,单元的亮度表示另一个度量,如个度量,如sum(sales)。可以
14、进行旋转、上卷、下钻、。可以进行旋转、上卷、下钻、切片和切块操作,在数据立方体浏览器中显示。切片和切块操作,在数据立方体浏览器中显示。5.3.1 为什么进行属性相关分析?为什么进行属性相关分析?n数据仓库和数据仓库和OLAP系统中的多维数据分析缺乏一个自动概系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预。化过程,这使得这个过程中需要有很多用户干预。q用户必须告诉系统哪些维或属性应当包含在类分析中用户必须告诉系统哪些维或属性应当包含在类分析中(难)。(难)。n属性太少,则造成挖掘的描述结果不正确属性太少,则造成挖掘的描述结果不正确n属性太多,浪费计算、淹没知识属性太
15、多,浪费计算、淹没知识q告诉系统每个维应当概化到多高的层次告诉系统每个维应当概化到多高的层次(易)。(易)。n直接通过概化的临界值,说明给定维应当达到的概化程度直接通过概化的临界值,说明给定维应当达到的概化程度n对概化层次不满意,则可以指定需要上卷或下钻的维对概化层次不满意,则可以指定需要上卷或下钻的维5.3.2属性相关分析的方法属性相关分析的方法n属性相关分析的基本思想是计算某种度量,用于属性相关分析的基本思想是计算某种度量,用于量化属性量化属性与给定类或概念的相关性与给定类或概念的相关性。q可采用的度量包括:信息增益、可采用的度量包括:信息增益、Gini索引、不确定性和索引、不确定性和相关
16、系数。(涉及机器学习、统计、模糊和粗糙集理论相关系数。(涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识)等方面的相关知识)q比如:比如:信息增益信息增益通过计算一个样本分类的期望信息和属通过计算一个样本分类的期望信息和属性的熵来获得一个属性的信息增益,判定该属性与当前性的熵来获得一个属性的信息增益,判定该属性与当前的特征化任务的相关性。的特征化任务的相关性。信息增益方法信息增益方法nS是一个训练样本的集合,该样本中每个集合的类编号已知。是一个训练样本的集合,该样本中每个集合的类编号已知。每个样本为一个元组。有个属性用来判定某个训练样本的类每个样本为一个元组。有个属性用来判定某个训练样本的
17、类编号(类似于学生记录中的编号(类似于学生记录中的status属性)。属性)。n假设假设S中有中有m个类,总共个类,总共s个训练样本,每个类个训练样本,每个类ci有有Si个样本(个样本(i1,2,3.m),那么任意一个样本属于类),那么任意一个样本属于类Ci的概率是的概率是si/s,那,那么用来分类一个给定样本的期望信息是:么用来分类一个给定样本的期望信息是:5.3.3 解析特征化解析特征化示例示例 n任务任务:使用解析特征化挖掘使用解析特征化挖掘BigUniversity的研究生的一的研究生的一般特征描述。般特征描述。n给定:给定:q属性属性name,gender,major,birth_p
18、lace,birth_date,phone#和和gpa。qUi=属性分析阀值。属性分析阀值。qTi=属性概化阀值。属性概化阀值。qR=属性相关阀值。属性相关阀值。n1.数据收集数据收集q目标类:研究生目标类:研究生q对比类:本科生对比类:本科生n2.使用保守的阀值使用保守的阀值Ui和和Ti进行进行AOI(面向属性的归纳)(面向属性的归纳)q属性删除属性删除nname和和phone#q属性概化属性概化n概化概化major,birth_place,birth_date 和和 gpaq进行累积计数进行累积计数q候选关系:候选关系:gender,major,birth_country,age_rang
19、e 和和gpan3.相关性分析相关性分析q计算给定的样本分类所需要的期望信息计算给定的样本分类所需要的期望信息q计算每个属性的熵计算每个属性的熵:e.g.major(属性)(属性)各类研究生的人数各类研究生的人数各类本科生的人数各类本科生的人数研究生研究生本科生本科生n如果样本根据如果样本根据major划分,则计算给定的样本进行分类所划分,则计算给定的样本进行分类所需的期望信息:需的期望信息:n计算该属性的信息增益:计算该属性的信息增益:q所有属性的信息增益所有属性的信息增益n4.导出初始工作关系导出初始工作关系qR=0.1(临界值)(临界值)q从候选关系中去处不相关从候选关系中去处不相关/弱
20、相关的属性弱相关的属性 去处去处 gender,birth_countryq因为类描述任务是类特征化,所以这里去处候选对比类关系因为类描述任务是类特征化,所以这里去处候选对比类关系初始目标类工作关系初始目标类工作关系 W0:研究生研究生5.4 挖掘类比较:区分不同的类挖掘类比较:区分不同的类n产生相关分类。产生相关分类。n找出各个类的特征。找出各个类的特征。类特征量化类特征量化n类比较描述中的目标类和对比类的区分特性也可以类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示,即量化区分规则。用量化规则来表示,即量化区分规则。q量化区分规则使用量化区分规则使用d-weight作为兴趣度度
21、量作为兴趣度度量(特征化使用(特征化使用什么作为兴趣度度量?)什么作为兴趣度度量?)nqa概化元组概化元组nCj目标类目标类nqa的的d-weight是初始目标类工作关系中被是初始目标类工作关系中被qa覆盖的元组数覆盖的元组数 与与 初始目标类和对比类工作关系中被初始目标类和对比类工作关系中被qa覆盖的总元组数的比覆盖的总元组数的比n目标类中较高的目标类中较高的d-weight表明概化元组所代表的概念主要表明概化元组所代表的概念主要来自于目标类来自于目标类n较低的较低的d-weight值则表明该概念主要来自于对比类值则表明该概念主要来自于对比类对给定的对给定的status=“Graduate”
22、,Birth_coutry=“Canada”,Age_range=“25-30”,Gpa=“Good”概化元组。概化元组。其其d-weight=90/(90+210)=30%。n使用类比较描述的量化区分规则表示可以更好的描述上述使用类比较描述的量化区分规则表示可以更好的描述上述的情况,其形式为:的情况,其形式为:n如挖掘结果可以使用量化区分规则表达如下:如挖掘结果可以使用量化区分规则表达如下:n请注意该区分规则表达的是充分条件,即请注意该区分规则表达的是充分条件,即X满足条件,则满足条件,则X为研究生的概率为为研究生的概率为30%(特征化量化规则表达的是什么特征化量化规则表达的是什么条件?条件?)