《数据挖掘入门--精简.ppt》由会员分享,可在线阅读,更多相关《数据挖掘入门--精简.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/4/91数据挖掘入门数据挖掘入门 2023/4/921 1引言2 2KDD与数据挖掘3 3数据挖掘方法4 4数据挖掘的应用和发展趋势5 5数据预处理6 6可视化数据挖掘加工加工表达表达信息信息知识结构策划表达方式根据需求加工信息创作电子作品尝试开发技巧文本图表图像音视频确定主题创意搜集素材加工制作测试发布作品评价素材加工网页制作文本、图像、音频、视频版面设计集成制作特效处理初识人工智能HML文档特效程序文档规则链接实现窗体处理嵌入程序规则程序实现人工智能的来源和含意人工智能的初步应用融入融入信息社会信息社会知识结构拥有我的计算机畅想我们的未来项目设计计算机系统项目背景项目规化项目案例
2、项目实施交流与评价硬件系统软件系统基本组成外部设备信息改变生活数字创造未来多媒体技术网络技术数据库技术算法与程序设计系统软件应用软件主板、CPU、内存显卡、声卡网卡等打印机、扫描仪数码相机等人工智能2023/4/95知识发现(知识发现(KDD)的过程)的过程数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估2023/4/96数据挖掘系统结构数据挖掘系统结构数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库2023/4/97数据挖掘技术
3、分类数据挖掘技术分类数据挖掘数据挖掘数据挖掘数据挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘发现驱动挖掘SQLSQLSQLSQL生成器生成器生成器生成器查询工具查询工具查询工具查询工具OLAPOLAP描述描述描述描述预测预测预测预测可视化可视化可视化可视化聚类聚类聚类聚类关联规则关联规则关联规则关联规则顺序关联顺序关联顺序关联顺序关联汇总描述汇总描述汇总描述汇总描述分类分类分类分类统计回归统计回归统计回归统计回归时间序列时间序列时间序列时间序列决策树决策树决策树决策树神经网路神经网路神经网路神经网路2023/4/98五,数据预处理五,数据预处理n n
4、为什么需要数据预处理为什么需要数据预处理?n n数据清洗数据清洗 n n数据集成与转换数据集成与转换n n数据归约数据归约n n数据离散化与概念层次的构建数据离散化与概念层次的构建n n本章小结本章小结2023/4/99为什么需要数据预处理为什么需要数据预处理?n n在现实社会中,存在着大量的在现实社会中,存在着大量的“脏脏”数据数据n n不完整性不完整性(数据结构的设计人员、数据采集设备和数据录入人员)(数据结构的设计人员、数据采集设备和数据录入人员)n n缺少感兴趣的属性缺少感兴趣的属性n n感兴趣的属性缺少部分属性值感兴趣的属性缺少部分属性值n n仅仅包含聚合数据,没有详细数据仅仅包含聚
5、合数据,没有详细数据n n噪音数据(采集数据的设备、数据录入人员、数据传输)噪音数据(采集数据的设备、数据录入人员、数据传输)n n数据中包含错误的信息数据中包含错误的信息n n存在着部分偏离期望值的孤立点存在着部分偏离期望值的孤立点n n不一致性(数据结构的设计人员、数据录入人员)不一致性(数据结构的设计人员、数据录入人员)n n数据结构的不一致性数据结构的不一致性n nLabelLabel的不一致性的不一致性n n数据值的不一致性数据值的不一致性2023/4/910为什么需要数据预处理为什么需要数据预处理?n n数据挖掘的数据源可能是多个互相独立的数据源数据挖掘的数据源可能是多个互相独立的
6、数据源n n关系数据库关系数据库n n多维数据库(多维数据库(Data CubeData Cube)n n文件、文档数据库文件、文档数据库n n数据转换数据转换n n为了数据挖掘的方便为了数据挖掘的方便n n海量数据的处理海量数据的处理n n数据归约(在获得相同或者相似结果的前提下)数据归约(在获得相同或者相似结果的前提下)2023/4/911为什么需要数据预处理?为什么需要数据预处理?n n没有高质量的数据,就没有高质量的挖掘结果n n高质量的决策必须基于高质量的数据基础上高质量的决策必须基于高质量的数据基础上n n数据仓库是在高质量数据上的集成数据仓库是在高质量数据上的集成2023/4/9
7、12数据预处理的主要任务数据预处理的主要任务n n数据清理数据清理n n填入缺失数据填入缺失数据n n平滑噪音数据平滑噪音数据n n确认和去除孤立点确认和去除孤立点n n解决不一致性解决不一致性n n数据集成数据集成n n多个数据库、多个数据库、Data CubeData Cube和文件系统的集成和文件系统的集成n n数据转换数据转换n n规范化、聚集等规范化、聚集等n n数据归约数据归约n n在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减n n数据离散化数据离散化n n对于一个特定的连续属性,尤其是连续的数字属性,可以
8、把属性值划分对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数成若干区间,以区间值来代替实际数据值,以减少属性值的个数.2023/4/913数据预处理的形式数据预处理的形式数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约2023/4/914主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结2023/4/915n n使用属性的平均值填充空缺数值使用属性的平均值填充空缺数值n n简单方便、挖掘结果容易产生不精确的结果简单方便、
9、挖掘结果容易产生不精确的结果n n使用与给定元组同一个类别的所有样本的平均值使用与给定元组同一个类别的所有样本的平均值n n分类非常重要,尤其是分类指标的选择分类非常重要,尤其是分类指标的选择n n使用最有可能的值予以填充使用最有可能的值予以填充n n利用回归、基于推导的使用贝叶斯形式化的方法的工具或利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定者判定树归纳确定n n利用属性之间的关系进行推断,保持了属性之间的联系利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)缺失数据的处理方法(续)2023/4/916噪音数据噪音数据n n噪音数据噪音数据:一个度
10、量(指标)变量中的随机错误或者一个度量(指标)变量中的随机错误或者偏差偏差n n主要原因主要原因n n数据采集设备的错误数据采集设备的错误n n数据录入问题数据录入问题n n数据传输问题数据传输问题n n部分技术的限制部分技术的限制n n数据转换中的不一致数据转换中的不一致 n n数据清理中所需要处理的其它问题数据清理中所需要处理的其它问题n n重复的记录重复的记录n n不完整的数据不完整的数据n n不一致的数据不一致的数据2023/4/917噪音数据的处理噪音数据的处理n n分箱(Binning)的方法n n聚类方法n n检测并消除异常点检测并消除异常点n n线性回归n n对不符合回归的数据
11、进行平滑处理对不符合回归的数据进行平滑处理n n人机结合共同检测n n由计算机检测可疑的点,然后由用户确认由计算机检测可疑的点,然后由用户确认2023/4/918处理噪音数据:分箱方法处理噪音数据:分箱方法n n分箱(Binning)方法:n n基本思想:通过考察相邻数据的值,来平滑存储基本思想:通过考察相邻数据的值,来平滑存储数据的值数据的值n n基本步骤:基本步骤:n n首先,对数据进行排序,并分配到具有相同宽度首先,对数据进行排序,并分配到具有相同宽度/深深度的不同的度的不同的“箱子箱子”中中n n其次,通过箱子的平均值(其次,通过箱子的平均值(MeansMeans)、中值)、中值(Me
12、dianMedian)、或者边界值等来进行平滑处理)、或者边界值等来进行平滑处理2023/4/919分箱(分箱(BinningBinning)方法举例方法举例n n对数据进行排序对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34:4,8,9,15,21,21,24,25,26,28,29,34n n对数据进行分割对数据进行分割(相同深度相同深度):):n n-Bin 1:4,8,9,15-Bin 1:4,8,9,15n n-Bin 2:21,21,24,25-Bin 2:21,21,24,25n n-Bin 3:26,28,29,34-Bin 3:26,28,29
13、,34n n根据根据binbin中的平均值进行离散化中的平均值进行离散化:n n-Bin 1:9,9,9,9-Bin 1:9,9,9,9n n-Bin 2:23,23,23,23-Bin 2:23,23,23,23n n-Bin 3:29,29,29,29-Bin 3:29,29,29,292023/4/920基于聚类分析的平滑处理基于聚类分析的平滑处理2023/4/921通过线性回归的平滑处理通过线性回归的平滑处理xyy=x+1X1Y1Y12023/4/922主要内容主要内容n n为什么需要数据预处理n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章
14、小结2023/4/923数据集成数据集成n n数据集成的概念数据集成的概念n n将多个数据源中的数据结合起来存放在一个一致的数据存储中将多个数据源中的数据结合起来存放在一个一致的数据存储中n n数据源包括:多个数据库、多维数据库和一般的文件数据源包括:多个数据库、多维数据库和一般的文件n n数据集成也是数据仓库建设中的一个重要问题数据集成也是数据仓库建设中的一个重要问题n n数据集成的内容数据集成的内容n n模式集成模式集成n n利用数据库和数据仓库的元数据信息利用数据库和数据仓库的元数据信息n n主要工作是识别现实世界中的实体定义主要工作是识别现实世界中的实体定义n n冗余数据的处理冗余数据
15、的处理n n检测和解决数值冲突检测和解决数值冲突n n对于现实世界中的同一实体,来自于不同数据源的属性值可能不同对于现实世界中的同一实体,来自于不同数据源的属性值可能不同n n主要原因:不同的数据表示、度量单位、编码方式以及语义的不同主要原因:不同的数据表示、度量单位、编码方式以及语义的不同2023/4/924模式集成模式集成n n数据类型冲突数据类型冲突n n性别:性别:string(Malestring(Male、Female)Female)、CharChar(MM、F F)、)、IntergerInterger(0 0、1 1)n n日期:日期:DateDate、DateTimeDate
16、Time、StringStringn n数据标签冲突:解决同名异义、异名同义数据标签冲突:解决同名异义、异名同义n n学生成绩、分数学生成绩、分数n n度量单位冲突度量单位冲突n n学生成绩学生成绩n n百分制:百分制:100 0100 0n n五分制:五分制:A A、B B、C C、DD、E En n字符表示:优、良、及格、不及格字符表示:优、良、及格、不及格n n概念不清概念不清n n最近交易额:前一个小时、昨天、本周、本月?最近交易额:前一个小时、昨天、本周、本月?n n聚集冲突:根源在于表结构的设计聚集冲突:根源在于表结构的设计 2023/4/925冗余数据的处理冗余数据的处理n n从
17、多个数据源中抽取不同的数据,容易导致数据的冗余从多个数据源中抽取不同的数据,容易导致数据的冗余n n不同的属性在不同的数据源中是不同的命名方式不同的属性在不同的数据源中是不同的命名方式n n有些属性可以从其它属性中导出,有些属性可以从其它属性中导出,例如:销售额单价例如:销售额单价 销售量销售量n n有些冗余可以通过相关分析检测到有些冗余可以通过相关分析检测到 其中:其中:n n是元组的个数,是元组的个数,和和 分别是分别是A A和和B B的平均值,的平均值,和和 分别是分别是A A和和B B的标准差的标准差 n n元组级的元组级的“重复重复”,也是数据冗余的一个重要方面,也是数据冗余的一个重
18、要方面n n减少冗余数据,可以大大提高数据挖掘的性能减少冗余数据,可以大大提高数据挖掘的性能2023/4/926数据转换数据转换n n平滑处理平滑处理:从数据中消除噪音数据从数据中消除噪音数据n n聚集操作聚集操作:对数据进行综合,类似于对数据进行综合,类似于Data CubeData Cube的构建的构建n n数据概化:构建概念层次数据概化:构建概念层次n n数据规范化数据规范化:将数据集中到一个较小的范围之中将数据集中到一个较小的范围之中n n最大最大-最小规范化最小规范化n nz-scorez-score(零均值)规范化(零均值)规范化n n小数范围规范化(小数范围规范化(0101规范化
19、)规范化)n n属性构造属性构造n n构造新的属性并添加到属性集中,以帮助数据挖掘构造新的属性并添加到属性集中,以帮助数据挖掘2023/4/927数据转换:规范化数据转换:规范化n n最大最大-最小规范化最小规范化n n对原始数据进行线性变换对原始数据进行线性变换n n保持了原始数据值之间的关系保持了原始数据值之间的关系n n当有新的输入,落在原数据区之外,该方法将面当有新的输入,落在原数据区之外,该方法将面临临“越界越界”错误错误n n受到孤立点的影响可能会比较大受到孤立点的影响可能会比较大2023/4/928数据转换:规范化(续)数据转换:规范化(续)n nz-scorez-score(零
20、均值)规范化(零均值)规范化n n属性基于平均值和标准差规范化属性基于平均值和标准差规范化n n当属性的最大值和最小值未知,或者孤立点左右了最当属性的最大值和最小值未知,或者孤立点左右了最大最小规范化时,该方法有效大最小规范化时,该方法有效n n0-10-1规范化(小数定标规范化)规范化(小数定标规范化)n n通过移动属性的小数点位置进行规范化通过移动属性的小数点位置进行规范化n n例如例如A A的值为的值为125125,那么,那么|A|=125|A|=125,则,则j=3j=3,有,有v=0.125v=0.125。Where j is the smallest integer such th
21、at Max(|)Reduced attribute set:A1,A4,A6YYYNNN2023/4/936数据压缩数据压缩n n数据压缩:应用数据编码或变换,以便得到数据的归约或数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示压缩表示n n无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息n n字符串压缩是典型的无损压缩字符串压缩是典型的无损压缩n n现在已经有许多很好的方法但是它们只允许有限的数据操作现在已经有许多很好的方法但是它们只允许有限的数据操作n n有损压缩:只能重新构造原数据的近似表示有损压缩:只能重新构造原数
22、据的近似表示 n n影像文件的压缩是典型的有损压缩影像文件的压缩是典型的有损压缩n n典型的方法:小波变换、主要成分分析典型的方法:小波变换、主要成分分析2023/4/937数值归约数值归约n n数值归约:通过选择替代的、数值归约:通过选择替代的、“较小较小”的数据表的数据表示形式来减少数据量示形式来减少数据量n n有参的方法有参的方法n n假设数据符合某些模型,通过评估模型参数,仅需要存假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放)储参数,不需要存储实际数据(孤立点也可能被存放)n n典型方法:对数线性模型,它估计离散的多维概率分布典型方法:
23、对数线性模型,它估计离散的多维概率分布n n无参的方法无参的方法n n不存在假想的模型不存在假想的模型n n典型方法典型方法:直方图、聚类和抽样直方图、聚类和抽样2023/4/938直方图直方图n n类似于分箱技术,是一种流行的数据归约方式类似于分箱技术,是一种流行的数据归约方式n n将属性值划分为不相交的子集,或将属性值划分为不相交的子集,或“桶桶”n n桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。值的平均频率。n n每个桶只表示单个属性值,则称其为每个桶只表示单个属性值,则称其为“单桶单桶”。通常,。通常,“桶桶”表
24、示给定属性的一个连续空间表示给定属性的一个连续空间n n可以通过编程,动态修改部分参数,进行合理构造。可以通过编程,动态修改部分参数,进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2023/4/939主要内容主要内容n n为什么需要数据预处理?n n数据清洗 n n数据集成与转换n n数据归约n n数据离散化与概念层次的构建n n本章小结2023/4/940数据离散化和概念层次数据离散化和概念层次n n属性值分类属性值分类n n枚举型枚举型n n有序的有序的n n无序的无序的n n连续
25、型:如连续型:如 RealReal类型类型n n数据离散化数据离散化n n对于一个特定的连续属性,可以把属性值划分成若干对于一个特定的连续属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的区间,以区间值来代替实际数据值,以减少属性值的个数。个数。n n概念层次概念层次n n利用高层的概念(如儿童、青年、中年、老年等)来利用高层的概念(如儿童、青年、中年、老年等)来代替低层的实际数据值(实际年龄),以减少属性值代替低层的实际数据值(实际年龄),以减少属性值的个数。的个数。2023/4/941数值数据的离散化和概念分层建立的方法数值数据的离散化和概念分层建立的方法n n分箱
26、(Binning)n n直方图分析n n聚类分析的方法n n根据自然分类进行分割2023/4/942分箱方法:一种简单的离散化技术分箱方法:一种简单的离散化技术n n相同宽度相同宽度 (距离)数据分割(距离)数据分割n n将数据分成将数据分成NN等份,各个等份数据之间具有相同的距离等份,各个等份数据之间具有相同的距离n n如果如果 A A 和和 B B 分别为属性值中的最大值和最小值,那么各个分别为属性值中的最大值和最小值,那么各个数据等份之间的距离为:数据等份之间的距离为:W=(B-A)/N.W=(B-A)/N.n n异常点将会扮演很重要的角色异常点将会扮演很重要的角色n n倾斜的数据不能很
27、好的解决倾斜的数据不能很好的解决n n相同深度相同深度 (频率)数据分割(频率)数据分割n n将数据分成将数据分成NN等份,各个等份具有相同的数据个数。等份,各个等份具有相同的数据个数。n n具有较好的可伸缩性具有较好的可伸缩性n n适合于数据分类的情况适合于数据分类的情况2023/4/943离散化:直方图方法离散化:直方图方法n n将数据分割到若干个桶之中,用桶中的平均值(或将数据分割到若干个桶之中,用桶中的平均值(或求和等)来表示各个桶。求和等)来表示各个桶。n n可以通过编程,动态修改部分参数,进行合理构造。可以通过编程,动态修改部分参数,进行合理构造。count510152025301
28、23456789101-1011-2021-30510152025132515PricePricecount2023/4/944离散化:聚类分析方法离散化:聚类分析方法n n将数据按照“类内最大相似度,类间最小相似度的原则”对数据进行有效聚类n n利用聚类的中心点来表示该类所包含的对象n n数据聚类将非常有效,但是必须保证数据中没有噪音数据2023/4/945按照自然分类进行数据分割按照自然分类进行数据分割n n利用利用3-4-5 3-4-5 法则对数字型数据分类,将数据分成法则对数字型数据分类,将数据分成若干个若干个“自然自然”的区间:的区间:n n如果在所有数字的最高位覆盖如果在所有数字的
29、最高位覆盖 3,6,73,6,7或或9 9个不同的值,个不同的值,则将数据分成则将数据分成3 3段。段。3 3(1 1,1 1,1 1)6 6(2 2,2 2,2 2)7 7(2 2,3 3,2 2)9 9(3 3,3 3,3 3)n n如果在所有数字的最高位覆盖如果在所有数字的最高位覆盖 2,4,82,4,8个不同的值,则个不同的值,则将数据分成将数据分成4 4 段。段。n n如果在所有数字的最高位覆盖如果在所有数字的最高位覆盖 1,5,101,5,10个不同的值,则个不同的值,则将数据分成将数据分成 5 5 段。段。2023/4/9463-4-5 法则举例法则举例n例例1:包含数据:包含数
30、据:101、110、203、222、305、315n方法:最高位包含方法:最高位包含3个值(个值(1、2、3)n分成分成100,200),),200,300),),300,400)三段)三段n例例2:包含数据:包含数据:101、110、103、422、405、415,400n方法:最高位包含方法:最高位包含2个值(个值(1、4)n分成分成100,150),),150,200),400,450),450,500)四段)四段n例例3:包含数据:包含数据:101、210、203、322、305、415,500n方法:最高位包含方法:最高位包含5个值(个值(1、2、3、4、5)n分成分成100,200
31、),),200,300),300,400),400,500),),500,600)五段五段2023/4/947分类数据的概念分层分类数据的概念分层n n概念分层是由用户或专家对具有偏序关系的属性的一种概念分层是由用户或专家对具有偏序关系的属性的一种层次关系的显式表示。也是一种数据分类的显式表示。层次关系的显式表示。也是一种数据分类的显式表示。n n概念层次的获得概念层次的获得n n隐式存储于数据库中。如:地址。隐式存储于数据库中。如:地址。n n由专家显式给出。由专家显式给出。n n借助数据分析自动生成。借助数据分析自动生成。n n概念层次的表示概念层次的表示n n基于实例。如:基于实例。如:
32、freshman,.,seniorfreshman,.,senior undergraduate.undergraduate.;n n基于数据库表模式。如:基于数据库表模式。如:address(city,province,country)address(city,province,country)。n n基于规则。如:基于规则。如:good(x)good(x)undergraduate(x)undergraduate(x)gpa(x)gpa(x)3.5 3.5。2023/4/948概念层次树举例概念层次树举例概念层次树将大大减少挖掘数据的数据量。countryprovince_or_ stat
33、ecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values2023/4/949主要内容主要内容l为什么需要数据预处理为什么需要数据预处理?l数据清洗数据清洗 l数据集成与转换数据集成与转换l数据归约数据归约l数据离散化与概念层次的构建数据离散化与概念层次的构建l本章小结本章小结2023/4/950本章小结本章小结n n数据的预处理无论对于数据仓库和数据挖掘都是数据的预处理无论对于数据仓库和数据挖掘都是非常重要的一个环节非常重要的一个环节n n数据预处理包括数据预处理包括n
34、n数据清理数据清理n n数据集成数据集成n n数据归约和特征选取数据归约和特征选取n n数据的离散化数据的离散化n n数据预处理涉及面广,现已建立了一系列的方法,数据预处理涉及面广,现已建立了一系列的方法,但是目前仍然是一个非常活跃的研究领域但是目前仍然是一个非常活跃的研究领域2023/4/951六,可视化数据挖掘六,可视化数据挖掘n n可视化可视化:使用计算机图形学创建可视化图像,帮助用使用计算机图形学创建可视化图像,帮助用户理解复杂,大规模数据户理解复杂,大规模数据n n可视化数据挖掘可视化数据挖掘:使用可视化技术,从大规模数据集使用可视化技术,从大规模数据集中发现隐含,有用知识的过程中发
35、现隐含,有用知识的过程信息可视化数据挖掘可视化 数据挖掘2023/4/952信息可视化信息可视化n n信息可视化:结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法,而逐步发展起来的。n n信息可视化参考模型信息可视化参考模型2023/4/953可视化数据挖掘可视化数据挖掘n n可视化的目的n n提供对大规模数据集定性的理解提供对大规模数据集定性的理解n n查看数据中的模式,趋势,结构,不规则性,查看数据中的模式,趋势,结构,不规则性,关系等关系等n n帮助寻找感兴趣的区域,为进一步定量分析提帮助寻找感兴趣的区域,为进一步定量分析提供合适的参数供合适的参数n
36、 n为计算机得出的结果提供可视化的证明为计算机得出的结果提供可视化的证明2023/4/954可视化数据挖掘可视化数据挖掘n n可视化与数据挖掘的结合n n数据可视化数据可视化n n数据挖掘结果可视化数据挖掘结果可视化n n数据挖掘过程可视化数据挖掘过程可视化n n交互式可视化数据挖掘交互式可视化数据挖掘2023/4/955数据可视化数据可视化n n数据可视化n n以下面两种方式观察数据库或数据仓库的数据:以下面两种方式观察数据库或数据仓库的数据:n n在不同的粒度或抽象层面观察在不同的粒度或抽象层面观察n n属性或维度的不同结合属性或维度的不同结合n n数据可以被表示成不同的格式,柱状图、饼状
37、数据可以被表示成不同的格式,柱状图、饼状图、散点图、三维立方体、曲线、数据分布图图、散点图、三维立方体、曲线、数据分布图表等表等 2023/4/956MineSet 数据可视化数据可视化n n数据的直方图,均值,中值,标准差,四分位数2023/4/957数据挖掘结果可视化数据挖掘结果可视化n n以视图的形式给出由数据挖掘算法得出的结果或知识n n例如n n决策树决策树n n贝叶斯网络贝叶斯网络n n关联规则关联规则n n聚类聚类n n孤立点孤立点2023/4/958SAS Enterprise Miner:scatter plots 2023/4/959Visualization of ass
38、ociation rules in MineSet 3.02023/4/960Visualization of a decision tree in MineSet 3.02023/4/961Visualization of cluster groupings in SAS2023/4/962数据挖掘过程可视化数据挖掘过程可视化n n将数据挖掘各种处理过程用可视化的方式呈现给将数据挖掘各种处理过程用可视化的方式呈现给用户,可以看到:用户,可以看到:n n数据是如何被提取的数据是如何被提取的n n是从哪个数据库或数据仓库提取的数据是从哪个数据库或数据仓库提取的数据n n被选择数据如何被清理,整合
39、,处理和挖掘的被选择数据如何被清理,整合,处理和挖掘的n n在数据挖掘中采用什么方法在数据挖掘中采用什么方法n n数据被存储在哪里数据被存储在哪里2023/4/963Visualization of Data Mining Processes by Clementinen n可视化流程使得数据观察和交互的变得简单方便 2023/4/964交互式可视化数据挖掘交互式可视化数据挖掘n n使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定n n更好的理解数据和样本更好的理解数据和样本n n用户可以根据理解作出决定用户可以根据理解作出决定n n用户可以根据领域知识作出决定用户可以根据领域知识作出决定n n可视化结果使用户能够指导下次算法执行可视化结果使用户能够指导下次算法执行2023/4/965 谢谢!谢谢!