《数据挖掘原理与SPSS Clementine应用宝典第22章 数据挖掘结果的输出.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSS Clementine应用宝典第22章 数据挖掘结果的输出.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典第第22章章 数据挖掘结果数据挖掘结果的输出的输出第第2222章章 数据挖掘结果的输出数据挖掘结果的输出2 2本章包括结果输出的概述表节点的输出通过矩阵方式建立关系表评估预测值的输出数据审核报告统计量输出均值的输出数据的质量报告格式化的报告输出全局量的输出SPSS导出结果 22.1 结果输出的概述结果输出的概述图图22-1输出节点选项板输出节点选项板输出节点选项板包含16种输出节点:表格、矩阵、分析、数据审核、统计量、均值、质量、报告、设置全局量、Publisher、数据库、平面文件、SPSS导出、SAS导出、Excel
2、、SPSS程序。Clementine 系统窗口的右边包含着管理工具,它可以帮助用户浏览目前的输出对象,如图22-2所示。图图22-2 管理工具的输出管理工具的输出从图22-2可以看出,用户可以:打开目前的输出对象,如直方图、评估图和表。保存输出对象。添加输出文件到目前的项目中。从目前的会话中删除未保存的输出对象。为输出对象更改名称。22.2 表节点的输出表节点的输出图图22-3 表节点的设置表节点的设置22.2.1 表节点格式设置表节点格式设置图图22-4 表格节点对话框格式页签表格节点对话框格式页签参数说明:字段:显示了被选字段的名称。格式:设置字段格式。调整:指定怎样在表格列中调整字段值。
3、默认设置是“自动”,符号型值左对齐,数值型右对齐。用户可以不考虑默认设置通过选择左、右或中间对齐。宽度:默认列的宽度是根据字段的值被自动计算出来。不考虑“自动”宽度计算,则取消“自动”宽度,并且在下一个列中输入“手控”的宽度。查看当前字段:默认对话框将显示一系列目前使用的字段。为了显示一系列没被使用的字段,则选择“查看未使用的字段设置”单选按钮。内容菜单:这个页签的内容菜单提供了各种各样的选项和更新选项设置,且还有下一级子菜单。22.2.2 通过表浏览器来操作通过表浏览器来操作图图22-5 表浏览器窗口表浏览器窗口相关参数设置如下:选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩
4、形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。为了选择一个完整的列,点击那一列的标题。在列的标题上按住shift+Click或按住Ctrl+Click选择多个列。重排列:用户可以移动表中的列,通过点击用户想要移动的列的标题,拖拉它到目的位置。当用户拖拉这一列时,表更新显示新列的次序。搜索表格:在主工具栏搜索按钮激活搜索工具栏,允许用户搜索指定值。用户可以在表中向前或向后搜索,用户可以指定一个区分大小写搜索(Aa按钮),并且用户可以通过使用中断搜索按钮中断一个搜索过程。如图22-6所示。图图22-6 搜索控制被启动的表搜索控制被启动的表生成:这个生成菜单包含节点生成操
5、作。如图22-5所示。(1)选择节点(“记录”):生成一个选择节点,它选择表中被选择的单元格的记录。(2)选择节点(“与”):生成一个选择节点,它选择包含表中被选择的所有值的记录。(3)选择节点(“或”):生成一个选择节点,它选择包含表中被选择的任一值的记录。(4)导出节点(“记录”):生成一个导出节点来建立一个新的标记字段。(5)导出节点(“与”):生成一个导出节点来建立一个新的标记字段。(6)导出节点(“或”):生成一个来源节点来建立一个新的标记字段。22.3 通过矩阵方式建立关系表通过矩阵方式建立关系表图图22-7 矩阵输出的设置矩阵输出的设置相关参数的设置如下:使用:使用的字段,从下列
6、选项中选择一个字段的选择类型:(1)选择:这个选项允许用户为矩阵的行和列选择一个符号型字段。矩阵的行和列通过一系列被选择的符号型字段的值来定义。这个矩阵的单元格包含了下面被选择的汇总统计量。(2)所有标志字段(真值):这个选项要求对数据中每个标志字段生成一个仅有一行和一列的一个矩阵。矩阵中的单元格对于每个标志生成变量组合都为真的计数。(3)所有数值字段:这个选项要求这样的一个矩阵,这个矩阵对于每个数值型字段都是只有一行一列的。这个矩阵中的单元格代表了对于相应的一对字段的交叉积的总和。单元格内容:如果用户已经选择了“选择”字段,用户可以指定被用在矩阵单元格的统计量,选择一个基于计数的统计量,或者
7、选择一个负载字段来概括一个数值型字段,这个概括是基于行和列字段的值的。(1)交叉列表:单元格的值是计数和/或百分数,这个百分数是代表有多少记录是有相应结合的值的。(2)函数:如果用户选择了一个汇总函数,单元值是一个被选择的负载字段值的函数,这个负载字段值是对于有适当的行和列的值的个案的。22.4 评估预测值的输出评估预测值的输出图图22-8 分析节点的分析设置分析节点的分析设置 相关的参数说明:一致性矩阵(用于字符型目标字段):显示对于符号型目标变量的每个被生成的(被预测的)字段和它的目标字段之间匹配的模式。用一个表格来显示,它的行被定义为实际值,列被定义为预测值,每一个单元格里是模式的记录数
8、。绩效评价:对符号型输出的模型显示表现评估统计量。这些统计量报告输出字段的每一类别,是一种平均信息量的度量,这些平均信息量是对于属于那种类别的预测记录的模型中的。置信度图表(如果可用):对于生成一个置信度字段的模型,这个选项报告在置信值上的统计量和它们的关系来预测。对于这个选项有两个设置:(1)阈值用于:报告在指定为百分数的精确度以上的置信度水准。(2)改善精确性:报告这样的置信度水准,在此水准之上的精度是由指定的因子提高的。按分区分割:如果定义了分割数据集,则分别显示各个数据集的分析结果。按用户定义的分析:用户可以指定自己的分析计算用来评估模型。使用CLEM表达式来指定对每个记录应该计算什么
9、和怎样把记录水平得分合并到一个全面的得分。使用函数TARGET和PREDICTED 分别表示目标值(实际输出)和预测值。如图22-9所示为定义用于分析的用户测量标准对话框。参数说明:(1)If:如果用户需要使用依据某些条件而得到不同的计算结果,指定一个条件表达语句。(2)Then:如果If条件是真,指定一个计算。(3)Else:如果If条件是假,指定一个结果。(4)计算得分为:选择一个统计量从个别的得分中计算出一个全面的得分。按字段分解分析:显示可用于中止分析的符号型字段。除了全面分析之外,对每个分解字段的每个类别的一个单独的分析将被报告。图图22-9定义用于分析的用户测量标准对话框定义用于分
10、析的用户测量标准对话框图图22-10分析输出浏览器分析输出浏览器相关的参数说明:输出字段结果:这个分析输出对每个输出字段而言包含一个项,这个输出字段相应于由一生成模型建立的预测字段。比较:在输出字段里,对于每个和那个输出字段有关联的预测字段来说,“项”是一个子部分。对于符号型输出字段,这个“项”的最高层包含一个表,这个表显示了正确和不正确的数目和百分数以及在流中记录的总数。对于符号型输出字段,这个“项”显示了下列信息,如表22-1所示。一致性矩阵:对于符号型输出字段,如果用户需要在分析选项中的一个一致性矩阵,则一个包含此矩阵的子部分就会出现在这里。它的行代表了实际观察值,而列代表了预测值。在表
11、中的单元格则代表了每一个结合了预测值和实际值的记录的数。表现评估:对于符号型输出字段,如果用户要求在分析选项中的表现评估的统计量,则这个表现评估的结果将显示在这里。每一个输出类别及它的表现评估统计量都被列在这里。置信度报告:对于符号型输出字段,如果用户要求在分析选项中的置信度,则即为此值。以下的统计量是为模型的置信度而报告的信息,如表22-2所示。两者协议:如果两个或者更多的预测相同输出字段的生成模型被包括在一个流中,用户会看到由模型生成的预测值之间的一致性统计量。这里包括对于预测值一致(对于符号型输出字段)或者错误的汇总统计量(对于数值型输出字段)的记录的数目和百分数。对于符号型的字段,它包
12、括一个将预测值同实际值对比的分析,是对模型一致(生成相同预测值)的记录的子集的分析。22.5 数据审核报告数据审核报告图图22-11 数据审核节点对话框设置数据审核节点对话框设置相关参数的设置如下:默认:使用系统默认的字段。使用定制字段:为了能初步认识数据,用户可根据自己感兴趣的数据进行分析,点击“字段选取器”图标按钮选择需要的字段。字段:要进行数据审核的字段列表。交叠:此选项在审核报告中经常用于极小图像之中,在数值型数据中,方差和协方差可以算出。显示:数据审核提供了3显示方式:图形、基本统计量、中位数和众数图图22-12 数数据据审审核核输输出出浏浏览览器器相关参数说明如下:审查结果:审查报
13、告列出了所有的字段,并以图像、统计量等形式展现出来,使用户对数据有一个大概的了解。选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自动、升序、降序。生成菜单:生成菜单包含生成节点的操作:(1)过滤节点(2)重新分类阶段 (3)分级节点 (4)导出节点 (5)图形输出 (6)图形节点输出浏览器显示数据分析的结果和允许用户进行操作,包括悬着字段、基于选择、生成新的节点、存储和打印结果等。保存、输出和打印的选项都可以从“文件”菜单中获得,并且通常
14、的编辑选项也可从“编辑”菜单中获得。审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展现出来,使用户对数据有一个大概的了解。选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。当用户想要一个新的选择,则旧的选择被取消。在选择时,按住Ctrl键,用户可以增添新的选择到任何目前存在的选择上,而不用取消旧的选择。用户可以使用这个方法来选择多个,不邻近的表中区域。这些选择选项也可在编辑菜单中获得。排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自动、升序、降序。列表排序随着点击列标题而变化
15、。生成菜单:生成菜单包含生成节点的操作:(1)过滤节点:生成一个过滤节点,它是基于审核分析的结果来过滤字段的。(2)重新分类阶段:生成一个分类节点,它是基于审核分析的结果来分类的。(3)分级节点:生成一个分级节点,它是基于审核分析的结果来生成的。(4)导出节点:导出一个节点。(5)图形输出:输出相应的图形。(6)图形节点:生成一个图形节点,它是基于审核分析的结果来生成的。22.6 统计量输出统计量输出图图22-13 统计量输出的设置参数统计量输出的设置参数相关参数的设置如下:检查:选择字段或者选择用户想要个别汇总统计的字段。用户可以选择多个字段。统计量:选择统计量来报告。可获得的选项包括“计数
16、”、“平均值”、“合计”、“最小值”、“最大值”、“全距”、“方差”、“标准差”、“均值标准误差”、“中位数”等。相关:选择字段或者用户想要关联的字段。用户可以选择多个字段。当相关的字段被选择时。每个检查字段和相关字段的相关性将被列在输出中。相关设置:用户可以定制描述性的设置附在输出中的相关值上。图图22-14 统计量节点相关设置参数统计量节点相关设置参数22.6.1 统计量输出浏览器统计量输出浏览器图图22-15统计量输出浏览器窗口统计量输出浏览器窗口每个被检查字段输出包含一个部分,此部分包含一张所要求的统计量的表。计数:字段的有效记录数。平均值:所有记录的字段的平均值。合计:所有记录的字段
17、值的和。最小值:字段的最小值。最大值:字段的最大值。全距:最小和最大值之间的差。方差:对字段值变化的一种度量。它是通过得到每个值同整个平均数的差,再将其平方,然后将得到所有值加起来,再除以记录个数得到。标准差:字段值变化的另一种度量,是变异数的平方根。均值标准误:如果设想把均值用在新数据中,则对字段均值估计里的不确定性的一种度量方法。中位数:字段中“中间”的数值。那就是说,这个值将字段中上半部分数据和下半部分数据分开。(这是基于字段中的数值而言)。众数:数据中最常出现的单个数据值。22.6.2 从统计量中生成过滤节点从统计量中生成过滤节点 模式:决定怎样选择相关性。“包括”使出现在被指定的相关
18、性的字段被保留。“排除”使字段被过滤。包括/排除在以下位置出现的字段:对被选中的相关性定义准则。(1)相关性的最大编号:选择相关性的指定数并包括/排除显示在此相关性中的字段。(2)相关性的最高百分比:选择相关性的指定的百分数(n)并包括/排除出现在这些相关性中的字段。(3)相关性大于:选择绝对值大于指定阈值的相关系数。图图22-16由统计量生成过滤对话框由统计量生成过滤对话框22.7 均值的输出均值的输出图图22-17 均值节点对话框设置页签均值节点对话框设置页签(字段中的组之间)(字段中的组之间)图图22-18均值节点对话框设置页签均值节点对话框设置页签(字段对之间)(字段对之间)比较均值:
19、根据数据的不同,用户可以选择两种不同的方法进行均值的比较。(1)字段中的组之间(2)字段对之间相关设置:选择显示相关程度标签,则在结果中会显示两者之间的相关程度。在均值节点中提供两者表示相关程度的方法,一是利用重要性程度来表示,选择此项时,需要设置强(strong)、中等(medium)、弱(weak)三种相关程度指标的临界值。如图22-19所示。图图22-19 相关设置对话框相关设置对话框 图图22-20均值节点输出浏览器窗口均值节点输出浏览器窗口 22.8 数据的质量报告数据的质量报告图图22-21 质量输出参数设置质量输出参数设置 相关参数设置如下:选择字段:如果分析所有数据的质量,选择
20、“评估所有字段”单选按钮,若只分析某些确定的字段,选择“评估选定字段”单选按钮和选择所感兴趣字段。看作无效值:选择用户想要考虑的作为无效值的数据特征。包括:(1)数值型空值(未定义):考虑系统(空)值作为无效值。(2)定义缺失值:考虑由一个上游类型节点定义的缺失值为无效值。(3)空白:考虑只包含空格(空格、制表符或新行)的值为无效值。(4)字符型空值:将空字符串作为无效值。计算:对质量报告选择计算选项。图图22-22 质量节点输出浏览器窗口质量节点输出浏览器窗口相关的参数说明:质量结果:数据质量报告列出完全按降序排列的字段。最高数据质量的字段(在选项中被定义的无效值的最低的部分)被列在顶端,那
21、些最低质量数据的字段(无效值最高的部分)被列在底部。选择字段:用户可以通过直接点击列表中的字段来选择字段。多个字段的选择可以通过在点击时按住Shift 键(增加邻近的字段)或Ctrl键(增加非邻近的字段)。生成菜单:生成菜单包含生成节点的操作。22.8.1 从质量中生成过滤节点 模式:对指定的字段选择所要的操作,或者“包括”或者“排除”。选定字段:过滤节点将包括或排除在质量输出表中的选定字段。如果在表中没有字段被选定,则将没有字段被用于这个操作。质量百分比高于%的字段:过滤节点将包括或排除全部记录的百分比大于指定的阈值的字段,这里默认的阈值为 50%。图图22-23由质量生成过滤对话框由质量生
22、成过滤对话框22.8.2 从质量中生成选择节点 记录选择条件:指定是否记录应该被保留当它们是“有效”的或是“无效”的时候。在以下位置查找无效值:指定在哪些条件下检查无效值。(1)所有字段(2)表中选定的字段(3)质量百分比高于%的字段若在以下位置发现无效值,则认为记录无效:指定条件以确定一条记录是无效的。(1)以上任意字段(2)以上所有字段图图22-24选择节点对话框选择节点对话框22.9 格式化的报告输出 图图22-25报告节点对话框模板报告节点对话框模板建立一个模板:为了定义报告的内容,用户在报告节点模板上建立一个模板。对于模板内的一行有三种可能的范围:(1)固定的:没有另外做记号的行被考
23、虑为固定的。在包含的表达式被评估之后,固定的行一次就被复制到报告中。例如,下面的行 This is my report,printed on TODAY 将复制一个单独的行到报告中,包含这个文本和目前的日期。(2)全局符:在特殊的标记符#ALL和#之间被包含的行被复制到报告中,一次只输入数据的一条记录。对于每一输出行,基于目前的记录进行评估CLEM 表达式(括在括号中的)。例如:#ALL For record INDEX,the value of AGE is AGE#对每一条记录将包括一行代表该记录的索引数和年龄项。(3)有条件的:特殊标记符#WHERE和#之间被包含的行被复制到报告中,一次
24、只复制对指定条件是真的一条记录。这个条件是一个CLEM表达式。(在WHERE条件中,括号是可选择的)例如:#WHERE SEX=M Male at record no.INDEX has age AGE.#对每条sex值为“M”的记录一行复制到文件中去。完整的报告应通过把模板应用到输入数据中而包含所定义的固定的、全局符的、有条件的行。图图22-26 报告节点输出浏览器窗口报告节点输出浏览器窗口22.10 全局量的输出全局量的输出 图图22-27全局量节点对话框设置全局量节点对话框设置相关的参数说明:要建立的全局量:选择字段或者用户想要的可利用全局值的那些字段。用户可以选择多个字段。对于每个字段
25、,通过确定用户想要的统计量是在紧接着字段名的列中被选定的来指定统计量进行估算。默认操作:当新的字段被加到以上列出的全局值时,此选项才会起作用。为了改变默认的统计设置,要适当的选择或者取消选择统计量。用户也可以使用“应用”按钮来对列表中所有的字段应用默认操作。(1)MEAN:对于所有记录字段的平均值。(2)SUM:对所有记录字段值的和。(3)MIN:对于字段的最小值。(4)MAX:对于字段的最大值。(5)SDEV:对一个字段值的可变性的一种度量,由变异数开方后得到。22.11 SPSS导出结果导出结果图图22-28 SPSS导出节点对话框导出页签导出节点对话框导出页签22.12小结本章重点介绍了各种输出节点及其基本操作,我们对常见的输出形式进行讲解,因为输出的设置相对比较简单,所以我们没有对每个输出方式进行讲解,选择了重要而且常见的输出方式,进行了讲解。