数据挖掘结果的输出学习教案.pptx

上传人:一*** 文档编号:71936326 上传时间:2023-02-07 格式:PPTX 页数:56 大小:1.23MB
返回 下载 相关 举报
数据挖掘结果的输出学习教案.pptx_第1页
第1页 / 共56页
数据挖掘结果的输出学习教案.pptx_第2页
第2页 / 共56页
点击查看更多>>
资源描述

《数据挖掘结果的输出学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘结果的输出学习教案.pptx(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据挖掘结果数据挖掘结果(ji gu)的输出的输出第一页,共56页。本章(bn zhn)包括结果输出的概述结果输出的概述表节点的输出表节点的输出通过矩阵方式建立关系表通过矩阵方式建立关系表评估预测值的输出评估预测值的输出数据审核报告数据审核报告统计量输出统计量输出均值均值(jn zh)(jn zh)的输出的输出数据的质量报告数据的质量报告格式化的报告输出格式化的报告输出全局量的输出全局量的输出SPSSSPSS导出结果导出结果 第1页/共56页第二页,共56页。22.1 结果(ji gu)输出的概述图图22-1输出输出(shch)节点选项板节点选项板输出节点选项板包含输出节点选项板包含1616种

2、输出节点:表格、矩阵、分种输出节点:表格、矩阵、分析、数据审核、统计量、均值、质量、报告、设置析、数据审核、统计量、均值、质量、报告、设置(shzh)(shzh)全局量、全局量、Publisher Publisher、数据库、平面文件、数据库、平面文件、SPSSSPSS导出、导出、SASSAS导出、导出、ExcelExcel、SPSSSPSS程序。程序。第2页/共56页第三页,共56页。Clementine Clementine 系统窗口的右边包含着管理工具,它可以帮助用户浏览系统窗口的右边包含着管理工具,它可以帮助用户浏览(li ln)(li ln)目前的输出对象,如图目前的输出对象,如图2

3、2-222-2所示。所示。图图22-2 管理工具的输出管理工具的输出(shch)第3页/共56页第四页,共56页。从图从图22-222-2可以看出,用户可以看出,用户(yngh)(yngh)可以:可以:打开目前的输出对象,如直方图、评估图和表。打开目前的输出对象,如直方图、评估图和表。保存输出对象。保存输出对象。添加输出文件到目前的项目中。添加输出文件到目前的项目中。从目前的会话中删除未保存的输出对象。从目前的会话中删除未保存的输出对象。为输出对象更改名称。为输出对象更改名称。第4页/共56页第五页,共56页。22.2 表节点(ji din)的输出图图22-3 表节点表节点(ji din)的设

4、置的设置第5页/共56页第六页,共56页。22.2.1 表节点格式(g shi)设置图图22-4 表格节点表格节点(ji din)对话框格式页签对话框格式页签第6页/共56页第七页,共56页。参数说明:参数说明:字段:显示了被选字段的名称。字段:显示了被选字段的名称。格式:设置字段格式。格式:设置字段格式。调整:指定怎样在表格列中调整字段值。默认设置是调整:指定怎样在表格列中调整字段值。默认设置是“自动自动”,符号型值左,符号型值左对齐,数值型右对齐。用户可以不考虑默认设置通过选择左、右或中间对齐,数值型右对齐。用户可以不考虑默认设置通过选择左、右或中间对齐。对齐。宽度:默认列的宽度是根据字段

5、的值被自动计算出来。不考虑宽度:默认列的宽度是根据字段的值被自动计算出来。不考虑“自动自动”宽度宽度计算,则取消计算,则取消“自动自动”宽度,并且宽度,并且(bngqi)(bngqi)在下一个列中输入在下一个列中输入“手控手控”的宽度。的宽度。查看当前字段:默认对话框将显示一系列目前使用的字段。为了显示一系列查看当前字段:默认对话框将显示一系列目前使用的字段。为了显示一系列没被使用的字段,则选择没被使用的字段,则选择“查看未使用的字段设置查看未使用的字段设置”单选按钮。单选按钮。内容菜单:这个页签的内容菜单提供了各种各样的选项和更新选项设置,且内容菜单:这个页签的内容菜单提供了各种各样的选项和

6、更新选项设置,且还有下一级子菜单。还有下一级子菜单。第7页/共56页第八页,共56页。22.2.2 通过(tnggu)表浏览器来操作图图22-5 表浏览器窗口表浏览器窗口(chungku)第8页/共56页第九页,共56页。相关参数设置如下:相关参数设置如下:选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。为了选择一个完整的列,点要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。为了选择一个完整的列,点击那一列的标题。在列的

7、标题上按住击那一列的标题。在列的标题上按住shift+Clickshift+Click或按住或按住Ctrl+ClickCtrl+Click选择多个列。选择多个列。重排列:用户可以移动表中的列,通过点击用户想要移动的列的标题,拖拉它到目的位置。当重排列:用户可以移动表中的列,通过点击用户想要移动的列的标题,拖拉它到目的位置。当用户拖拉这一列时,表更新显示新列的次序。用户拖拉这一列时,表更新显示新列的次序。搜索表格:在主工具栏搜索按钮激活搜索工具栏,允许用户搜索指定值。用户可以在表中向前搜索表格:在主工具栏搜索按钮激活搜索工具栏,允许用户搜索指定值。用户可以在表中向前或向后搜索,或向后搜索,用户可

8、以指定一个区分大小写搜索用户可以指定一个区分大小写搜索(Aa(Aa按钮按钮),),并且并且(bngqi)(bngqi)用户可以通过用户可以通过使用中断搜索按钮中断一个搜索过程。如图使用中断搜索按钮中断一个搜索过程。如图22-622-6所示。所示。第9页/共56页第十页,共56页。图图22-6 搜索搜索(su su)控制被启动的表控制被启动的表第10页/共56页第十一页,共56页。生成:这个生成菜单包含节点生成操作。如图生成:这个生成菜单包含节点生成操作。如图22-522-5所示。所示。(1 1)选择节点()选择节点(“记录记录”):生成一个选择节点,它选择表中被选择的):生成一个选择节点,它选

9、择表中被选择的单元格的记录。单元格的记录。(2 2)选择节点()选择节点(“与与”):生成一个选择节点,它选择包含表中被选择):生成一个选择节点,它选择包含表中被选择的所有值的记录。的所有值的记录。(3 3)选择节点()选择节点(“或或”):生成一个选择节点,它选择包含表中被选择):生成一个选择节点,它选择包含表中被选择的任一值的记录。的任一值的记录。(4 4)导出节点()导出节点(“记录记录”):生成一个导出节点来建立一个新的标记):生成一个导出节点来建立一个新的标记(bioj)(bioj)字段。字段。(5 5)导出节点()导出节点(“与与”):生成一个导出节点来建立一个新的标记):生成一个

10、导出节点来建立一个新的标记(bioj)(bioj)字段。字段。(6 6)导出节点()导出节点(“或或”):生成一个来源节点来建立一个新的标记):生成一个来源节点来建立一个新的标记(bioj)(bioj)字段。字段。第11页/共56页第十二页,共56页。22.3 通过(tnggu)矩阵方式建立关系表图图22-7 矩阵输出矩阵输出(shch)的设置的设置第12页/共56页第十三页,共56页。相关参数的设置如下:相关参数的设置如下:使用:使用的字段,从下列使用:使用的字段,从下列(xili)(xili)选项中选择一个字段的选择类型:选项中选择一个字段的选择类型:(1 1)选择:这个选项允许用户为矩阵

11、的行和列选择一个符号型字段。矩阵的行和列通过一系列被选择的符号型字段的)选择:这个选项允许用户为矩阵的行和列选择一个符号型字段。矩阵的行和列通过一系列被选择的符号型字段的值来定义。这个矩阵的单元格包含了下面被选择的汇总统计量。值来定义。这个矩阵的单元格包含了下面被选择的汇总统计量。(2 2)所有标志字段(真值):这个选项要求对数据中每个标志字段生成一个仅有一行和一列的一个矩阵。矩阵中的单)所有标志字段(真值):这个选项要求对数据中每个标志字段生成一个仅有一行和一列的一个矩阵。矩阵中的单元格对于每个标志生成变量组合都为真的计数。元格对于每个标志生成变量组合都为真的计数。(3 3)所有数值字段:这

12、个选项要求这样的一个矩阵,这个矩阵对于每个数值型字段都是只有一行一列的。这个矩阵中)所有数值字段:这个选项要求这样的一个矩阵,这个矩阵对于每个数值型字段都是只有一行一列的。这个矩阵中的单元格代表了对于相应的一对字段的交叉积的总和。的单元格代表了对于相应的一对字段的交叉积的总和。第13页/共56页第十四页,共56页。单元格内容:如果用户已经选择了单元格内容:如果用户已经选择了“选择选择”字段,用户可以指定被字段,用户可以指定被用在矩阵单元格的统计量,选择一个基于计数的统计量,或者选用在矩阵单元格的统计量,选择一个基于计数的统计量,或者选择一个负载字段来概括一个数值型字段,这个概括是基于行和列择一

13、个负载字段来概括一个数值型字段,这个概括是基于行和列字段的值的。字段的值的。(1 1)交叉列表:单元格的值是计数和)交叉列表:单元格的值是计数和/或百分数,这个百分数是或百分数,这个百分数是代表有多少记录是有相应结合的值的。代表有多少记录是有相应结合的值的。(2 2)函数)函数(hnsh)(hnsh):如果用户选择了一个汇总函数:如果用户选择了一个汇总函数(hnsh)(hnsh),单,单元值是一个被选择的负载字段值的函数元值是一个被选择的负载字段值的函数(hnsh)(hnsh),这个负载字段,这个负载字段值是对于有适当的行和列的值的个案的。值是对于有适当的行和列的值的个案的。第14页/共56页

14、第十五页,共56页。22.4 评估(pn)预测值的输出图图22-8 分析节点分析节点(ji din)的分析设的分析设置置 第15页/共56页第十六页,共56页。相关的参数说明:相关的参数说明:一致性矩阵(用于字符型目标字段):显示对于符号一致性矩阵(用于字符型目标字段):显示对于符号(fho)(fho)型目标变量的每个被生成的(被预型目标变量的每个被生成的(被预测的)字段和它的目标字段之间匹配的模式。用一个表格来显示,它的行被定义为实际值,测的)字段和它的目标字段之间匹配的模式。用一个表格来显示,它的行被定义为实际值,列被定义为预测值,每一个单元格里是模式的记录数。列被定义为预测值,每一个单元

15、格里是模式的记录数。绩效评价:对符号绩效评价:对符号(fho)(fho)型输出的模型显示表现评估统计量。这些统计量报告输出字段的每一型输出的模型显示表现评估统计量。这些统计量报告输出字段的每一类别,是一种平均信息量的度量,这些平均信息量是对于属于那种类别的预测记录的模型类别,是一种平均信息量的度量,这些平均信息量是对于属于那种类别的预测记录的模型中的。中的。第16页/共56页第十七页,共56页。置信度图表(如果置信度图表(如果(rgu)(rgu)可用):对于生成一个置信度字段的模型,这个选项报可用):对于生成一个置信度字段的模型,这个选项报告在置信值上的统计量和它们的关系来预测。告在置信值上的

16、统计量和它们的关系来预测。对于这个选项有两个设置:对于这个选项有两个设置:(1 1)阈值用于:报告在指定为百分数的精确度以上的置信度水准。)阈值用于:报告在指定为百分数的精确度以上的置信度水准。(2 2)改善精确性:报告这样的置信度水准,在此水准之上的精度是由指定的因子)改善精确性:报告这样的置信度水准,在此水准之上的精度是由指定的因子提高的。提高的。按分区分割:如果按分区分割:如果(rgu)(rgu)定义了分割数据集,则分别显示各个数据集的分析结果。定义了分割数据集,则分别显示各个数据集的分析结果。按用户定义的分析:用户可以指定自己的分析计算用来评估模型。使用按用户定义的分析:用户可以指定自

17、己的分析计算用来评估模型。使用CLEMCLEM表达表达式来指定对每个记录应该计算什么和怎样把记录水平得分合并到一个全面的得分。式来指定对每个记录应该计算什么和怎样把记录水平得分合并到一个全面的得分。使用函数使用函数TARGETTARGET和和PREDICTED PREDICTED 分别表示目标值(实际输出)和预测值。如图分别表示目标值(实际输出)和预测值。如图22-922-9所示为定义用于分析的用户测量标准对话框。所示为定义用于分析的用户测量标准对话框。第17页/共56页第十八页,共56页。参数说明:参数说明:(1 1)If If:如果用户需要使用依据某些条件而得到:如果用户需要使用依据某些条

18、件而得到(d do)(d do)不同的计算结果,指定一个条件表达语句。不同的计算结果,指定一个条件表达语句。(2 2)ThenThen:如果:如果If If条件是真,指定一个计算。条件是真,指定一个计算。(3 3)ElseElse:如果:如果If If条件是假,指定一个结果。条件是假,指定一个结果。(4 4)计算得分为:选择一个统计量从个别的得分中计算出一个全面的得分。)计算得分为:选择一个统计量从个别的得分中计算出一个全面的得分。按字段分解分析:显示可用于中止分析的符号型字段。除了全面分析之外,对每个分解字段的每个类按字段分解分析:显示可用于中止分析的符号型字段。除了全面分析之外,对每个分解

19、字段的每个类别的一个单独的分析将被报告。别的一个单独的分析将被报告。图图22-9定义用于分析的用户定义用于分析的用户(yngh)测量标准对话测量标准对话框框第18页/共56页第十九页,共56页。图图22-10分析分析(fnx)输出浏览器输出浏览器第19页/共56页第二十页,共56页。相关的参数说明:相关的参数说明:输出字段结果:这个分析输出对每个输出字段而言包含一个项,这个输出字段相应于由一生成输出字段结果:这个分析输出对每个输出字段而言包含一个项,这个输出字段相应于由一生成模型建立的预测字段。模型建立的预测字段。比较:在输出字段里,对于每个和那个输出字段有关联的预测字段来说,比较:在输出字段

20、里,对于每个和那个输出字段有关联的预测字段来说,“项项”是一个子部分。是一个子部分。对于符号对于符号(fho)(fho)型输出字段,这个型输出字段,这个“项项”的最高层包含一个表,这个表显示了正确和不正的最高层包含一个表,这个表显示了正确和不正确的数目和百分数以及在流中记录的总数。对于符号确的数目和百分数以及在流中记录的总数。对于符号(fho)(fho)型输出字段,这个型输出字段,这个“项项”显示显示了下列信息,如表了下列信息,如表22-122-1所示。所示。第20页/共56页第二十一页,共56页。第21页/共56页第二十二页,共56页。一致性矩阵:对于符号型输出字段,如果一致性矩阵:对于符号

21、型输出字段,如果(rgu)(rgu)用户需要在分析选项中的一用户需要在分析选项中的一个一致性矩阵,则一个包含此矩阵的子部分就会出现在这里。它的行代表了个一致性矩阵,则一个包含此矩阵的子部分就会出现在这里。它的行代表了实际观察值,而列代表了预测值。在表中的单元格则代表了每一个结合了预实际观察值,而列代表了预测值。在表中的单元格则代表了每一个结合了预测值和实际值的记录的数。测值和实际值的记录的数。表现评估:对于符号型输出字段,如果表现评估:对于符号型输出字段,如果(rgu)(rgu)用户要求在分析选项中的表现用户要求在分析选项中的表现评估的统计量,则这个表现评估的结果将显示在这里。每一个输出类别及

22、它评估的统计量,则这个表现评估的结果将显示在这里。每一个输出类别及它的表现评估统计量都被列在这里。的表现评估统计量都被列在这里。置信度报告:对于符号型输出字段,如果置信度报告:对于符号型输出字段,如果(rgu)(rgu)用户要求在分析选项中的置用户要求在分析选项中的置信度,则即为此值。以下的统计量是为模型的置信度而报告的信息,如表信度,则即为此值。以下的统计量是为模型的置信度而报告的信息,如表22-22-2 2所示。所示。第22页/共56页第二十三页,共56页。第23页/共56页第二十四页,共56页。两者协议:两者协议:如果两个或者更多的预测相同输出字段的生成模型被包括在一个如果两个或者更多的

23、预测相同输出字段的生成模型被包括在一个流中,用户会看到由模型生成的预测值之间的一致性统计量。流中,用户会看到由模型生成的预测值之间的一致性统计量。这里包括对于这里包括对于预测值一致预测值一致 (对于符号型输出字段)(对于符号型输出字段)或者错误的汇总统计量或者错误的汇总统计量 (对于数值型(对于数值型输出字段)的记录输出字段)的记录(jl)(jl)的数目和百分数。对于符号型的字段,它包括一个的数目和百分数。对于符号型的字段,它包括一个将预测值同实际值对比的分析,是对模型一致(生成相同预测值)的记录将预测值同实际值对比的分析,是对模型一致(生成相同预测值)的记录(jl)(jl)的子集的分析。的子

24、集的分析。第24页/共56页第二十五页,共56页。22.5 数据(shj)审核报告图图22-11 数据审核数据审核(shnh)节点对话框设置节点对话框设置第25页/共56页第二十六页,共56页。相关参数的设置如下:相关参数的设置如下:默认:使用系统默认的字段。默认:使用系统默认的字段。使用定制字段:为了能初步认识数据,用户可根据自己感兴趣的数据进行分析,点击使用定制字段:为了能初步认识数据,用户可根据自己感兴趣的数据进行分析,点击“字字段选取器段选取器”图标按钮选择需要的字段。图标按钮选择需要的字段。字段:要进行数据审核的字段列表。字段:要进行数据审核的字段列表。交叠:此选项在审核报告中经常用

25、于极小图像之中,在数值型数据中,方差和协方差可以交叠:此选项在审核报告中经常用于极小图像之中,在数值型数据中,方差和协方差可以算出。算出。显示:数据审核提供了显示:数据审核提供了3 3显示方式:图形显示方式:图形(txng)(txng)、基本统计量、中位数和众数、基本统计量、中位数和众数第26页/共56页第二十七页,共56页。图图22-12 数数据据(shj)审审核核输输出出浏浏览览器器第27页/共56页第二十八页,共56页。相关参数说明如下:相关参数说明如下:审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展现出来,使用户对数据有一个大概审查结果:审查报告列出了所有的字段,并以图像

26、、统计量等形式展现出来,使用户对数据有一个大概的了解。的了解。选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自动、升序、降序。排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自动、升序、降序。生成菜单:生成菜单包含生成菜单:生成菜单包含(bohn)(bohn)生成节点的操作:生成节点的

27、操作:(1 1)过滤节点)过滤节点 (2 2)重新分类阶段)重新分类阶段 (3 3)分级节点)分级节点 (4 4)导出节点)导出节点 (5 5)图形输出)图形输出 (6 6)图形节点)图形节点第28页/共56页第二十九页,共56页。输出浏览器显示数据分析的结果和允许用户进行操作,包括悬着字段、基于选择、输出浏览器显示数据分析的结果和允许用户进行操作,包括悬着字段、基于选择、生成新的节点、存储和打印结果等。保存生成新的节点、存储和打印结果等。保存(bocn)(bocn)、输出和打印的选项都可、输出和打印的选项都可以从以从“文件文件”菜单中获得,并且通常的编辑选项也可从菜单中获得,并且通常的编辑选

28、项也可从“编辑编辑”菜单中获得。菜单中获得。审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展现出来,使审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展现出来,使用户对数据有一个大概的了解。用户对数据有一个大概的了解。选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。单元格点击所要范围的一个角,拖拉鼠标到另一个角,然后松开鼠标按钮。当用户想要一个新的选择,则旧的选择被取消。在选择时,按住当用户想要一个新的选择,则旧的选

29、择被取消。在选择时,按住CtrlCtrl键,用户可键,用户可以增添新的选择到任何目前存在的选择上,而不用取消旧的选择。用户可以以增添新的选择到任何目前存在的选择上,而不用取消旧的选择。用户可以使用这个方法来选择多个,不邻近的表中区域。这些选择选项也可在编辑菜使用这个方法来选择多个,不邻近的表中区域。这些选择选项也可在编辑菜单中获得。单中获得。排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排序方式:自动、升序、降序。列表排序随着点击列标题而变化。动、升序、降序。列表排序随着点击列标题而变化。第29页/共56页第三十

30、页,共56页。生成菜单:生成菜单包含生成节点的操作:生成菜单:生成菜单包含生成节点的操作:(1 1)过滤节点:生成一个过滤节点,它是基于审核分析的结果来过滤字段的。)过滤节点:生成一个过滤节点,它是基于审核分析的结果来过滤字段的。(2 2)重新分类阶段:生成一个分类节点,它是基于审核分析的结果来分类的。)重新分类阶段:生成一个分类节点,它是基于审核分析的结果来分类的。(3 3)分级节点:生成一个分级节点,它是基于审核分析的结果来生成的。)分级节点:生成一个分级节点,它是基于审核分析的结果来生成的。(4 4)导出节点:导出一个节点。)导出节点:导出一个节点。(5 5)图形输出)图形输出(shch

31、)(shch):输出:输出(shch)(shch)相应的图形。相应的图形。(6 6)图形节点:生成一个图形节点,它是基于审核分析的结果来生成的。)图形节点:生成一个图形节点,它是基于审核分析的结果来生成的。第30页/共56页第三十一页,共56页。22.6 统计(tngj)量输出图图22-13 统计量输出统计量输出(shch)的设置参数的设置参数第31页/共56页第三十二页,共56页。相关参数的设置如下:相关参数的设置如下:检查:选择字段或者选择用户想要个别汇总统计的字段。用户可以检查:选择字段或者选择用户想要个别汇总统计的字段。用户可以(ky)(ky)选择多个字段。选择多个字段。统计量:选择统

32、计量来报告。可获得的选项包括统计量:选择统计量来报告。可获得的选项包括“计数计数”、“平均值平均值”、“合计合计”、“最小最小值值”、“最大值最大值”、“全距全距”、“方差方差”、“标准差标准差”、“均值标准误差均值标准误差”、“中位数中位数”等。等。相关:选择字段或者用户想要关联的字段。用户可以相关:选择字段或者用户想要关联的字段。用户可以(ky)(ky)选择多个字段。当相关的字段被选择多个字段。当相关的字段被选择时。每个检查字段和相关字段的相关性将被列在输出中。选择时。每个检查字段和相关字段的相关性将被列在输出中。相关设置:用户可以相关设置:用户可以(ky)(ky)定制描述性的设置附在输出

33、中的相关值上。定制描述性的设置附在输出中的相关值上。第32页/共56页第三十三页,共56页。图图22-14 统计量节点相关统计量节点相关(xinggun)设置设置参数参数第33页/共56页第三十四页,共56页。22.6.1 统计(tngj)量输出浏览器图图22-15统计统计(tngj)量输出浏览器窗口量输出浏览器窗口第34页/共56页第三十五页,共56页。每个被检查字段输出包含一个部分,此部分包含一张所要求每个被检查字段输出包含一个部分,此部分包含一张所要求的统计量的表。的统计量的表。计数:字段的有效记录数。计数:字段的有效记录数。平均值:所有平均值:所有(suyu)(suyu)记录的字段的平

34、均值。记录的字段的平均值。合计:所有合计:所有(suyu)(suyu)记录的字段值的和。记录的字段值的和。最小值:字段的最小值。最小值:字段的最小值。最大值:字段的最大值。最大值:字段的最大值。全距:最小和最大值之间的差。全距:最小和最大值之间的差。第35页/共56页第三十六页,共56页。方差:对字段值变化的一种方差:对字段值变化的一种(y zhn)(y zhn)度量。它是通过得到每个值同整度量。它是通过得到每个值同整个平均数的差,再将其平方,然后将得到所有值加起来,再除以记录个个平均数的差,再将其平方,然后将得到所有值加起来,再除以记录个数得到。数得到。标准差:字段值变化的另一种标准差:字段

35、值变化的另一种(y zhn)(y zhn)度量,是变异数的平方根。度量,是变异数的平方根。均值标准误:如果设想把均值用在新数据中,则对字段均值估计里的不均值标准误:如果设想把均值用在新数据中,则对字段均值估计里的不确定性的一种确定性的一种(y zhn)(y zhn)度量方法。度量方法。中位数:字段中中位数:字段中“中间中间”的数值。那就是说,这个值将字段中上半部分的数值。那就是说,这个值将字段中上半部分数据和下半部分数据分开。(这是基于字段中的数值而言)。数据和下半部分数据分开。(这是基于字段中的数值而言)。众数:数据中最常出现的单个数据值。众数:数据中最常出现的单个数据值。第36页/共56页

36、第三十七页,共56页。22.6.2 从统计(tngj)量中生成过滤节点 模式:决定怎样选择相关性。模式:决定怎样选择相关性。“包括包括”使出现在被指定的相关性的字段被保留。使出现在被指定的相关性的字段被保留。“排除排除”使字段被过滤。使字段被过滤。包括包括/排除在以下位置出现的字段:对被选中的相关性定义排除在以下位置出现的字段:对被选中的相关性定义(dngy)(dngy)准则。准则。(1 1)相关性的最大编号:选择相关性的指定数并包括)相关性的最大编号:选择相关性的指定数并包括/排除显示在此相关性中的字段。排除显示在此相关性中的字段。(2 2)相关性的最高百分比:选择相关性的指定的百分数()相

37、关性的最高百分比:选择相关性的指定的百分数(n n)并包括)并包括/排除出现在这些相关性中的字段。排除出现在这些相关性中的字段。(3 3)相关性大于:选择绝对值大于指定阈值的相关系数。)相关性大于:选择绝对值大于指定阈值的相关系数。图图22-16由统计由统计(tngj)量生成过滤对话框量生成过滤对话框第37页/共56页第三十八页,共56页。22.7 均值(jn zh)的输出图图22-17 均值节点均值节点(ji din)对话框设对话框设置页签(字段中的组之间)置页签(字段中的组之间)图图22-18均值节点均值节点(ji din)对话框设对话框设置页签(字段对之间)置页签(字段对之间)第38页/

38、共56页第三十九页,共56页。比较均值:根据数据的不同,用户可以选比较均值:根据数据的不同,用户可以选择两种不同的方法进行均值的比较。择两种不同的方法进行均值的比较。(1 1)字段中的组之间)字段中的组之间(2 2)字段对之间)字段对之间 相关设置:选择显示相关程度相关设置:选择显示相关程度(chngd)(chngd)标标签,则在结果中会显示两者之间的相关签,则在结果中会显示两者之间的相关程度程度(chngd)(chngd)。在均值节点中提供两者。在均值节点中提供两者表示相关程度表示相关程度(chngd)(chngd)的方法,一是利的方法,一是利用重要性程度用重要性程度(chngd)(chng

39、d)来表示,选择此来表示,选择此项时,需要设置强项时,需要设置强(strong)(strong)、中等、中等(mediummedium)、弱()、弱(weakweak)三种相关程度)三种相关程度(chngd)(chngd)指标的临界值。如图指标的临界值。如图22-1922-19所所示。示。图图22-19 相关相关(xinggun)设置对设置对话框话框 第39页/共56页第四十页,共56页。图图22-20均值均值(jn zh)节点输出浏览器窗口节点输出浏览器窗口 第40页/共56页第四十一页,共56页。22.8 数据的质量(zhling)报告图图22-21 质量质量(zhling)输出参数设置输

40、出参数设置 第41页/共56页第四十二页,共56页。相关参数设置如下:相关参数设置如下:选择字段:如果分析所有数据的质量,选择选择字段:如果分析所有数据的质量,选择“评估所有字段评估所有字段”单选按钮,若只分析某些确定的字单选按钮,若只分析某些确定的字段,选择段,选择“评估选定字段评估选定字段”单选按钮和选择所感兴趣字段。单选按钮和选择所感兴趣字段。看作无效值:选择用户想要考虑的作为无效值的数据特征看作无效值:选择用户想要考虑的作为无效值的数据特征(tzhng)(tzhng)。包括:。包括:(1 1)数值型空值(未定义):考虑系统)数值型空值(未定义):考虑系统(空空)值作为无效值。值作为无效

41、值。(2 2)定义缺失值:考虑由一个上游类型节点定义的缺失值为无效值。)定义缺失值:考虑由一个上游类型节点定义的缺失值为无效值。(3 3)空白:考虑只包含空格(空格、制表符或新行)的值为无效值。)空白:考虑只包含空格(空格、制表符或新行)的值为无效值。(4 4)字符型空值:将空字符串作为无效值。)字符型空值:将空字符串作为无效值。计算:对质量报告选择计算选项。计算:对质量报告选择计算选项。第42页/共56页第四十三页,共56页。图图22-22 质量节点输出质量节点输出(shch)浏览器窗口浏览器窗口第43页/共56页第四十四页,共56页。相关的参数说明:相关的参数说明:质量结果:数据质量报告列

42、出完全按降序排列的字段。最高数据质量的字段(在选项质量结果:数据质量报告列出完全按降序排列的字段。最高数据质量的字段(在选项中被定义的无效值的最低的部分)被列在顶端中被定义的无效值的最低的部分)被列在顶端(dngdun)(dngdun),那些最低质量数据的,那些最低质量数据的字段(无效值最高的部分)被列在底部。字段(无效值最高的部分)被列在底部。选择字段:用户可以通过直接点击列表中的字段来选择字段。多个字段的选择可以通选择字段:用户可以通过直接点击列表中的字段来选择字段。多个字段的选择可以通过在点击时按住过在点击时按住Shift Shift 键(增加邻近的字段)或键(增加邻近的字段)或Ctrl

43、Ctrl键(增加非邻近的字段)。键(增加非邻近的字段)。生成菜单:生成菜单包含生成节点的操作。生成菜单:生成菜单包含生成节点的操作。第44页/共56页第四十五页,共56页。22.8.1 从质量(zhling)中生成过滤节点 模式:对指定的字段选择所要的操作,或者模式:对指定的字段选择所要的操作,或者“包括包括”或者或者“排除排除”。选定字段:过滤节点将包括或排除在质量选定字段:过滤节点将包括或排除在质量(zhling)(zhling)输出表中的选定字段。如果在表中没有字段被选输出表中的选定字段。如果在表中没有字段被选定,则将没有字段被用于这个操作。定,则将没有字段被用于这个操作。质量质量(zh

44、ling)(zhling)百分比高于百分比高于%的字段:过滤节点的字段:过滤节点将包括或排除全部记录的百分比大于指定的阈值的字段,这里默认的阈值为将包括或排除全部记录的百分比大于指定的阈值的字段,这里默认的阈值为 50%50%。图图22-23由质量由质量(zhling)生成过生成过滤对话框滤对话框第45页/共56页第四十六页,共56页。22.8.2 从质量中生成(shn chn)选择节点 记录选择条件:指定是否记录应该被保留当它们是记录选择条件:指定是否记录应该被保留当它们是“有有效效”的或是的或是“无效无效”的时候。的时候。在以下位置查找无效值:指定在哪些条件下检查无效值。在以下位置查找无效

45、值:指定在哪些条件下检查无效值。(1 1)所有字段)所有字段(2 2)表中选定的字段)表中选定的字段(3 3)质量百分比高于)质量百分比高于%的字段的字段 若在以下位置发现无效值,则认为记录无效:指定条件若在以下位置发现无效值,则认为记录无效:指定条件以确定以确定(qudng)(qudng)一条记录是无效的。一条记录是无效的。(1 1)以上任意字段)以上任意字段(2 2)以上所有字段)以上所有字段图图22-24选择选择(xunz)节点节点对话框对话框第46页/共56页第四十七页,共56页。22.9 格式化的报告(bogo)输出 图图22-25报告报告(bogo)节点对话框模板节点对话框模板第4

46、7页/共56页第四十八页,共56页。建立一个模板:为了定义报告的内容,用户在报告节点模板上建立一个模板。建立一个模板:为了定义报告的内容,用户在报告节点模板上建立一个模板。对于模板内的一行有三种可能的范围:对于模板内的一行有三种可能的范围:(1 1)固定的:没有另外做记号的行被考虑)固定的:没有另外做记号的行被考虑(kol)(kol)为固定的。在包含的表达式被评估之后,为固定的。在包含的表达式被评估之后,固定的行一次就被复制到报告中。例如,下面的行固定的行一次就被复制到报告中。例如,下面的行 This is my report,printed on TODAY This is my repor

47、t,printed on TODAY 将复制一个单独的行到报告中,包含这个文本和目前的日期。将复制一个单独的行到报告中,包含这个文本和目前的日期。第48页/共56页第四十九页,共56页。(2 2)全局符:在特殊的标记)全局符:在特殊的标记(bioj)(bioj)符符#ALL#ALL和和#之间被包含的行被复之间被包含的行被复制到报告中,一次只输入数据的一条记录。对于每一输出行,基于制到报告中,一次只输入数据的一条记录。对于每一输出行,基于目前的记录进行评估目前的记录进行评估CLEM CLEM 表达式(括在括号中的)。表达式(括在括号中的)。例如:例如:#ALL#ALL For record IN

48、DEX,the value of AGE is AGE For record INDEX,the value of AGE is AGE#对每一条记录将包括一行代表该记录的索引数和年龄项。对每一条记录将包括一行代表该记录的索引数和年龄项。第49页/共56页第五十页,共56页。(3 3)有条件的:特殊标记)有条件的:特殊标记(bioj)(bioj)符符#WHERE#WHERE和和#之间被包含的行被之间被包含的行被复制到报告中,一次只复制对指定条件是真的一条记录。这个条件是一个复制到报告中,一次只复制对指定条件是真的一条记录。这个条件是一个CLEMCLEM表达式。(在表达式。(在WHEREWHER

49、E条件中,括号是可选择的)例如:条件中,括号是可选择的)例如:#WHERE SEX=M#WHERE SEX=M Male at record no.INDEX has age AGE.Male at record no.INDEX has age AGE.#对每条对每条sexsex值为值为“M”“M”的记录一行复制到文件中去。的记录一行复制到文件中去。完整的报告应通过把模板应用到输入数据中而包含所定义的固定的、全局符的、完整的报告应通过把模板应用到输入数据中而包含所定义的固定的、全局符的、有条件的行。有条件的行。第50页/共56页第五十一页,共56页。图图22-26 报告报告(bogo)节点输

50、出浏览器节点输出浏览器窗口窗口第51页/共56页第五十二页,共56页。22.10 全局(qunj)量的输出 图图22-27全局全局(qunj)量节点对话框设置量节点对话框设置第52页/共56页第五十三页,共56页。相关的参数说明:相关的参数说明:要建立的全局量:选择字段或者用户想要的可利用全局值的那些字段。用户可以要建立的全局量:选择字段或者用户想要的可利用全局值的那些字段。用户可以选择多个字段。对于每个字段,通过确定用户想要的统计量是在紧接着字段选择多个字段。对于每个字段,通过确定用户想要的统计量是在紧接着字段名的列中被选定的来指定统计量进行估算。名的列中被选定的来指定统计量进行估算。默认操

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁