《Clemitine数据的基本分析.ppt》由会员分享,可在线阅读,更多相关《Clemitine数据的基本分析.ppt(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第5章 Clemitine数据的基本分析介介 绍 数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。5.1 数据质量探索 数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面,具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据离群点的诊断和处理。数据质量探索应通过Output卡中的Data Audit节点实现。5.1.1 数据的基本描述与数据的基本描述与质量探索量探索 首首先先读入入SPSSSPSS数数据据Telephone.savTelephone.sav数数据据,然然后后建建立立T
2、ypeType节点点说明明变量量角角色色,指指定定“流流失失”变量量为输出出变量量,其其他他均均为输入入变量量;之之后后 ,选择OutputOutput卡卡中中的的DataAuditDataAudit节点点并并将将其其连接接到到数数据据流流的的相相应位位置置上上,进行行参参数数设置。置。变量诊断结果Data Audit节点的计算结果5.1.2 离群点和极端值的修正 由于该份数据的质量问题主要出在离群点和极端值上,可以考虑对它们进行修正。Clemitine对离群点和极端值的修正,应下拉Action列并选择其中的修正方法。这里,首先对有离群点和缺失值的变量选择恰当的修正方法,然后,选择需要修正的变
3、量,选择Select fields only选项,表示仅对所选择的变量中的离群点和极端值进行修正。5.1.3 缺失值的替补5.1.4 数据质量管理的其他功能一、保留高质量的变量 Data Audit 节点还可以保留质量高的变量,自动剔除那些质量不高的变量。点击Generate下的Filter Node子菜单。二、保留有效样本 Data Data AuditAudit节点点还可可以以保保留留有有效效的的样本本,自自动剔剔除除无无效效样本本。这里里的的无无效效是是指指系系统缺缺失失值、空空串串或或空空白白。选择GenerateGenerate下下的的Select Select Node Node
4、子子菜菜单。5.2 基本描述分析 数据分析通常是从基本描述分析开始的。通常对数值型变量,应计算基本描述统计量以准确把握变量的集中趋势和离散程度。描述集中趋势的统计量一般有均值、中位数、众数等,离散程度的统计量包括方差、标准差、极差等。为分析数值型变量之间的相关程度,还可以计算简单相关系数,或者绘制散点图。概念介概念介绍 1.1.中中位位数数(MedianMedian)统计学学名名词,是是指指将将统计总体体当当中中的的各各个个变量量值按按大大小小顺序序排排列列起起来来,形形成成一一个个数数列列,处于于变量量数数列列中中间位位置置的的变量量值就就称称为中中位位数数,用用MeMe表表示示。当当变量量
5、值的的项数数N N为奇奇数数时,处于于中中间位位置置的的变量量值即即为中中位位数数;当当N N为偶偶数数时,中中位位数数则为处于于中中间位位置置的的2 2个个变量量值的平均数。(注意:和的平均数。(注意:和众数众数不同,中位数不一定在不同,中位数不一定在这组数据中。)数据中。)2.2.众众数数(ModeMode)统计学学名名词,在在统计分分布布上上具具有有明明显集集中中趋势点点的的数数值,代代表表数数据据的的一一般般水水平平(众众数数可可以以不不存存在在或或多多于于一一个个)。修修正正定定义:是是一一组数数据据中中出出现次次数数最最多多的的数数值,叫叫众众数数,有有时众众数数在在一一组数数中中
6、有有好好几几个个。用用MM表表示示。理理性性理理解解:简单的的说,就就是是一一组数数据据中中占占比比例例最最多多的那个数。的那个数。3.3.方方差差是是各各个个数数据据与与平平均均数数之之差差的的平平方方的的平平均均数数。在在概概率率论和和数数理理统计中中,方方差差(英英文文VarianceVariance)用用来来度度量量随随机机变量量和和其其数数学学期期望望(即即均均值)之之间的的偏偏离离程程度度。在在许多多实际问题中中,研究随机研究随机变量和均量和均值之之间的偏离程度有着很重要的意的偏离程度有着很重要的意义。4.4.标准准差差(Standard Standard DeviationDev
7、iation),也也称称均均方方差差(mean mean square square errorerror),是是各各数数据据偏偏离离平平均均数数的的距距离离的的平平均均数数,它它是是离离均均差差平平方方和和平平均均后后的的方方根根,用用 表表示示。标准准差差是是方方差差的的算算术平平方方根根。标准差能反映一个数据集的离散程度。平均数相同的,准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。准差未必相同。5.5.极极差差是是指指总体体各各单位位的的标志志值中中,最最大大标志志值与与最最小小标志志值之之差差。它它是是标志志值变动的的最最大大范范围。极极差差也也称称为全全距距或或范范围
8、误差差,它它是是测定定标志志变动的的最最简单的的指指标。换句句话说,也也就就是是指指一一组数数据据中中的的最最大大数数据据与与最最小小数数据据的的差差叫叫做做这组数数据据的的极极差差。极极差差英英文文为range range,简写写为R R,表表示示为:R=Xmax-XminR=Xmax-Xmin。移移动极差极差(Moving RangeMoving Range)是其中的一种。)是其中的一种。5.2.1 计算基本描述统计量 对电信客户数据的分析目标是计算基本服务累计开通月数、上月基本费用、上月限制性免费服务项目的费用、无线服务费用的基本描述统计量,计算上述变量与年龄、家庭收入(百元)、家庭人口
9、之间的简单相关系数已反映变量之间的相关性。使用Output卡中的Statistics节点。计算机结果 可以看出,以开通月数为例,它与年龄和收入都有相关性,它们简单相关系数虽然分别为0.401和0.195,但从统计检验的角度看,有95%以上的把握认为它们之间是非0相关。开通月数与家庭人口数呈现负弱相关。可可选择Generate菜菜单中的中的Filter子菜子菜单挑挑选出相关性出相关性较高的高的变量量5.2.2 绘制散点图 数值型变量之间相关性的分析还可以通过散点图直观观察。这里观察基本费用和年龄之间的相关性,可选择Graphs卡中的Plot节点并将其连接到数据流恰当的位置上。5.3 变量分布探索
10、 统计建模中常常要求变量服从正太分布,如果不能满足分布要求,应对变量进行适当的转换处理。Clementine提供了非常直观的图形方式,大大缩短了变量分布探索的过程。可通过Output卡中的Transform节点实现该过程。normal distribution 正态分布 一一种种概概率率分分布布。正正态分分布布是是具具有有两两个个参参数数 和和22的的连续型型随随机机变量量的的分分布布,第第一一参参数数 是是服服从从正正态分分布布的的随随机机变量量的的均均值,第第二二个个参参数数22是是此此随随机机变量量的的方方差差,所所以以正正态分分布布记作作N(N(,2 2)。服服从从正正态分分布布的的随
11、随机机变量量的的概概率率规律律为取取与与 邻近近的的值的的概概率率大大 ,而而取取离离 越越远的的值的的概概率率越越小小;越越小小,分分布布越越集集中中在在 附附近近,越越大大,分分布布越越分分散散。正正态分分布布的的密密度度函函数数的的特特点点是是:关关于于 对称称,在在 处达达到到最最大大值,在在正正(负)无无穷远处取取值为0 0,在在处有有拐拐点点。它它的的形形状状是是中中间高高两两边低低 ,图像像是是一一条条位位于于x x轴上上方方的的钟形形曲曲线。当当=0=0,2 2=1=1时,称称为标准准正正态分分布布,记为N N(0 0,1 1)。维随随机机向向量量具具有有类似似的的概概率率规律
12、律时,称称此此随随机机向向量量遵遵从从多多维正正态分分布布。多多元元正正态分分布布有有很很好好的的性性质,例例如如,多多元元正正态分分布布的的边缘分分布布仍仍为正正态分分布布,它它经任任何何线性性变换得得到到的的随随机机向向量仍量仍为多多维正正态分布,特分布,特别它的它的线性性组合合为一元正一元正态分布。分布。分析各种分析各种费用用变量使其接近正太分布量使其接近正太分布 观察第1列图形的变化。可以选择Generate菜单中的Derive Node子菜单,Clementine将在数据流编辑区自动生成一个由若干个Derive节点组成的超节点,自动实现对原始变量的转换计算。5.4 两分类变量相关性的
13、研究 两分类变量的相关性研究具有广泛的应用。例如,针对电信客户数据,分析客户流失与套餐类型、婚姻状况、是否采用电子支付方式等是否有关。两分类变量相关性研究可以从图形分析入手。5.4.1 两分两分类变量相关性的量相关性的图形分析形分析 这里对电信客户数据的分析目标是,分析套餐类型的分布特征,以及流失客户在套餐类型上的分布。注注意意:套套餐餐类型型和和是是否否流流失失变量量均均为分分类变量。量。一、条形图 执行结果二、网状二、网状图执行行结果果5.4.2 两分两分类变量相关性的数量相关性的数值分析分析 以上图形方法并不能准确反映两分类变量之间的相关程度,精细的数值分析是必要的,一般采用列联分析。列
14、联分析从两方面进行:第一,计算两分类变量的列联表;第二,在列联表的基础上分析表中行列变量之间的相关性。用Output卡中的Matrix节点实现。计算两分类变量的列联表选择Appearance选项卡,具体设置如下:从基本描述角度看,客户流失与套餐类型是有关联性的。5.5 两两总体的均体的均值比比较 两总体均值的比较以两组样本的对比为基础,最终目标是希望利用两组样本数据对样本来自的两个总体的平均值是否存在显著差异进行检验。例如:分析保持客户和流失客户各种费用、家庭月收入、年龄等是否存在显著差异。可先从样本的图形分析入手,绘制各种费用的直方图并观察保持客户和流失客户的分布。如果分布差异不明显,则没有
15、理由认为保持客户与流失客户在各种费用的均值上存在显著差异。两两总体均体均值比比较的的图形分析形分析 这里,对电信客户数据的分析目标是,分析保持客户与流失客户的基本费用是否存在显著差异。选择Graphs选项卡中的Histogram节点绘制直方图,并将其连接到数据流的恰当位置。执行行结果果5.6 变量重要性分析 变量的重要性可以从两方面联合考察:第一,从变量本身考察。重要的变量应是携带信息较多的变量,也就是方差较大的变量。第二,从变量与输出变量相关角度考察。从变量与输出变量相关角度看,重要的输入变量应对输出变量的分类预测有显著意义。变量重要性分析的应用示例 这里,对电信客户数据的分析目标是流失为输出变量,其他变量均视为输入变量,给出输入变量对输出变量重要性的排序。选 择 Modeling选 项 卡 中 的 Feature Selection节点。