《数据探查与预处理.pptx》由会员分享,可在线阅读,更多相关《数据探查与预处理.pptx(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据质量数据对应用的适合性:相关性、完备性、时效性数据的可用性:属性含义及其取值的可理解性数据集成程度数据的规模及抽样偏倚数据收集和测量问题收集问题测量问题17三月2023第1页/共44页数据特征属性类型与测量水平定性与定量、分散与连续数据的粒度与单位缺失值与数据的稀疏性基本统计特征17 三月 2023数据对象(实例、记录、观测)数据对象(实例、记录、观测)属性(变量、维、特征)属性(变量、维、特征)第2页/共44页字符型(分类属性、定性属性)二元(BINARY)属性对称二元属性 例如:性别不对称二元属性 例如:是否欺诈,只关注非零值标称(NOMINAL)属性(类别属性)(定类变量)取值无序
2、例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序 例如:职称、满意度17三月2023第3页/共44页数值型(定量属性)区间(INTERVAL)属性 (定距变量)例如:温度比率(RATIO)属性 (定比变量)例如:成绩、收入、利润、人数17三月2023第4页/共44页属性类型的不同操作特征17 三月 2023注意:每种类型拥有其上方类型的性质和操作第5页/共44页缺失值和数据的稀疏性-排序的影响17 三月 2023第6页/共44页基本统计描述属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度属性间取值的相关性17三月2023第7页/共44页数据的中心趋势数值属性
3、 均值 中位数 截尾均值 三均值字符属性 众数17三月2023x8.08.08.08.08.08.08.019.08.08.08.0第8页/共44页数据的离散程度数值属性极差、方差、标准差、平均绝对偏差四分位数与四分位极差QR=Q3-Q1变异系数字符属性取值个数17三月2023下截断点:Q1-1.5*QR上截断点:Q3+1.5*QR孤立点上截断点CV=第9页/共44页数据分布的对称性17三月2023偏度第10页/共44页数据分布的中心集中度17三月2023峰度为负正态分布,峰度为0峰度为正第11页/共44页属性间的相关性相关系数夹角余弦17三月2023A、B属性为标称属性或二元属性,其取值个数
4、分别为c,rOij:实际频数eij:期望频数自由度:(r-1)*(c-1)原假设:A和B独立第12页/共44页 性别与阅读兴趣相关?结论:性别与阅读兴趣相关17 三月 2023第13页/共44页安斯库姆四重奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.0
5、7.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8917三月2023统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816第14页/共44页数据的图形表示分位数图直方图或柱形图盒形图茎叶图饼图散点图、折线图17三月2023等高线图平行坐标系图形矩阵星型坐标图Chernoff脸图第15页/共44页分位数图17三月
6、2023MQ1Q3MQ1Q3第16页/共44页直方图(柱形图)17三月2023第17页/共44页盒形图17三月2023中位数中位数平均数平均数Q1Q3上截断点上截断点或最大值或最大值下截断点下截断点或最小值或最小值孤立点孤立点第18页/共44页散点图17三月2023第19页/共44页多维图17 三月 2023平行坐标系Chernoff脸图星型坐标图第20页/共44页客户信息数据问题举例 部分属性值为空 收入为0 出生日期填写为 不同地区的客户分散在不同的数据集中 不同的属性分散在不同的数据集中 客户数量太大、属性个数太多 缺乏年龄属性 收入分布偏斜 地址对分析目标而言太详细 17三月2023第
7、21页/共44页数据预处理数据预处理数据清洗数据集成数据消减数据转换复杂数据类型的预处理17三月2023数据质量数据质量分析方法分析方法需求需求第22页/共44页数据清洗处理错误或不一致的数据处理缺失值识别处理孤立点平滑噪声数据17三月2023第23页/共44页17三月2023缺失值的处理忽略该条记录填补人工确定值或固定值均值(中位数)或众数同类别的均值(中位数)或众数预测值:利用分类预测技术推断出最大可能取值增加标识变量第24页/共44页识别并处理孤立点识别常识统计规则聚类,处理去除视为噪声,进行平滑17三月2023第25页/共44页噪声平滑分箱聚类回归17三月2023第26页/共44页17
8、三月2023分箱(Bin)等高分箱:每箱数据个数相同等宽分箱:每箱的箱距相同排序确定箱数确定每箱数据个数确定箱距分配替换第27页/共44页17三月2023等高分箱方法举例4,15,25,34,8,21,26,9,24,28,29,21(1)排序:4,8,9,15,21,21,24,25,26,28,29,34(2)将数据分割为等高的3箱,每箱4个数据项:-Bin 1:4,8,9,15-Bin 2:21,21,24,25-Bin 3:26,28,29,34(3)根据箱中的平均值进行平滑:-Bin 1:9,9,9,9-Bin 2:23,23,23,23-Bin 3:29,29,29,29第28页/
9、共44页17三月2023聚类与回归平滑方法第29页/共44页数据集成 合并多个数据源中的数据,将之存放在一个一致的数据存储中。模式集成问题:同名不同义,同义不同名。数据值冲突的检测与处理例如:不同的计量单位、取值层次数据冗余问题 纵向集成和横向集成17三月2023数据集1中:Customerid(客户编号)Cid(客户身份证号)(一)季度存款额:单位:元 开户行:分行数据集2中:Cid(客户编号)(二)季度存款额:单位:千元 开户行:支行 第30页/共44页数据消减数据消减维归约数据压缩(PCA、小波变换等)属性构造属性子集选择行规约17三月2023第31页/共44页17三月2023数据压缩数
10、据压缩是使用数据编码或变换,以便得到原数据的“压缩”表示。如果根据压缩的数据集可以恢复原来的数据集,则数据压缩是无损的,否则,数据压缩是有损的。例如:主成分分析小波变换奇异值分解第32页/共44页17三月2023属性子集选择手工消除无用或无关属性特征子集选取 特征子集选取就是选取最小的特征属性集合,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。和建模过程集成(嵌入方法).多元回归分析逐步添加法(前向法)逐步删除法(后向法)添加和删除结合法(前向和后向结合法).决策树方法进行独立的选取工作(过滤方法和包装方法)例如:用关联分析选取重要变量 用决策树方法选取重要变量具有唯一值或近似
11、唯一值的变量具有单一值或近似单一值的变量可以相互转换或同意义的变量第33页/共44页17 三月 2023特征子集选择过程(过滤方法和包装方法)第34页/共44页17三月2023行规约参数方法非参数方法聚集抽样聚类直方图第35页/共44页汇总属性的粒度电话流失客户分月通话分钟数17三月2023电话流失客户分天通话分钟数第36页/共44页抽样简单随机抽样(又放回和无放回)分层抽样簇抽样自适应或渐进抽样17 三月 2023第37页/共44页数据转换数据平滑去噪数据聚集新指标属性的构造数据规范化处理数据泛化 17三月2023第38页/共44页17三月2023数据规范化处理最小-最大规范化z-score
12、规范化(标准化)十进制缩放规范化。身高(m)体重(kg)X张三 1.760Y李四 1.880身高(cm)体重(kg)X张三 17060Y李四 18080第39页/共44页17三月2023最小-最大规范化A属性的原取值区间minA,maxA目标新区间new_minA,new_maxA例如:百分制的85分转化为5分制:第40页/共44页17三月2023零均值(z-score)规范化将属性A的值v转换为标准化值v。v=(v-)/例:成绩属性score的均值和标准差分别为79和9。score为85,标准化化后转换为:(85-79)/9=0.67第41页/共44页17三月2023十进制缩放规范化将每个数值除以10的相同次方,A的值v规范化为v,其公式如下:第42页/共44页17三月2023数据泛化数值数据离散化类别数据的泛化,例如地址、行业年龄成人儿童老年中年青年儿童地址区县街道地市省区域第43页/共44页17 三月 2023感谢您的观看!第44页/共44页