《(1.16)--5.4数据归约大数据分析与挖掘.ppt》由会员分享,可在线阅读,更多相关《(1.16)--5.4数据归约大数据分析与挖掘.ppt(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据预处理BIG DATABIG DATA大数据,成就大未来!BIG DATABIG DATA1 数据预处理概述2 数据清理3 数据集成4 数据归约5 数据变换大数据,成就大未来!4 数据归约数据预处理4.1 数据归约概述数据归约:获取数据集的缩减表示,该数据集的体积小得多,但产生相同(或几乎相同)的分析结果。为什么进行数据归约:数据库/数据仓库可以存储TB的数据。复杂的数据分析可能需要很长时间才能在完整的数据集上运行。大数据,成就大未来!4 数据归约数据预处理4.2 数据归约策略维归约:例如,删除不重要的属性小波变换主成分分析(PCA)属性子集选择数量归约:回归和对数线性模型直方图、聚类、抽
2、样数据立方体聚合数量压缩大数据,成就大未来!4 数据归约数据预处理4.3 主成分分析(PCA)大数据,成就大未来!4 数据归约数据预处理4.3 主成分分析(PCA)给定由n个维或属性的数据向量,求kn个正交向量(主成分),最适合用于表示数据基本过程(1)规范化输入数据:每个属性都在相同的范围内;(2)计算k个正交(单位)向量:即主分量每个输入数据(向量)是k个主分量向量的线性组合;大数据,成就大未来!4 数据归约数据预处理4.3 主成分分析(PCA)(3)主成分按“显著性”或强度递减的顺序排序基本过程(4)消除弱分量(即方差较低的分量)来归约数据:即使用最强的主分量,可以重建原始数据的良好近似
3、值。大数据,成就大未来!4 数据归约数据预处理4.4 直方图将某属性的数据划分为不相交的子集或桶,桶中放置该值出现的频率例:下面的数据是A商店通常销售的商品的单价列表(按美元四舍五入取整)。已对数据进行了排序:1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,28,28,30,30,30.大数据,成就大未来!4 数据归约数据预处理4.4 直方图图1:使用单值桶的直方图 图2:等宽直方
4、图 大数据,成就大未来!4 数据归约数据预处理4.4 直方图划分规则:等宽等频大数据,成就大未来!4 数据归约数据预处理4.5 聚类基于相似性将数据集划分为簇,并仅存储簇代表相对于被污染的数据,对于能够组织成不同的簇的数据,该技术有效得多聚类的定义和算法都有很多选择大数据,成就大未来!4 数据归约数据预处理4.6 抽样允许用数据的较小随机样本(子集)表示大的数据集对大型数据集D(N个元组)的样本选择:s个样本无放回简单随机抽样(SRSWOR):从D的N个元组中抽取s个样本(sN)s个样本有放回简单随机抽样(SRSWR):过程同上,只是元组被抽取后,将被回放,可能再次被抽取簇抽样:D中元组被分入M个互不相交的簇中,然后进行簇的简单随机抽样(SRS),sM分层抽样:D被划分为互不相交的“层”,则可通过每一层的简单随机选样(SRS)得到D的分层选样大数据,成就大未来!4 数据归约数据预处理4.6 抽样BIG DATABIG DATA感谢您的观看!