《数据预处理的针对性原则15713.pdf》由会员分享,可在线阅读,更多相关《数据预处理的针对性原则15713.pdf(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据预处理的针对性原则 一、数据预处理的目的 数据预处理主要是为了改善数据质量,使数据质量符合数据分析的要求,使得可以准确分析出有价值的知识,并且提高机器学习的准确率。1、数据清洗原则 数据清洗,是指根据相关的需求,去除数据中的异常值,空值或者无效值,以及完善相关的属性值。一般需要有可重复性,完整性,正确性,一致性,简单性等原则。2、数据规约原则 数据规约,是指根据相关需求,对原始数据进行分组,离散化,归一化,标准化等处理,以让数据可便于进行分析使用。规约的原则主要有可操作性,抽象性,可控性,泛化,一致性等原则。3、数据转换原则 数据转换除了指数据的规约外,还指将几种不同数据类型之间的数据转换
2、,以满足模型要求或者方便运算的需求。数据转换的原则主要有保持原意,改善数据结构,减少冗余,符合运算逻辑,减少计算量,表达方式更清楚等原则。4、特征筛选原则 特征筛选,是指从原始特征中筛选出有用的、可影响模型预测精度的特征,以便于训练数据更好的预测数据,特征表示的越简单,模型就越易于控制。特征筛选的原则主要有保存有用信息,识别冗余特征,加速收敛,减少计算量,减少正则化参数等原则。5、数据离散化原则 数据离散化,是指将数据从有序的实数数据型转变为离散的符号数据类型,从而使其容易处理,数据分布合理和处理高效等原则做出正确的离散化处理。离散化的原则主要有提取数据关键特征,容易处理,合理的数据分布,消除数据相关性,分离关键特征和噪声,降低参考数据量,提高数据运算速度等原则。6、其他常用的原则 此外,还有缺失值填补原则,数据可视化原则,数据降维原则等原则,它们也可以作为更好地理解数据预处理的参考。