《大数据解析与应用导论 (38).pdf》由会员分享,可在线阅读,更多相关《大数据解析与应用导论 (38).pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据解析与应用导论Introduction to Big Data Analytics and Application第十一章 案例分析二手车交易价格预测1.糖尿病的血糖预测2.工业蒸汽量预测3.4.双盲降噪自编码器实现降噪5.心电数据分析11.1 二手车交易价格预测二手车交易价格预测数据由Datawhale提供,是来自某交易平台的二手车交易记录。每条记录包括30项属性,以及交易价格price。数据量:数据量:15w条训练集数据,5w条测试集数据。目标:目标:输入样本属性,预测该样本的交易价格(本质是常规的回归问题)数据中有含义不明的特征训练集数据有,测试集数据没有(预测对象)注意范围限制赛
2、题链接:https:/ 二手车交易价格预测二手车交易价格预测(2)整体思路)整体思路40%工作量20%工作量 交叉构造 特征筛选数据分析与预处理特征工程单模型训练+调参模型融合40%工作量 数据概览 纵向清洗 异常值 缺失值数据建模的工作量并不算大,但相对的,数据处理是极为关键的步骤!11.1 二手车交易价格预测二手车交易价格预测(3)数据概览)数据概览连续型变量类别型变量 连续型变量在训练集与测试集上的分布情况大致相同,降低了任务难度 部分样本的 power 为0或超出了600,此处视为异常值 训练集上的 price 等变量具有明显的长尾分布特点,对数化后的效果会更好 seller 和 of
3、ferType 取值不变,可直接剔除11.1 二手车交易价格预测二手车交易价格预测(4)异常值处理)异常值处理以 power 属性为例:题中限制 power 范围 0,600,但实际数据总有例外 等于0:平均值填充 大于600:截断至600当然,也可以认为 power 为 0 代表的是某种特殊汽车(电动汽车之类),从而不对 0 做处理。11.1 二手车交易价格预测二手车交易价格预测(5)缺失值填充)缺失值填充缺失数据概览多分类字段:采用众数填充 车身类型 bodyType 燃油类型 fuelType0-1 分类字段:采用 0.5 填充 变速箱类型 gearbox 是否有损坏 notRepair
4、edDamage白线代表样本特征缺失11.1 二手车交易价格预测二手车交易价格预测(6)特征工程)特征工程原始数据预处理第一期特征工程第二期特征工程特征选择特征选择平均值编码PCA降维树模型数据线性、nn模型数据第一期特征工程:实名变量处理、筛选第二期特征工程:匿名变量交叉、筛选模型不同,对数据的要求也不同11.1 二手车交易价格预测二手车交易价格预测(6)特征工程)特征工程实名变量处理:匿名变量交叉:最大值、最小值中位数平均值标准差二者相加&相乘11.1 二手车交易价格预测二手车交易价格预测(7)特征筛选)特征筛选经过特征工程,生成了许多新的特征,需要从中挑选出真正有用的特征。相关分析:相关
5、分析:剔除相关系数高的二者间的交叉特征重要性检验:重要性检验:利用一些模型的重要性排序功能(如LightGBM),剔除重要性低的特征11.1 二手车交易价格预测二手车交易价格预测(8)数据建模)数据建模采用多模型按权重加和的方法,对多个模型的结果进行集成。线性模型树模型神经网络LassoElasticNetXGBoostLightGBMCatBoostRandomForest简单MLPStackingStackingMixing模型单模型十折验证线下MAE单模型训练耗时Lasso1000+1minElasticNet1000+1minRandomForest550.2110minXGBoost520.762hLightGBM441.9946hCatBoost430.8979hMLP414.782hStacking+Mix412.56/评价准则:平均绝对误差MAE=11.1 二手车交易价格预测二手车交易价格预测(9)小结)小结数据清洗:数据清洗:数据的预处理,消除缺失数据和异常数据的影响。特征工程:特征工程:直接影响了最终模型的精度,是数据处理的重要环节。模型融合:模型融合:“集思广益”,能够一定程度上提高最终结果的准确率。数据分析与预处理特征工程融合模型建立