《大数据中数据的质量问题探析.docx》由会员分享,可在线阅读,更多相关《大数据中数据的质量问题探析.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据中数据的质量问题探析刘妍东摘 要:随着云时代的来历,大数据技术也越来越引起人们的关注。大数据带来的巨大的技术和商业机遇使众多的企业趋之若鹜。大数据分析挖掘和利用将为企业带来巨大的商业价值,但随着数据规模的急剧剧增,数据体量巨大、数据类型繁多,数据的价值参差不齐,在数据分析时将导致分析偏差。所以在大数据时代,数据的质量问题也是重中之重。通过分析,数据的质量问题主要存在这六大方面的问题:准确性、完整性、一致性、相关性、时效性、可信性和可解释性。关键词:大数据;质量问题中图分类号:TB 文献标识码:A doi:10.19311/ki.1672-3198.2020.04.0921 从采集的角度划
2、分质量问题1.1 准确性准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。例如,某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。如果用户提供的证件号码与实际号码一致,那么该号码存储在数据库中的值就是正确的。数据的不准确由如下原因造成:一是在收集数据时,设备出现故障,导致数据存储的值出现乱码。二是在数据输入时,人为的输入不准确的信息,或者计算機内部出错导致录入的信息有误,比如我们上网注册一些信息时,出于隐私考虑,用户会故意输入不正确的信息,包括年龄、地址、手机号等。 三是在数据传输的过程中出现错误。比如,超出了传输缓冲区的大小,数据会出现截断等现象。
3、最后一种是命名约定、数据代码、输入字段的格式不一致导致出错。其中,最常见的是:不按格式输入导致出错,例如输入字段为日期时,多个用户输入日期的格式不一致。1.2 完整性完整性是指信息具有一个实体描述的所有必需的部分。在传统关系型数据库中,完整性通常与空值(NULL)有关。空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。不完整的数据对数据分析会产生影响,比如考虑构造一个预测交通事故发生率的模型。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的数据信息。1.3 一致性数
4、据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。比如表1描述学生的基本信息,包括学号、姓名、性别、出生日期和所在专业,而所在专业必须从专业信息表获取。表2描述了专业的基本信息。从这两个表可以看到,表1中的学生李想所在的专业号并没有出现在表2中,说明该条记录的专业号有误,必须修改正确,才能保证两张表对应字段的正确性,这是数据的逻辑不一致。 数据不一致还体现在记录的不规范上,比如两个表中对日期的格式记录不一致,如20100405和2019年4月5日这两种格式,会导致在数据集成中造成数据冲突。另外在数据出现冗余的情况下,数据内容由于各种原因比如并发控
5、制不当,或程序故障导致前后数据不一样也是造成数据不一致的原因。2 从应用的角度划分质量问题2.1 相关性数据的相关性是指数据与特定的应用和领域有关。与数据相关的应用场景一般有,比如进行数据挖掘或构造模型预测时,需要采集相关的数据。例如考虑构造一个模型,预测交通事故发生率。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的相关的数据信息。另外一个相关性的质量问题表现在相同的数据,在不同的应用领域中,相关性也是不一样的。例如,对于某个公司的大型客户数据库,由于时间和统计的原因,顾客地址列表的正确性为80%,
6、其他地址可能过时或不正确。当市场分析人员访问公司的数据库,获取顾客地址列表时,基于目标市场营销考虑,市场分析人员对于该数据库的准确性满意度较高。而当销售经理访问该数据库时,由于地址的缺失和过时,对该数据库的满意度较低。2.2 时效性数据的时效性是指有些数据会随时间而变化的,这些数据收集后就开始老化,使用老化后的数据进行数据分析、数据挖掘,将会产生不同的分析结果。 如商品推荐。顾客的当时购买行为或Web浏览行为称为快照,它只代表有限时间内的真实情况。如果数据已经过时,则基于它的模型和模式也就已经过时,所以进行商品推荐需要采集当前的数据进行分析和推荐。在这种情况下,我们需要考虑重新采集数据信息,及
7、时对数据进行更新。另应用场景是城市的智能交通管理。以前没有智能手机和智能汽车,很多大城市虽然有交管中心,但它们收集的路况信息非常滞后。用户看到的,可能已经是半小时前的路况了,那这样的信息就没有什么价值。但是,能定位的智能手机普及以后可就不同。很多用户开放了实时位置信息,做地图服务的公司,就能实时得到人员流动信息,并且根据流动速度和所在位置,区分步行的人群和汽车,然后提供实时的交通路况信息,给用户带来便利。这就是大数据的时效性带来的好处。3 从用户的角度划分质量问题3.1 可信性数据的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的时间。例如新浪微博某一用户发布的微博内容是否具有
8、可信性,首先确定数据来源是否具有权威性,如果是权威机构的数据,那么可信度比较高。如果微博字数较长且叙述比较详细,可信度也会增加。同时微博的发布时间是否接近实时,也影响数据的可信度。3.2 可解释性数据的可解释性,也称为可读性,是指数据被人理解的难易程度,如果数据具有解释性或包含有注释性信息,而且数据书写规范,则数据的可解释性越高。相反如果数据晦涩难懂就根本不具备分析的条件。当我们在数据采集和处理时能处理好这六种数据质量问题,则在大数据分析中,就会得到正确及实用的信息。参考文献1朱慧明.大数据背景下电商运营课程教学改革研究J.现代商贸工业,2019,(32).2张余丹.大数据时代在线教育平台商业模式浅析J.现代商贸工业,2019,(21).