数据质量评估与提升方法及应用研究.docx

上传人:a**** 文档编号:4146 上传时间:2017-10-20 格式:DOCX 页数:69 大小:830.94KB
返回 下载 相关 举报
数据质量评估与提升方法及应用研究.docx_第1页
第1页 / 共69页
数据质量评估与提升方法及应用研究.docx_第2页
第2页 / 共69页
点击查看更多>>
资源描述

《数据质量评估与提升方法及应用研究.docx》由会员分享,可在线阅读,更多相关《数据质量评估与提升方法及应用研究.docx(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 上海交通大学硕士学位论文 数据质量评估与提升方法及应用研究 硕 士 研 究 生 : 唐继仲 学 号 : 1121209083 导 师:蒋炜教授 申 请 学 位 :管理学硕士 学 科: 工商管理 所 在 单 位 : 安泰经济与管理学院 答 辩 日 期 : 2015 年 5 月 授予学 位单位 : 上海交通大学 Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Master DATA QUALITY ASSESSMENT AND IMPROVEMENT: METHODS AND APPLICATIO

2、N Candidate: Jizhong Tang Student ID: 1121209083 Supervisor: Prof. Wei Jiang Academic Degree Applied for : Master of Management Speciality: Business Administration Affiliation: Antai College of Economics & Management Date of Defence: May, 2015 Degree-Conferring-Institution: Shanghai Jiao Tong Univer

3、sity 上海 交 通大学学位 论 文 I 数据质量评估与提升方法及应用研究 摘要 在数据的产生、存储、传输的过程中,难免会出现错误数据、缺 失 数据等问题,数据的存在是因为它的价值,有些数据用作证据,有 些 数据用来做分析和预测;不管数据的作用是什么,如果数据出现错 误、 缺失以及其他问题, 都会降低数据存在的价值, 有时甚至带来深 重 的灾难。因此,确保数据的高质量,是有效利用数据的基础。近年 来, 数据呈现爆炸式增长, 人们对大数据的热情与日倶增, 很多人努 力 寻找更好的数据分析方法,很少人注重数据质量问题,对数据质量 进 行研宄的文章比较少。 本文通过对数据质量管理研究的文献进行梳

4、理,总结在这方面的研宄成果,重点讨论了数据质量评估和数据质量 提升方法,将聚类和分类方法引入到数据质量评估过程中,列举并比 较了几种常见的聚类和分类方法,探索了这两种方法在数据质量评估 的可行性, 将测量工具分析方法 Gage R&R 以及方差分析法用于可行 性分析,最后简单介绍了针对不同的数据质量问题应该采用的提升方 法。以消费者投诉数据为实例研宄对象,选择 K-means 聚类对数据进 行 质量评估,聚类数对应于待检验的人工分类数,每个聚类簇的名称 与 人工分类的名称相对应,再建立评估矩阵,采用 Van Rijsbergen 的 上海 交 通大学学位 论 文 FI 值理论得到评估值,再用测

5、量工具分析方法对这些评估值分析,发 现聚类分析方法有可能用于数据质量评估。在数据质量提升方面,对 于非标准化数据的质量提升做了详细介绍,采用关键词匹配的方法实 现了数据标准化。经过对数据的探索以及质量评估,对数据质量管理 提出了一些建议,将数据质量管理分为三部分:数据库设计阶段、数 据生产过程、数据生产后处理。 关键 词:数据质量管理、 K-means 聚类、 GageR&R、投诉数据 上海 交 通大学学位 论 文 HI DATA QUALITY ASSESSMENT AND IMPROVEMENT : METHODS AND APPLICATIONS ABSTRACT In data pro

6、duction, storage and transmission processes, there are inevitably data problems, missing data and other issues. The existence of the data is due to its value, some data is used as the evidence, others is used for analysis and forecasting. Whatever data is used for, if the data has error, missing or

7、other problems, the value of the data will be reduced, sometimes even brings huge losses, so ensuring data high quality is the foundation of the effective use of data. In recent years, data has gotten explosive growth, which has been increasing peoples interest in big data, most of people always fin

8、d better methods to analyze big data, but few people really care about data quality, which leads to few papers about data quality. In this paper, by reviewing literatures about data quality, I summarized the research achievements in this area, my research is mainly about methods of evaluating data q

9、uality and improving data quality, and apply clustering and categorization in evaluating data quality, introduce and compare some usual-used methods of clustering and categorization, and explore whether they are feasible. As we know, any measurement 上海 交 通大学学位 论 文 4 results have deviation, I apply G

10、age R&R and analysis of variance to evaluate the feasibility of evaluation methods like clustering and categorization, and simply introduce different improvement methods of data quality according to different data quality problems. I take the consumer complaints data as an example and choose K-means

11、 clustering to evaluate its quality, clustering number is equal to artificial classification number, clustering names correspond to artificial classification names, then establish assessment matrix, and use Van Rijsbergens FI value theory to get assessment values, and apply measurement tool analysis

12、 method to analyze these values, finally, I find that clustering analysis methods is feasible for assessing data quality. In terms of data quality improvement, I introduce unstandardized data quality improvement in detail, key-words matching method is adopted to realize the standardization of data.

13、After data exploration and quality assessment, I put forward some suggestions on data quality management, which can be divided into three parts: the database design stage, data production process and data post-processing. KEY WORDS: data quality management, K-means clustering, Gage R&R, complaints d

14、ata 上海 交 通大学学位 论 文 5 目录 m- m . i u 研宄背景 . 1 1.2 研宄意义 . 2 1.3 相关文献回顾 . 2 1.4 本文研宄内容与框架 . 7 1.4.1 研宄内容 . 7 1.4.2 研宄框架 . 8 1.5 本章小结 . 8 第二章数据质量的特点和问题分类 . 9 2.1 数据质量的特点 . 9 2.2 常见的数据质量问题 . 10 2.3 本章小结 . 12 第三章数据质量的评估及提升方法 . 13 3.1 数据质量的评估维度 . 13 3.2 数据质量评估方法 . 14 3.3 分类方法比较及分类效果评估方法 . 15 3.3.1 分类方法比较 .

15、15 3.3.2 分类效果的评估方法 . 17 3.4 聚类方法比较及聚类效果评估方法 . 21 3.4.1 常用聚类距离 . 21 3A2 聚类算法比较 . 24 3.4.3 聚类效果评估方法 . 29 3.5 Gage R&R 测量工具分析 . 30 3.6 数据质量提升的方法 . 32 3.6.1 缺失数据质量提升 . 33 3.6.2 错误数据质量提升 . 33 3.6.3 非标准化数据质量提升 . 33 3.7 数据质量评估和提升体系 . 34 6 上海交通大学学位论 文 3.8 本章小结 . 35 第四章消费者投诉数据质量管理实例 . 36 4.1 数据来源及简介 . 36 4.2

16、 中文分词方法 . 37 4.2.1 中文语句的特点 . 37 4.2.2 常用的中文分词方法 . 37 4.3 数据质量的评估 . 38 4.3.1 K-means 数据质量评估方法 . 38 4.4 数据质量的提升 . 42 4.4.1 地址数据标准化 . 43 4.4.2 公司名称数据标准化 . 44 4.5 消费者投诉数据质量管理流程 . 45 4.6 本章小节 . 46 第五章结论和展望 . 47 5.1 结论 . 47 5.2 展望 . 48 参考文献 . 50 酬 . 56 攻读硕士学位期间已发表或录用的论文 . 57 上海 交 通大学学位 论 文 图录 图 3-1 分类评估过程

17、 . 18 图 3-2 数据质量评估和提升流程 . 34 vn 上海 交 通大学学位 论 文 表录 表 3-1 分类结果矩阵 . 19 表 3-2 定性变量矩阵 . 22 表 3-3 聚类方法比较 . 29 表 3-4 &和欠 2 的值 . 32 表 4-1 聚类结果矩阵 . 41 表 4-2 部分测量值 . 41 表 4-3 地址编码示例 . 43 表 4-4 标准化地址示例 . 44 VIII 上海 交 通大学学位 论 文 第一章绪论 1.1 研究背景 随着信息技术的发展以及人们生活水平的提高,人与人之间的交流越来越频 繁,从 口语交流、书信交流到现在的电子化交流,人们通过电话手机、计算机

18、、 互联网等工具 相互交流,我们进入了互联网时代,而物联网正将我们带入一个物 与物、人与物交流的 时代,在这样的背景下,大量的数据得以产生,特别是电子 化数据,以前很多的数据不 能得到记录和存储,然而电子化数据的记录和存储成 为一种常态。相关统计表明, 2013 年我国产生的数据总量超过 0.8ZB (相当于 8 亿 TB),是 2012 年数据量的两倍,约等 于 2009 年全球的数据总量。据估计,到 2020 年,我国的数据总量将是 2013 年的十倍, 各个行业的数据增长都非常快, 特别是政府、医疗、教育等行业。这几年来,人们对大 数据的热情突然暴涨,不 乏有像 BAT 这些互联网公司把

19、大数据作为公司的发展战略, 开始投资到数据存储、 维护、分析中,希望能从中发掘数据的商业价值,从中建立新的 竞争优势。 数据质量出现问题,会给人们的生活带来方方面面的影响。对于一个国家来 说,可 能影响国家安全,所以我们的国防事业是离不开数据的,更离不开数据质 量。对于公司 来说,影响更是广泛,影响顾客的满意度,增加公司的运营成本, 基于数据的决策,有 时可能将公司带入巨大的陷阱。在医疗体系中,如果数据出 现问题,病人可能因为误诊 而受到伤害。而在食品行业,很多过期食品返回工厂 再修改日期数据就进行再销售。 当然这样的数据质量问题比较普遍,在此就不一一列举了。数据质量问题带 来的影 响宄竟有多

20、大呢?国外一些学者对此做了深入的研宄,在过去的几十年里, 由于传感技 术和通讯技术的普及,电子商务的丰富机会 以及信息管理过程控制的 损失增长,数据质 量问题呈现逐渐增长的态势 83。由于数据输入错误、传感器读 数错误或者更多恶意的 活动提供了在每一代数据中传播错误的数据集。脏数据的 影响是非常严重的,与基于劣 质数据做决策相关的成本大约是一个典型组织收入 的 8%到 12%,更多地非正式推测大约 占服务组织开支的 40%到 60%84。有报道 86称因为零售数据库中的错误价格美国消 费者每年要花费 25 亿美元,而数据质 量对美国经济每年的影响大约占 6000 亿美元 85, 研宄 87表明

21、公司一般期望数 上海 交 通大学学位 论 文 2 据错误大约在 1%_5%范围内。最近 Larry English 认为低劣质量的信息大约花费 一个组织 运营成本的 20% 35%,这些开支用于过程恢复以及信息的修复。也有 研究表明,数 据质量的最佳实践可以提升收入的 66%,如果财富 1000 强的公司能 够平均提高数据应 用的 10%,那么公司的收入预计将增加 20.2 亿美元。虽然针对 数据质量影响的研宄比 较多,但是针对数据质量影响的具体成本的研宄文献则非 常少,这也是未来国际研究的 一个重要。我国学者在数据质量影响的研宄方面还 未起步,特别是量化研宄。 综上所述,应用数据己经成为国家

22、的重要发展方向,而如何评估、如何提升 数据质 量才是应用数据的基础和前提,彼得德鲁克曾经说过 “ 没有度量,就没有 管理 ” ,数据 质量评估是一切与数据相关活动的基础。 1.2 研究意义 我国数据量已经从 GB 级到 TB 级再到 PB 级,在这样一个大数据时代,研宄 数据 质量评估,才能更好地管理数据,比如说,在医疗行业可以应用数据更好地 监测病人的 情况,制定相关的对策,在教育事业方面,则能确保学生的各项考核 指标更为准确,可 以正确地评价他们,根据他们自身的特点,发展他们的特长。 数据质量的评估与提升, 可以从现实数据中发现其中的特点,明白数据在生产过 程中出现了什么样的问题,这样 对

23、于今后如何避免问题、改进数据的生产过程有 很大的借鉴意义,一方面提高了数据生 产的质量,另一方面降低了数据管理的成 本,最重要的是提高了数据的应用价值,这些 提升就提高了数据存在的意义。这 样的情况下,国家、公司、人们开始感受到数据所带 来的优惠,于是他们有了数 据的意识、有了保护数据和应用数据的习惯。长此以往,数 据将从无处可存到数 有所存,这样又追本追溯源地重视数据质量的评估与管理,建立数 据质量的意识 才是数据带来的福利的开始,那种把任何数据拿来,不经过数据质量评估 与提升,就进行数据分析,把得到的结论和预测当成真理,这种危险的行为将不复存在。 1.3 相关文献回顾 目前针对数据质量的研

24、究非常多,不过研宄的重点集中在质量的提升和检测 方法 上,数据质量管理的框架和评估方法也有部分研 宄,还有一小部分放在了数 据生产过程 研究中,数据质量经常被定义为 “ 适合使用 ” 14,比如数据收集来满 足使用者要求的 能力。数据质量的评估维度应该考虑满足使用者需求的程度,使 上海 交 通大学学位 论 文 3 用者的期望是和被选择的服务紧密相连的,而且在同一时间一项服务有不同的特 点,这 依赖于与它相关使用者的类型。数据质量评估过程不得不同时考虑几个方 面,因此选择 一个合适的评估函数来获得一个正确的结果解释。文 22提出了一个 在数据源中的数据 质量分类方法,这个方法区别单数据源和多数据

25、源,也能区别 概要问题和实例水平的问 题。作者概括了数据转换和数据清洗的主要步骤,以及 强调有必要以集成的方式覆盖概 要和实例相关的数据转换。 在文 6中,作者提出了一个评估信息来源质量的标准。考虑到信息来源的质 量常 常会因为几个特别的领域而出现大幅波动,这表明只考虑单个信息来源的质 量评估是不 完美的。文中描述了一个使用双质量的方法,考虑到测量的可靠性和 完整性,用来测量 真实世界中数据库信息之间的距离,然后结合人工检验和统计 方法得到有用的评估数据 库质量, 为了确保评估的可靠性,提出了均匀分割数据 库的方法。数据质量是数据库设 计和应用的关键问题。决策者使用的信息一般来 自异构数据库,

26、为了确定决策者使用信 息的质量特点,有必要确定与多样化数据 源相关的质量特点如何影响数据的质量,文 8 中讨论了确定两个数据质量特点 ( SP 准确性和不完整性)的方面。最后使用代数操作检 测了数据源的质量特征如何影 响生产数据的特征。 越来越多的生命科学家意识到公共的和私人的存储库中的数据质量变动很大, 以及 差数据质量对实验结果的准确性带来很大的影响和威胁。然而没有标准可用 于描述和计 算在这个广泛数据领域的质量水平。在文 53中,作者提出一个为个人 质量处理需求的 规范说的框架,这个东西叫质量观点。这些观点可以被编译成半 自动配置的网络服务, 还可以嵌入到数据处理环境中,其结果是一个很好

27、的质量 管理工具箱,能够促进新质量 组件的快速形成。在文 62中,作者建立了一套数据 质量的前提、术语和定义,开发了 一种循序渐进的数据质量要求分析的方法,形 成了一个基于实体关系的质量模式。提供 了数据质量要求收集和概括的方法,证 明了数据质量是数据库设计过程的一个不可缺少 的部分,提出 了从应用领域向数 据质量管理转变的建议。 在文 72中,作者提出了一个数据库成对记录链接或匹配的最优方案,用于处 理数 据中不一致、错误、缺失的值。现存的记录匹配模型依赖于最小化错误概率 的决策机制, 一个样本被分配到错误的类的概率(一个测量向量)。事实上,虽然 最小化误差概率不 是设计决策规则的标准,因为

28、不同抽样的错误分类也许会产生 不同的结果,作者提出一 个最小化决策成本的决策模型。这个方法对于清除重复 数据有一定的借鉴意义。 上海 交 通大学学位 论 文 4 清除重复记录是数据清洗中最重要的任务之一,这就需要对数据记录进行比 较来 决定它们是否等价。然而,现存的比较方法,比如记录相似度、等价理论, 确实呈现了 我们知道的所有值,并且空值被当为空的字符串,这会导致正确重复 记录的损失。在文 41中,于是作者为了解决这个问题提出一个简单有效的方法, 动态相似度是动态地调 整空值项的相似度。并且通过分析现实数据证明了动态相 似度能取得更多重复记录并且 和记录相似度比较没有出现更多的错误。 检测多

29、个元组的重复数据消除问题,这些元组都是描述同一个现实世界中的 实体, 重复数据清洗是一个重要问题。以前解决这个问题的方法主要依赖于标准 的不同元组之 间的上下文相似度函数。然而,这类方法会导致大量的错误,如果 我们想鉴别特殊领域 的缩写和规则。在文 63中,因此作者提出在在多个数据表中 清除重复的算法。在文 48 中,虚假链接是一种新发现的错误数据,现实世界中的 实体有多个不能和它很好联系的 链接,标准的重复数据清除技术,比如邻近排序 法或优先排序算法,不能发现这样的异 常。虚假链接的存在会导致代表实体数据 记录出现困扰和错误表示。为了解决了这种问 题,作者使用了上下信息 来鉴别虚 假链接,首先寻找那些包含潜在虚假链接的数据记录, 然后确定构成每个记录内 容的属性,通过实例证明这种方法是非常有效的。 记录链接可以确定当两个记录描述同一个实体的问题,记录链接既用于重复 数据 清洗问题和多个数据源的集成问题。传统方法使用相似度测量元组的属性值 ; 相似度得 分超过一定阀值的元组则被认为是匹配的或重复的。虽然这个方法能在 很多领域表现很 好,特别是应用于噪声数据不多的数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁