《DB5227∕T 112-2022 智慧黔南 数据质量评价规范(黔南布依族苗族自治州).pdf》由会员分享,可在线阅读,更多相关《DB5227∕T 112-2022 智慧黔南 数据质量评价规范(黔南布依族苗族自治州).pdf(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、ICS35.240.01CCS L 705227黔南州地方标准DB 5227/T 1122022智慧黔南 数据质量评价规范Smart qiannan-Data quality evaluation standard2022-12-16 发布2023-04-01 实施黔南布依族苗族自治州市场监督管理局发 布DB 5227/T 1122022I目次前言.II1范围.12规范性引用文件.13术语和定义.14数据质量评价总体流程.25数据质量评价要求.35.1确定业务目标和要求.35.2剖析待评价数据.45.3明确数据质量评价指标.55.4设计质量校验规则.55.5配置质量校验规则.95.6评估数据质
2、量并输出报告.96整改问题数据.117数据共享开放工作流程.11附录 A(资料性)表级计算得分示例.12附录 B(资料性)部门级计算得分示例.13附录 C(资料性)数据质量报告样例.14C.1数据质量情况分析.14C.2数据质量得分及排名对比.14C.3数据异常响应问题变化趋势.15C.4问题数据整改建议.15附录 D(规范性)黔南州数据共享开放工作流程.17参考文献.18DB 5227/T 1122022II前言本文件按照GB/T 1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由黔南州
3、大数据发展管理局提出。本文件由黔南州大数据发展管理局归口。本文件起草单位:黔南州大数据发展管理局、黔南州市场监督管理局、都匀市大数据发展服务中心、广西大学计算机与电子信息学院、黔南民族师范学院、北京东方国信科技股份有限公司、中国电信股份有限公司黔南分公司。本文件主要起草人:潘志刊、杨宗俊、颜家远、刘超、黄子吉、何晓慧、陈文涛、宋俊、李怡青、董婧、殷文辉、左为、韦广柱、刘峻、李明江、周锦程、张永丽、胡嘉斌、宋佳南、杨森、传洪波。DB 5227/T 11220221智慧黔南 数据质量评价规范1范围本文件规定了智慧黔南数据质量评价规范的全流程,包括数据质量评价总体流程、数据质量评价要求、整改问题数据
4、、数据共享开放工作流程。本文件适用于智慧黔南数据质量评价规范的具体实施工作,为各行业各部门评价数据质量提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1 信息技术词汇第1部分:基本术语GB/T 5271.17 信息技术词汇第17部分:数据库GB/T 36344 信息技术数据质量评价指标3术语和定义GB/T 5271、GB/T 36344界定的以及下列术语和定义适用于本文件。3.1数据关于数据或数据元素的数据(可能包
5、括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T 5271.172010,17.06.053.2元数据关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T 5271.172010,17.06.053.3数据质量在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T 363442018,2.33.4原始数据终端用户所存储使用的各种未经过处理或简化的数据。来源:GB/T 363442018,2.4DB 5227/T 112202223.5数据集具有一定主题,可以标识并可以被计
6、算机化处理的数据集合。来源:GB/T 363442018,2.63.6数据质量校验对数据质量进行校对、核查的过程。3.7数据质量评价指以原始数据为基础,充分考虑数据之间的相关性、匹配性、逻辑性,采用科学方法对数据的规范性、完整性、准确性、一致性、时效性、可访问性进行判断和分析,对可能存在的数据质量问题进行追溯和核实,对数据进行确认的过程。3.8数据标准数据的命名、定义、结构和取值范围方面的规则和基准。来源:GB/T 363442018,2.83.9数据剖析用适当的统计、分析等方法对原始数据进行分析,对其特征加以汇总和理解,以求最大化地开发数据的功能,发挥数据的作用。4数据质量评价总体流程数据质
7、量评价流程可保证数据质量评价整个过程的有序及有效进行,具体流程如图1所示:DB 5227/T 11220223图 1数据质量评价流程5数据质量评价要求5.1确定业务目标和要求内容包括但不限于:项目的背景、计划和目标;数据存在的具体问题;问题数据的产生,例如流程、组织、技术等;DB 5227/T 11220224问题数据解决的优先次序。5.2剖析待评价数据内容包括但不限于:数据的元数据信息,例如数据名称、数据格式、数据类型、数据精度等。数据值的分布信息,例如主键唯一性、缺失值、取值范围、异常符号等。设定字段的级别,按业务重要性程度和数据问题的严重性程度对原始数据进行业务影响分级,分为一级、二级、
8、三级。三级级别最高,重要程度分类方式如下:三级:业务主键;二级:数值型、日期型、文本类表示的日期字段,短文本类字段(如名称、地址、代码、类型等特征字段),权威数据来源字段;DB 5227/T 11220225一级:空值率大于80%、其他类型字段,如:源业务系统字段、长文本描述类型字段。5.3明确数据质量评价指标数据质量评价指标划分为:完整性、一致性、准确性、合理性、唯一性与及时性六个维度。其中,完整性、一致性、准确性应符合GB/T 36344的规定。5.4设计质量校验规则5.4.1制定校验规则5.4.1.1概述根据质量评价指标制定12项质量校验规则,对数据质量进行计算、评分,质量评价指标和校验
9、规则的对应关系见表1。表 1质量评价指标对应的质量校验规则表序号质量评价指标质量校验规则1完整性字段完整性校验空值校验2记录数校验3参照校验-双向校验4一致性一致性校验5准确性值域校验6格式校验7参照校验-单向校验8合理性逻辑校验9波动性校验10关系校验11唯一性重复校验12及时性记录数校验5.4.1.2完整性DB 5227/T 11220226按照数据规则要求,数据元素被赋予数值的程度,包括数据元素的完整性和数据记录的完整性。对应的规则为:字段完整性校验、空值校验、记录数校验、参照校验-双向校验,完整性评价指标见表2。表 2完整性校验规则序号一级指标二级指标指标描述计算公式1完整性字段完整性
10、校验对业务表的字段完整性校验,检查字段个数和字段名称是否完整。X 1 AB 100%A=数据内容不符合字段完整性的数据记录条数B=数据记录总数2空值校验对非空字段检查填充率是否为100%,数据内容是否完整。X 1 AB 100%A=数据内容为空的数据记录条数B=数据记录总数3记录数校验通过当前校验表中的记录数是否在预先设定的范围内,来验证数据记录的完整性。记录条数在设定的范围内得满分 100,不在范围内得 0 分4参照校验-双向校验验证校验数据包含在参照数据中的程度,以及参照数据包含在验证数据中的程度,即检验校验数据和参照数据相互包含的程度。X 1 AB 100%A=数据内容与参照数据相互不包
11、含的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.3一致性数据与其他特定上下文中使用的数据无矛盾的程度,包括相同数据一致性和关联数据一致性。对应的规则为一致性校验,一致性评价指标见表3。表 3一致性校验规则序号一级指标二级指标指标描述计算公式1一致性一致性校验对分布在不同库表中的相同数据项进行一致性检查,包括对照原始数据和目标数据,检查在数据迁移过程中是否存在数据错误、丢失。一致性检查包括:单表单行校验、单表汇总校验、双表汇总校验和双表单行校验四种。单表单行校验:X 1 AB 100%A=校验列中与参照列中数据内容不一致的数据记录条数B=数据记录总数单表汇总校验:校验列数据汇
12、总值和参照列数据汇总值一致得满分100,不一致得0分双表汇总校验:校验表与参照表关联后校验列数据汇总值和参照列数据汇总值一致得满分100,不一致得0分双表单行校验:X 1 AB 100%A=校验表与参照表关联后校验列数据和参照列数DB 5227/T 11220227序号一级指标二级指标指标描述计算公式据内容不一致的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.4准确性数据准确性表示其所描述的真实实体(实际对象)真实值的程度,包括数据内容正确性、数据格式合规性、脏数据出现率。对应的规则为:值域校验、格式校验、参照校验-单向校验,准确性评价指标见表4。表 4准确性校验规则序号一级
13、指标二级指标指标描述计算公式1准确性值域校验校验数据的值是否在预设的范围内,数据内容是否是预期数据。例如人的年龄是否在合理范围内。X 1 AB 100%A=数据内容不在预设的范围内的数据记录条数B=数据记录总数2格式校验对字段值的格式进行校验,主要包括编码格式校验,日期、时间格式校 验(YYYY-MM、YYYY-MM-DD、YYYY-MM-DD HH:MI:SS),电话格式校验(手机号格式、固定电话格式)等。X 1 AB 100%A=数据内容不符合规范格式的数据记录条数B=数据记录总数3参照性校验-单向校验校验数据在参照数据中的包含程度,度量数据中是否包含无效的数据。X 1 AB 100%A=
14、数据内容不包含在参照数据的范围内的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.5合理性根据数据之间的业务逻辑合理的程度,对应的规则为:逻辑校验、波动性校验、关系校验,合理性评价指标见表5。表 5合理性校验规则序号一级指标二级指标指标描述计算公式1合理性逻辑校验逻辑校验检查数据是否满足一定条件的要求,判断所得结果是否合理。逻辑校验检查数据是否满足一定条件的要求。分为单行逻辑、维度汇总统计和维度统计记录数三种。单行逻辑校验:X 1 AB 100%A=数据内容不符合的逻辑关系的数据记录条数B=数据记录总数维度汇总统计校验:维度汇总结果存在得满分100,不存在得0分DB 5227/
15、T 11220228序号一级指标二级指标指标描述计算公式维度统计记录数校验:维度汇总结果个数大于0得满分100,等于0得0分2波动性校验波动校验通过对两段不同时期数据的比较,检验数据波动情况是否合理。波动校验分同比校验、环比校验和占比校验三种子校验。同比校验:C A BBA=本统计周期数据之和B=历史同一统计周期数据之和C=同比值当C超出预先设定的阈值得0分,未超出得满分100统计周期:年:某年度数据与上一年度数据波动校验季:某季度数据与上一年同一季度数据波动校月:某月数据与上一年同一个月数据波动校验日:某日数据与上一年同一日数据波动校验环比校验:C A BBA=本统计周期数据之和B=上一个统
16、计周期的数据之和C=环比值当C超出预先设定的阈值得0分,未超出得满分100统计周期与本文件第5.4.1.5章节“同比校验”中统计周期划分一致占比校验:C ABA=校验数据某一周期维度值下的校验数据之和B=校验数据总和C=占比值当C超出预先设定的阈值得0分,未超出得满分100统计周期与本文件第5.4.1.5章节“同比校验”中统计周期划分一致3关系校验检查具有业务关联关系的数据之间的联系是否合理,是否具有与业务规则一致的联系。X 1 AB 100%A=校验列数据不符合参照列数据两者关联关系运算的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.6唯一性DB 5227/T 112202
17、29特定字段、记录、文件或数据集唯一性的度量。对应的规则为:重复校验,唯一性评价指标见表6。表 6唯一性校验规则序号一级指标二级指标指标描述计算公式1唯一性重复校验校验某一或多个校验列数据是否有重复数据,对不能重复的数据进行的唯一性检查X 1 AB 100%A=数据内容重复的数据记录条数B=数据记录总数注:X代表数据质量评价值5.4.1.7及时性数据的加工是否满足时效性要求。对应的规则为:记录数校验,及时性评价指标见表7。表 7及时性校验规则序号一级指标二级指标指标描述计算公式1及时性记录数校验校验某一更新周期内数据量是否变化,以此来判断数据的推送是否及时。在更新周期内数据量有变化得满分100
18、,无变化得0分5.4.2定义规则权重定义规则权重根据数据剖析阶段确定的字段的重要程度来定,由高到低分别为3、2、1,重要程度越高的字段权重越高,即三级字段权重为3,二级字段权重为2,一级字段权重为1。其中,同一字段的所有规则的权重都相同,如果是多个字段关联的规则取权重低的作为此规则的权重。5.5配置质量校验规则将三级和二级字段与已有的数据标准进行映射,查看是否有对应的标准:对已有数据标准的字段,按标准配置稽核规则;对没有数据标准的字段,根据剖析阶段得出的字段的数据特征设计稽核规则。将校验规则配置至系统平台中,其中应注意:宜对数据清洗前和数据清洗后的数据表配置校验规则,以便通过对清洗前后校验结果
19、进行分析和改进;当有多个校验规则时,每一个字段配置一个校验规则;通过设置权重,优化校验结果;在时间充足的情况下,宜配置规则说明。5.6评估数据质量并输出报告5.6.1概述数据质量评价分3个层次:规则级、表级、部门级。5.6.2制定评分规则DB 5227/T 1122022105.6.2.1规则级计算公式各类数据质量校验规则得分的计算公式,应符合5.4.1的规定。5.6.2.2表级计算公式表级得分均遵循下列计算公式进行计算得出:T 1WWsum(1)式中:T表的数据质量评价值;第个规则;规则总数;第个规则的得分;W第个规则的权重;Wsum总权重。示例:一个表有 3 个字段,每个字段都有 5 个规
20、则,其中有 10 个 3 级权重,5 个 2 级权重,总权重就是 40。表级计算得分的示例,见附录A。5.6.2.3部门级计算公式部门级得分均遵循下列计算公式进行计算得出:Gj1NTjN(2)式中:G部门的数据质量评价值;j第 j 个表;N表的总数;Tj第 j 个表的得分。部门级计算得分的示例,见附录B。5.6.3评定质量等级数据质量等级按照数据质量评分区间划分三个等级,由高至低分别为质优、质中、质差,等级的评价分值如下:质优:80 质量得分 100;质中:60 质量得分 80;质差:质量得分 60。5.6.4输出数据质量报告DB 5227/T 112202211数据质量报告的样例见附录C。6
21、整改问题数据系统平台根据校验规则对原始数据进行校验,生成数据质量报告,并将问题数据推送至数据提供方,由数据提供方对问题数据进行整改,处理后的数据重新接入,并进行数据校验,生成新的数据质量报告,可重复执行以上步骤直至整改到没有问题数据。整改问题数据的流程见图2。图 2问题数据整改流程7数据共享开放工作流程各部门开展数据共享开放工作,应符合附录D的规定。DB 5227/T 112202212AA附录A(资料性)表级计算得分示例表 A.1 某表的得分字段对应规则内容评价指标校验规则重要程度规则权重规则评分联系人身份证号不能为空完整性空值校验三级398.93联系人身份证号格式须符合标准要求准确性格式校
22、验三级379.08殡葬场所名称不能为空完整性空值校验二级294.54殡葬场所名称须由中文组成准确性格式校验二级298.78根据表A列出的某表各字段的规则得分,计算该表的得分。根据5.6.2.2给出的计算公式,计算过程如下:T 1WWsum 98.93 310 79.08 310 94.54 210 98.78 210 92.06即:该表的数据质量评价得分为92.06。DB 5227/T 112202213BB附录B(资料性)部门级计算得分示例表 B.1 部门的各表得分部门名称表名表的评分公安局归集层_公安局_户籍信息91.93归集层_公安局_流动人口信息89.08归集层_公安局_暂住证信息84
23、.54归集层_公安局_犯罪记录信息78.78根据表B列出的各表的得分,计算该部门的得分。根据5.6.2.3给出的计算公式,计算过程如下:Gj1NTjN91.93 89.08 84.54 78.784 86.08即:该部门的数据质量评价得分为86.08。CCDB 5227/T 112202214附录C(资料性)数据质量报告样例黔南州XXX局XXXX年XX月数据质量报告C.1数据质量情况分析截至202X年X月X日,黔南州XXX局数据质量得分为63分,质量为中等。共检测了XX表、XX表、XX表共X个;其中质优表对象X个,质中表对象X个,质差表对象X个。涉及X个质量评估维度,其中,完整性得分XX,一致
24、性得分XX,准确性得分XX,合理性得分XX,唯一性得分XX,及时性得分XX。C.2数据质量得分及排名对比C.2.1黔南州XXX局数据质量得分变化趋势:C.2.2各表数据质量得分排名:DB 5227/T 112202215C.3数据异常响应问题变化趋势将质量稽核规则分为六大类进行问题率的统计,下图是黔南州XXX局涉及的数据准确性、完整性问题率变化趋势图:C.4问题数据整改建议黔南州XX局的数据存在以下问题,建议整改:1)XX 表:名称不规范的有 XX%,日期格式不对的有 XX%,手机号码长度不对的有 XX%。DB 5227/T 1122022162)XX 部门:XX 表数据出现完整性问题,建议自行恢复数据,人工恢复得 XX 分,自动恢复得 XX 分。DB 5227/T 112202217DD附录D(规范性)黔南州数据共享开放工作流程黔南州数据共享开放有关资料已挂载黔南州人民政府网站“黔南大数据”专题网页(http:/ 5227/T 112202218参考文献1 陶凯,杨文,杜中,刘国跃.轨道检测数据集成存储与数据质量评价J.铁道建筑,2019,59(9):116-1202 程芳,赵彦庆,李鸿飞,董玮.基于业务规则的数据质量管理方法研究J.标准科学,2018,(2):117-1203 张宁,袁勤俭.数据质量评价述评J.情报理论与实践,2017,40(10):135-139