《国有银行数据治理实战经验全解.docx》由会员分享,可在线阅读,更多相关《国有银行数据治理实战经验全解.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、国有银行数据治理实战经验全解经历过的人都知道,国有银行的数据治理困难重重,面临着上头有 监管、领导瞎指挥、平级部门不配合、下级单位自己玩等状况,缺 少成熟的思路指导和成功的经验参考。为了打破这一现状,接下来 我们将引用郑保卫博士财务数据治理实战一书中关于国有银行 数据治理的成功案例,供业内人士研究探讨。2020年4月,中共中央、国务院颁发关于构建更加完善的要素 市场化配置体制机制的意见,首次明确将数据纳入生产要素,习 近平总书记进一步强调了 “要构建以数据为关键要素的数字经济,发 挥数据的基础资源作用和创新引擎作用”的要求,为全社会树立数据 治理的正确理念,为推进数据管理和应用工作指明了方向。
2、2018年,银保监会发布银行业金融机构数据治理指引,明确了 商业银行推进和完善数据治理工作的工作方针。而早在2011年, 银保监会就已经通过颁发银行监管统计数据质量管理良好标准 等文件对商业银行开展数据质量管理工作提出要求。针对银保监会的监管要求,某国有银行结合自身业务发展和管理提 升需要,其总行党委高度重视全行数据治理工作,并于2020年5 月正式成立总行数据管理与应用部,以“夯实基础、以用带建、问题 导向”为总纲,全面统筹推动数据治理项目。该行数据管理与应用部自成立以来,始终紧紧围绕数据体系面临痛 点与难点,按照行领导要求,全面规划并推进数据治理的组织、制 度、标准以及中台建设,搭建企业级
3、数据标准体系,推动形成全行 数据治理体系,以数据治理赋能全行数字化转型。数据治理核心领域实践项目的范围包括以下部分:一是盘点全行数据资产。采集全行业务系统元数据,识别自身数据 资产,构建企业级数据资产目录,以便于数据架构师、数据分析师 等数据人员更好地查找和理解数据。与此同时,归纳形成企业级数 据词根词典,为后续标准编写打下基础。流程域:在质量问题发生的不同阶段明确相关部门要去做什么和怎 么做,同时通过流程实现数据质量的痕迹化管理,将数据质量工作 从阶段性治理逐渐转变成常态化工作,推动数据质量管控的贯彻执 行。技术域:以主数据锚定数据架构链路管理,解决数源冲突和矛盾; 数据模型在数字化环境准确
4、映射业务规则,并起至入仓入湖”质量守 门员的作用;元数据作为数据的数据,让数据管理部门和开发部门 可以通过血缘分析追溯定位质量问题的源头;最后通过质量校验规 则辅以质量检查完成最后管控闭环。4)体:数据质量管控体系以质量问题的发生场景为点,数据全生命周期链路为线,四大管控 域为面,提炼形成了数据质量管控体系。自此,数据质量的管理不 再盲目、散乱,而是从宏观角度出发,有体系、有支撑地进行数据 质量管控。二是建立企业级数据标准。统筹做好存量系统与新建系统的标准衔 接,提升数据管理的规范化水平,以企业级数据字典为核心,形成“两 套标准,一套规范”的数据标准体系,有序推进数据标准落标。三是搭建数据治理
5、平台。数据治理平台作为数据治理的统一门户, 集中展示数据治理成果以及数据治理过程中的各类流程管理工作, 实现跨部门的流程贯通。平台包括数据标准管理、数据资产查询、 数据质量检核、数据分类分级及其他具体功能模块。四是建设数据建模工具,深入推进数据标准的落标工作。将数据标 准与开发流程相结合,保证开发项目组的便捷化落标,保障数据标 准管控深度嵌入开发流程,并在接口发布等过程中完成数据标准的 检核,实现数据标准的真正落地。五是建设数据质量管理工具。以平台工具为支撑,探索数据质量闭 环管控机制,并以业务关键问题为出发点,持续梳理数据质量检核 规则,推动实现数据质量问题发现、分析、解决、监控的线上化、
6、流程化管理。(1)构建企业级数据标准体系构建标准体系一般是将此前系统级、项目级的数据标准拓展至全领 域、企业级范围,着力解决物理命名不规范、业务定义不明确、业 务口径不统一等问题。标准的构建需要将业务部门、数据管理部门、 开发实施部门之间的工作在数据标准的内容层面衔接起来,兼顾各 部门的职责,发挥各部门的特点,既同心合力,又分工明确。在此 过程中,只有业务部门深入参与,才能真正做好标准体系的构建, 也只有针对业务自身需求进行的治理,才能得到业务部门的认可和 支持。为此,项目所构建的数据标准体系分为业务术语、数据标准和数据 字典。业务术语是指全行各部门在业务和技术活动中对自身所产生 数据项的业务
7、定义。业务术语一般包括概念定义、规则说明、统计 口径和质量规则等要素,分为基础业务术语和指标业务术语两类。 数据标准是指基于全行数据管理、使用和共享的目的而编制的标准 化数据项规范,分为基础数据标准和指标数据标准两类,分别是对 基础业务术语和指标业务术语的标准化和规范化,其中基础数据标 准涵盖枚举代码标准。数据字典是指为统一管理全行信息系统的数 据模型所制定的表结构和字段定义规范,是技术部门在信息系统开 发过程中的参照标准。数据字典一般包括数据命名、数据类型、数 据长度和取值范围等要素。(2)打造治理平台数据治理平台是数据中台的一个重要组成部分。数据中台主要由计 算平台、服务平台、分析平台和数
8、据治理平台四大平台构成,结合 开发端一体化协同研发平台及业务应用系统与应用前台,组成了从 数据加工、存储、治理到服务的完整体系,用户面向全行员工。整个数据中台基于“4U”原则建设。“4U”指的是数据统一采集、统一标 准、统一加工、统一服务。通过数据计算平台进行数据的整合以及 指标的统一加工,实现各域各场景下的数据指标口径统一;通过数 据服务平台实现数据的统一联机及批量服务共享;通过数据分析平 台支持业务人员安全、快速取用数据,挖掘数据价值;通过数据治 理平台支撑数据标准的流程化管理。数据治理平台参考了 DAMA数据治理体系、DCMM以及2021年 中国人民银行发布的金融业数据能力建设指引等理论
9、框架,形 成以数据战略、数据架构、数据应用、数据质量、数据治理、数据 标准、数据安全与数据生命周期八个核心能力域为基础划分的治理 平台。数据治理平台的部分应用架构如下图所示。数据治理平台应用架构图示例数据标准管理是整个数据治理工作的起点也是其最重要的部分,由 项目组牵头,通过对数据去重、筛查和甄别,核定业务过程各类数 据项的业务术语和口径,参考人民银行指引实施数据分类分级,从 而形成全行企业级数据标准,并且在数据标准基础上制定数据字典, 配套数据模型管控工具,使开发人员在模型设计时可直接使用数据 标准进行建模,从而在实现建模的同时完成落标管控。数据质量是数据治理成果的集中体现,数据质量提升是一
10、个持续的 过程,针对外部监管和内部经营反馈的各种数据问题逐步充实数据 质量规则库,制订数据质量提升计划,对源头数据进行检核,从而 针对不同数据问题的原因进行程序改造或问题数据修正。数据资产是企业及组织所拥有或控制的,预期能给企业及组织带来 经济利益的数据资源,目前数据治理平台的数据资产包含元数据、 零售标签、报表资产和外部数据。该行业务系统的库表结构信息已经导入元数据管理模块,并对其中的中文表名和字段名进行了完善, 形成该行的技术元数据基础库。未来将不断丰富数据资产内容,提 供更便捷的数据资产使用服务,提升数据资产使用体验,打造以用 户体验为核心的数据资产目录。1)数据治理平台与其他系统间的关
11、系任第擀河数据治理平台与其他系统的关系示意图元数据采集是在源系统生产环境部署元数据采集程序,自动采集以 库表结构信息为主的技术元数据。考虑到生产系统的安全性,治理 平台不直连源系统数据库,而是通过治理平台制定元数据采集接口 格式,各个源系统自行按接口格式导出元数据信息,最后由行内数 据交换系统传送至数据治理平台的方式实现元数据自动采集。数据 标准贯入是将数据标准贯入数据建模系统,以便开发人员在需求开 发的数据建模阶段就能通过建模系统完成落标工作。另外,将数据 建模作为开发过程的必备步骤,嵌入开发流程,完成落标管控的同 时又实现了元数据的管控。资产共享权限信息是由数据治理平台统一维护业务用户的数
12、据使用 权限,管控范围包括标签库和指标库的数据使用权限,该权限适用 于包括BI分析应用、外部数据平台等所有数据访问平台。权限管 控分为数据授权和访问控制两个环节。其中,数据授权的主管部门 为业务部门,负责在治理平台进行权限分配和回收,访问控制由应 用平台实现,对接治理平台获取用户数据权限进行实际的数据访问 控制。质量规则分发和结果回收是在治理平台的质量检核系统中进行质量 规则管理,根据所选取的质量规则生成质量检核执行语句分发到计 算平台执行,同时将执行结果返回给质量检核系统。业务人员可以 制订质量提升计划,选择需要执行的质量规则,并查看执行后返回 的错误明细数据,从而制定问题解决方案。需求阶段
13、检标要求业务人员在需求提出环节使用数据标准提出数据 需求,比如新增报表时的报表数据项应该使用数据标准定义的名称, 若现有标准不能覆盖需求,则同时提出新建数据标准的需求。此项 内容正在需求讨论阶段,待下一期实现。数据报告为应用系统提供数据资产查询接口,接口内容包括技术元 数据详细信息、基础标准详细信息、指标标准详细信息和零售标签 详细信息等。应用系统可直接调用相应接口获取详细信息。2)数据标准数据标准是企业各部门共同的“数据语言”,是打破“数据孤岛”的关键, 也是近几年监管关注的重点领域。对于传统的大型企业,实现数据 标准统一绝非易事一一既要面对业务动态调整中的新建系统,也要面 对数量庞大的存量
14、系统和既有库表;既要适应业务部门的需求编写 方式,也要符合开发部门的开发原则。在这样的语境下,数据标准 体系需要逐步演进,并包含业务术语、数据标准、数据字典的多层 结构。业务术语对应业务部门对自身业务的提炼,数据标准对应数 据管理部门对业务术语的标准化与规范化,数据字典对应技术部门 在系统开发中的物理落地。数据标准模块主要由业务术语,数据标 准、数据字典三部分组成。业务术语是指全行各部门在业务和技术活动中对自身所产生数据项 的业务定义。业务术语一般包括概念定义、规则说明、统计口径和质量规则等要 素,分为基础业务术语和指标业务术语两类。数据标准是指基于全行数据管理、使用和共享目的而编制的标准化
15、数据项规范,分为基础数据标准和指标数据标准两类。基础数据标 准是对基础业务术语的标准化和规范化,代码类的基础数据标准涵 盖了标准代码。指标数据标准是企业内共同遵守的数据含义和业务 规则,通过标准化统一口径,消除歧义。数据字典是指为统一管理全行信息系统的数据模型所制定的表结构 和字段定义规范,作为技术部门在信息系统开发过程中的参照标准。 数据字典一般包括数据命名、数据类型、数据长度和取值范围等要 素。在开展数据治理专项工作之前,软件中心的需求开发管理由需求管 理平台、协同研发平台、SOA平台共同完成。在数据治理工作开展 之后,数管部将数据建模管理系统和数据治理平台嵌入需求开发管 理流程中,并对协
16、同研发平台、SOA平台进行改造形成系统间的流 程联动,确保数据治理工作落实。3)元数据元数据包括系统、数据库、表、字段等基础信息。在协助EAST整改专项工作的过程中,发现血缘关系对发现问题、 定位问题有着重要的作用。因此数管部提出将EAST溯源结果导入 到治理平台中,使用全链分析进行图形化展现,再结合治理平台己 经采集的元数据信息将英文表名、英文字段名转换成中文表名、中 文字段名,为EAST整改工作提供助力。4)标签库标签库是专为该行提供标签数据统一管理、统一发布、统一申请、 统一审批的功能模块。由业务主管部门负责零售标签的管理工作,包括标签的增删改、标 签权限审批、标签业务口径管理、标签开发
17、需求提交等。零售标签 库除了供用户查看标签属性的功能以外,还对接其他应用系统,提 供标签属性及权限供应用系统使用,如下图所示。比如BI分析平 台根据零售标签库中分行用户拥有的标签使用权限,限制该用户在 BI分析平台上能查看的标签数据范围,营销中台则根据零售标签库 中的标签属性生成模型参数。零售标签维护流程图5)外部数据该行所有外部数据由外部数据采集系统统一管理,数据治理平台对 接外部数据采集系统,集中展示目前已有的所有外部数据信息,包 括数据源、表、字段信息,所有信息每日定时更新一次。6)报表数据数据治理平台集中采集该行最重要的四个报表系统信息,包括报表 名称、报表数据项、归属部门、更新频率、
18、功能码等报表信息。7)数据资产首页的数据资产查询可以一站式查询该行已纳入管理的所有数据资 产,可查询的数据资产类型包括元数据、基础标准、指标标准、零 售标签、报表数据、外部数据。用户可输入任意关键字进行搜索, 支持关键字模糊搜索,可以指定数据资产类型缩小查询范围,支持 同时搜索所有资产类型。(3)数据质量管理流程数据质量检核系统以数据清洁为目标,以业务需求为驱动,通过质 量提升任务形成质量规则库,通过质量检核了解数据源质量、监控 异常数据、督促质量改进,将数据质量管理作为一项持续性工作, 使之“系统化”“持续化” “常态化”。根据质量规则形成质量度量指标, 对整体数据质量水平进行综合评价,披露
19、数据质量问题与短板,促 进问题改进。质量评测范围包含数据资产目录、数据标准、数据模 型、数据分布、设计质量等。由于数据质量检核功能涉及生产业务数据,考虑到生产数据的安全 性,将数据质量检核系统单独部署,与数据治理平台隔离。通过访 问企业级数据服务平台API接口,连接计算平台进行数据检核,异 步提取数据到质量平台Hadoop集群环境。数据质量管理流程的参与方有数管部、业务部门、软件中心三方。 数管部负责制订数据质量管理办法和数据质量考核方案,并组织制 定数据质量度量规则和检核方法,推动质量问题解决流程等工作。 业务部门负责提出质量问题,分析问题产生的原因,提出质量提升 方案,并参与制定质量度量规
20、则等工作。软件中心配合分析解决数 据质量问题,并负责问题涉及系统的开发等工作。(1)面向存量与增量系统“既要又要.”的数据标准管理在数据管理实践中,数据标准管理既要对接好现有系统,又要标准 化新建系统,还要解决好数据质量问题在源头系统的改进。为有效 推进标准体系建设,本次项目形成了 “三个策略、三个维度”的解决方 案。1)三个策略一是按业务领域推进数据治理,在有需求、有资源、有驱动力的前 提下按需推进标准化。业务部门的深入参与是做好数据标准管理的 保障,只有针对业务需求进行的治理,才能得到业务部门的认可和 支持。二是按系统推进标准落标,在需求流程中实施数据标准的强 管控。通过引入建模工具,联合
21、技术开发部门使用标准化的数据字 典建模,实现数据字典在开发过程中的管控。三是按问题推进源头 改造,针对数据治理过程中发现的重点数据质量问题,例如监管数 据质量问题、数据多口径问题、数据低时效问题等,通过改造系统 落实数据标准,从源头消除数据不规范等问题,达到提升数据质量 的目的。2)三个维度一是业务术语维度。业务术语是业务部门在经营管理活动中使用的 业务定义、业务规则和统计口径。梳理业务术语可统一业务人员对 业务概念的理解,从而避免业务人员在编写业务需求时概念混淆, 减少数据冗余。二是数据标准维度。数据标准是数据管理部门基于 业务术语进行的标准化规范。相较于业务术语,数据标准需要建立 标准索引
22、、设置业务主题归类、对照进行数据安全分类分级和设置 必要的质量规范定义。三是数据字典维度。数据字典是数据标准开 发实施的参照与依据。数据字典规范了表、字段的命名规则,在开 发实施过程中,开发部门应该遵循数据字典,推进数据标准的落地 应用。(2)形成了商业银行“点、线、面、体”的质量管理有效循环在做好数据标准体系管理的同时,本项目形成了“点、线、面、体” 的数据质量管理策略。点是以问题为导向抓数据质量发力点,线是 以数据生命周期为线索抓数据质量持续改进,面是以数据架构切面 抓重点数据质量,体是以数据治理制度构建长效质量管控机制。1)点:质量问题的发力点项目着重在以下场景发力。监管报送场景:在监管
23、检查时,通过数据质量检查规则,往往会发 现数据不准确、不完整等问题。例如,在核验过程中发现客户评级 信息为空,说明客户信息系统及内部评级系统缺少对客户财务数据 完整性的核验。若企业有完善的数据质量管控体系,即可提前预警 或减少此类问题的出现。数据分析场景:在经营管理过程中,往往需要通过数据分析提供支 持和参考。比如:业务部门需要通过报表或指标查看经营情况,在 指标开发过程中可能会出现标准不统一、指标口径不一致的问题; 在面向客户营销时,可能因数据质量低下导致营销不准确,转化率 无法达到期望;在风险控制方面,风险是多方面的,包括信贷风险、 市场风险、运营风险等,高质量数据是降低风险、减少企业损失
24、的 保障。内、外审场景:从数据治理的角度来讲,内、外审部门定期对企业 进行审计,除数据质量检查规则外,企业需要意识到政策和流程的 必要性,即企业需具备来源于完善的数据质量管控体系的数据质量 检查政策、程序及考核评价体系。2)线:数据生命周期中质量问题的原因分析项目遍历梳理银行数据流转过程,发现数据的生命周期分为需求、 创建、抽取、转换、加载、存储、应用和维护八个阶段,在各个阶 段数据质量问题的成因也各不相同,可按照以下类别管控。需求沟通产生的数据质量问题。一是业务部门未形成统一规范的业 务规则手册,导致无法将规则有效运用于数字化落标。二是系统建 设未充分考虑监管机构统计口径与银行总分账统计口径
25、间的差异, 导致报表数据与实际情况逻辑不一致。三是业务部门与开发部门需 求对接发生了理解偏差,业务规则未正确转化成取数规则。源发性 产生的数据质量问题。由于业务源系统的数据库种类不同,比如主 流的关系型数据库有 Oracle、SQLServer、DB2 Sybase等,或新 老数据库迁移,导致从以上各类不同的生产系统数据库表和文件中 抽取数据到数据仓库,天然就存在数据异构问题。采集录入产生的数据质量问题。业务部门没有严格遵守数据采集录 入规范,比如未完整录入数据、录入无效数据、采集录入数据造假 等。数据交换和ETL过程中产生的数据质量问题。一是数据仓库或应 用层与源系统之间采用直接数据库连接方
26、式抽取和交换数据,系统 架构耦合性过高导致空间不足、锁表等异常。二是传输交换系统和 网络不可靠产生的数据丢包异常,三是抽取过程中出现接口参数编 码问题、配置信息错误以及锁库、锁表形成的数据质量问题。四是 转换环节可能发生的因SQL脚本错误、表空间不足、字段类型转 换出错、NULL数据插入非NULL字段导致的数据质量问题。五是 调度机制和算法存在问题导致取数时点错误,使得源数据在整合成 报表数据时发生计算错误。数据应用层中产生的数据质量问题。经过ETL服务器进行清洗加 工处理后,大部分数据是规范和符合标准的,但是在应用层也可能 由于业务规则的定义错误和查询方式异常导致数据最后展示的结果 不正确。
27、补录维护流程中产生的数据质量问题。开发部门元数据管 理不规范导致表间关系、库间关系在发生质量问题后无法有效溯源; 后期在监管报送等紧急情况下,随意进行人工调整,如随意补录, 调整报表数据,导致越补越乱,越改越错。3)面:数据质量问题的四个管控域项目在四个领域搭建对应的管控体系。管理域:首先是要从企业战略角度不断完善企业数据模型规划,把 数据质量管控融入银行数据治理工作中,其次是将数据人才队伍作 为质量管控的战略性资源,明确业务到技术各个人才培养路径的分 支和路线,并有效嵌入质量管控的流程中,再次是分析数据质量情 况的变化趋势和原因,量化应用于全行数据质量绩效考核体系,最 后是对严重影响安全生产事件和监管统计数量的违规行为进行数据 问责,做到“谁的问题谁负责”。制度域:一是明确数据质量问题在各个阶段的归口管理部门,避免 质量问题发生时业务部门、开发部门相互推诿,在制度层面落实数 据确权;二是在操作层面统一规范化数据相关人员的工作实施,强 化数据的标准化生产,在数据的各个生命周期环节保证数据质量。