《DB23_T 3304-2022 大数据平台数据接入规范.docx》由会员分享,可在线阅读,更多相关《DB23_T 3304-2022 大数据平台数据接入规范.docx(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、ICS35.020CCSL70DB23黑龙江省地方标准DB23/T33042022大数据平台数据接入规范2022-07-07发布2022-08-06实施黑龙江省市场监督管理局发布1目次前言.II1范围.12规范性引用文件.13术语和定义.13.1数据接入.13.2数据采集.13.3全量采集模式.13.4增量采集模式.13.5轮询采集模式.14缩略语.15总体框架.25.1总体框架描述.25.2数据源的接入和采集方式.36接入要求.36.1关系数据库抽取.36.2数据库实时复制.46.3网关服务.56.4消息队列.66.5文件接收FTP服务.86.6文件拉取FTP服务.96.7文件HTTP服务.
2、116.8文件NFS服务.13附录A(资料性)关系数据库抽取接入说明.16附录B(资料性)网关服务接入说明.17附录C(资料性)消息队列接入说明.18附录D(资料性)文件接收FTP服务接入说明.20附录E(资料性)文件拉取FTP服务接入说明.24附录F(资料性)文件HTTP服务接入说明.27附录G(资料性)文件NFS服务接入说明.31I前言本文件依据GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。本文件由黑龙江省大数据产业协会提出。本文件由黑龙江省工业和信息化厅归口。本文件起草单位:
3、黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限公司。本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰、王阳、陈要武、杨大志、吕猛、王磊、唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。IIDB23/T3304-2022大数据平台数据接入规范1范围本文件规定了大数
4、据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景提供规范要求。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T29262信息技术面向服务的体系结构(SOA)术语GB/T35274信息安全技术大数据服务安全能力要求GB/T35295信息技术大数据术语GB/T37973信息安全技术大数据安全管理指南3术语和定义GB/T29262、GB/T352
5、95和GB/T35274界定的以及下列术语和定义适用于本文件。3.1数据接入将数据传输进入数据平台所采用的形式。3.2数据采集将数据收集进入数据平台所采用的形式。3.3全量采集模式是指一次性将关系数据库中物理表的数据抽取到大数据平台。3.4增量采集模式是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。3.51DB23/T3304-2022轮询采集模式轮询采集模式是增量采集模式的一种。4缩略语下列缩略语适用于本文件。DTS:数据传输服务(DataTransferService)。ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。FT
6、P:文件传输协议(FileTransferProtocol)。HTTP:标准的超文件传输协议(HyperTextTransferProtocol)。JDBC:java数据库连接(JavaDataBaseConnectivity)。NFS:网络文件系统(NetworkFileSystem)。KQS:消息集群数据接入(KafkaQueueStream)。SHA:安全哈希算法(SecureHashAlgorithm)。5总体框架5.1总体框架描述大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数
7、据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。总体框架示意图见图1。2数据源关系数据库接口数据DB23/T3304-2022大数据平台数据接入服务数据仓库关系数据库抽取网关服务文件接收FTP服务结构化数据存储管理信息系统FTP服务文件拉取FTP服务消息队列文件Web接口服务HTTP服务NFS服务文件HTTP服务文件NFS服务非结构化数据存储流数据管理信息系统数据库数据库实时复制图1总体框架示意图5.2数据源的接入和采集方式大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集包含
8、但不限于以下方式:a)关系数据库抽取;b)数据库实时复制;c)网关服务;d)消息队列服务;e)文件接收FTP服务;f)文件拉取FTP服务;g)文件HTTP服务;h)文件NFS服务。6接入要求6.1关系数据库抽取3DB23/T3304-20226.1.1功能要求关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批量抽取功能。关系数据库数据抽取应具备以下主要功能:a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持“全量”和“增量”两种数据抽取模式;c)支持关系数据库中结构化数据抽
9、取到大数据平台,包含结构化数据、半结构数据存储的数据仓库中;d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具体的字段、字段类型格式转换等操作;e)支持数据抽取操作的立即执行、定期调度运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界面;g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;h
10、)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。6.1.2应用场景描述应用场景描述如下:a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信息;b)关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标表;c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。6.1.3应用场景图关系数据库抽取应用场景见图2。4DB23/T3304-2022数据源大数据平台数据抽取服务大数据平台数据仓库a)抽取元数据信息b
11、)配置数据传输任务c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流图2关系数据库抽取应用场景数据流6.1.4应用要求应用要求如下:a)关系数据库抽取服务适用于关系数据库定期批量抽取场景,详细说明见附录A;b)数据源须提供关系数据库的访问链接,包括IP、端口、数据库实例名、用户名、密码;c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。6.2数据库实时复制6.2.1功能要求数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延复制功能,数据实时复制应具备以下主要功能:a)支持对主流的关系型数据库进行低时延增量复制,至少包括O
12、racle、MySQL、PostgreSQL等关系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上,无缝自动切换到增量复制模式;c)支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布式文件存储、实时数据存储及消息队列;d)支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格式转换、时区转换等操作;e)支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤;5DB23/T3304-2022f)支持数据
13、复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;外部触发支持标准webservice接口;g)应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段;h)选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等操作界面。6.2.2应用场景应用过程如下:a)业务系统关系型数据库服务器上部署增量捕获程序;b)增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务;c)大数据平台解析增量数据,并将增量数据存储到大数
14、据平台中;d)大数据平台分发增量数据到目标数据仓库中。6.2.3应用场景图数据库实时复制应用场景见图3。bacTCP/消息队列关系数据库增量捕获程序大数据平台接收、解析服务d大数据平台数据仓库图3数据库实时复制应用场景6.2.4应用要求应用要求包括:a)源数据库应是关系型数据库;b)源数据库表应包含主键或唯一索引;c)源端数据库应开启附加日志和强制归档模式;d)源端数据库的在线日志文件、归档日志文件应存放在文件系统上。6.3网关服务6.3.1功能要求网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。网关服务应具备以下主要功能:a)支持接入webservice、RESTfu
15、l方式的接口;b)支持包括结构化数据、非结构化数据的接口;c)支持接口编排,轻松实现多个接口的功能集成;d)提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置;e)提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事件;6DB23/T3304-2022f)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。6.3.2应用场景网关服务应用场景描述如下:a)数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等接口信息;b)大数据平台根据数据源提供的数据接口进行定义及编排;c)网关服务配置数据传输任务运行策
16、略,包括运行的开始时间、结束时间、运行频度;d)网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。6.3.3应用场景图网关服务应用场景见图4。数据源大数据平台数据网关服务大数据平台数据仓库a)资源申请b)创建数据库、用户,分配权限返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作图4网关服务应用场景6.3.4应用要求网关服务应用要求包括:a)网关服务适用于提供接口类数据的数据源,详细说明见附录B;b)提供数据接口的数据源需做好自身数据操作接口程序的开发。6.4消息队列6.4.1功能要求消息队列
17、采集为管理信息系统提供消息推送和缓存功能。消息队列应具备以下主要功能:a)应提供分布式消息队列的管理功能,支持消息主题的创建、删除、修改;b)应提供支持“点对点”和“发布-订阅”两个消息模式;7DB23/T3304-2022c)应支持消息的持久化存储操作并且支持持久化周期设置;d)应提供消息分布式高可用的发送和消费接口,包括链接建立、消息发送、消息消费、链接关闭,支持消息分区和备份操作;e)具有风格统一的图形化管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作;f)具备完善的日志审计能力,应记录消息发送和消费时发生的各种事件。6.4.2应用场景应用场景描述如下:a)管理信息系统应向大
18、数据平台申请消息队列接入服务;b)大数据平台根据申请创建消息队列主题,返回消息队列名称;c)管理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。6.4.3应用场景图消息队列应用场景见图5。数据源大数据平台实时消息队列服务大数据平台数据仓库a)申请实时消息队列接入服务b)创建消息队列主题c)业务系统开发业务处理程序,发送或接入消息信息流数据流图5消息队列应用场景6.4.4应用要求应用要求如下:a)消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。基于消息队列的消息缓存进行数据分析,详细说明见附录C;b)发送的消息内容格式支持字符串,发送的数据对
19、象可通过对象序列化机制转换为字符串格式的消息内容;8DB23/T3304-2022c)管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开发。6.5文件接收FTP服务6.5.1功能要求文件接收FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库的功能。文件采集应具备以下主要功能:a)支持标准FTP协议接收数据;b)支持顺序型断点续传功能;c)支持接收的文件的重命名及指定存储目录;d)应支持对接收文件的完整性校验;e)应支持对客户端进行认证;f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。6.5.2应用场景应用场景描述如下:a)大数据平
20、台配置应用账号、接收参数及存储位置;b)管理信息系统通过标准FTP协议连接大数据平台服务;c)管理信息系统检查目标临时文件是否存在;d)管理信息系统发起全量或续传指令;e)管理信息系统发送数据到大数据平台;f)大数据平台接收文件数据;g)管理信息系统发送数据校验文件;h)大数据平台根据校验文件校验数据文件内容;i)大数据平台按配置的规则存储接收到的数据文件;j)大数据平台回写数据存储状态;k)管理信息系统获取数据存储状态。6.5.3应用场景图文件FTP服务应用场景见图6。9DB23/T3304-2022数据源大数据平台文件接收FTP服务大数据平台数据仓库b)业务系统通过标准FTP协议连接大数据
21、平台服务c)业务系统检查目标临时文件是否存在d)业务系统发起全量或续传命令e)业务系统发送数据到大数据平台g)业务系统发送改命令修改文件为带校验的文件名a)大数据平台配置应用账号f)大数据平台接收文件数据h)大数据平台校验文件内容i)大数据平台按配置的规则存储接收到的文件j)大数据平台通知后续业务继续处理信息流数据流图6文件FTP服务应用场景6.5.4应用要求应用要求如下:a)管理信息系统应在大数据平台注册并申请账号;b)管理信息系统应按平台协议规范开发上传功能;c)管理信息系统生成文件数据时应同时生成对应的完整性校验码;d)具体文件接收FTP服务API接口详细说明见附录D。6.6文件拉取FT
22、P服务6.6.1功能要求文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文件拉取FTP服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持FTP服务登录用户名和密码设置;10DB23/T3304-2022c)支持文件压缩传输,提供文件压缩规则设置;d)支持文件加密传输,提供文件加密传输规则设置;e)支持设置文件同步、异步拉取,支持设置拉取并行度;f)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;g)支持全量文件采集,支持外部数据一次性初始化导入;h)支持定期轮询文件采
23、集,采集新增的文件,支持文件列表规则过滤;i)支持图形管理功能,支持FTP连接配置、文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤配置。6.6.2应用场景6.6.2.1基于FTP协议的全量文件采集应用场景应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供基于FTP协议的采集任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.6.2.2应用场景图基于FTP协
24、议的全量文件采集应用场景见图7。数据源大数据平台文件拉取FTP服务a)将业务数据写入指定文件区域b)配置基于FTP协议的全量采集任务c)运行基于FTP协议的全量采集任务读取文件数据进行文件校验,写入大数据平台存储信息流数据流图7基于FTP协议全量采集应用场景6.6.2.3基于FTP协议的定期轮询采集应用场景应用场景描述如下:大数据平台数据仓库11DB23/T3304-2022a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同;c)大数据平台轮询文件采集服务配置基于FTP协议的定期轮询采集任务,定期轮
25、询采集文件;d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。6.6.2.4应用场景图基于FTP协议的定期轮询采集应用场景见图8。数据源大数据平台文件FTP服务a)将业务数据写入指定文件区域b)生成索引、校验文件c)配置基于FTP协议的定期轮询采集任务d)定期读取索引文件e)文件有更新、读取文件读取文件数据进行文件校验,写入大数据平台存储信息流数据流图8基于FTP协议的定期轮询采集应用场景大数据平台数据仓库6.6.3应用要求应用要求如下:a)业务系统应先将业务数据保存为文件,并
26、设置访问权限;b)文件数据校验算法应支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示;c)数据文件可通过FTP协议访问;d)业务系统生成文件数据时应同时生成对应的完整性校验码;e)具体文件拉取FTP服务API接口详细说明见附录E。6.7文件HTTP服务6.7.1功能要求文件HTTP服务,应提供通过访问HTTP协议实现将文件信息抽取到大数据平台存储的功能。文件HTTP服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持文件压缩传输,提供文件压缩传输规则设置;12DB23/T3304-2022c)支持文件加密传输,提供文件加
27、密传输规则设置;d)支持设置文件同步、异步拉取,支持设置拉取并行度;e)支持制定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;f)支持全量文件采集,支持外部数据一次性初始化导入;g)支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤;h)支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤配置。6.7.2应用场景6.7.2.1基于HTTP协议的全量采集应用场景应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供基于HTTP协
28、议的采集任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、传输是否压缩、加密、同步/异步、并行度、存储目标位置及文件存储类型转换和命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.7.2.2应用场景图基于HTTP协议的全量采集应用场景见图9。数据源大数据平台文件HTTP服务a)将业务数据写入指定文件区域b)配置基于HTTP协议的全量采集任务大数据平台数据仓库读取文件数据c)运行基于HTTP协议的全量采集任务进行文件校验,写入大数据平台存储信息流数据流图9基于HTTP协议的全量采集应用场景6.7.2.3基于HTTP协议的定期轮询采集应用场景应用场景描述如
29、下:13DB23/T3304-2022a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同;c)大数据平台轮询文件采集服务配置基于HTTP协议的定期轮询采集任务,定期轮询采集文件;d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。6.7.2.4应用场景图基于HTTP协议的定期轮询采集应用场景见图10。数据源大数据平台文件HTTP服务a)将业务数据写入指定文件区域b)生成索引、校验文件c
30、)配置基于HTTP协议的定期轮询采集任务d)定期读取索引文件e)文件有更新、读取文件读取文件数据进行文件校验,写入大数据平台存储信息流数据流图10基于HTTP协议的定期轮询采集应用场景大数据平台数据仓库6.7.3应用要求应用要求如下:a)业务系统须先将业务数据保存为文件;b)文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示;c)数据文件可通过HTTP协议访问;d)业务系统生成文件数据时应同时生成对应的完整性校验码;e)具体文件HTTP服务API接口详细说明见附录F。6.8文件NFS服务6.8.1功能要求文件NFS服务,应提供通过访问NFS文件系统,实现将文件信
31、息抽取到大数据平台数据存储的功能。文件NFS服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;14DB23/T3304-2022c)支持全量文件采集,支持外部数据一次性初始化导入;d)支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤;e)支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件定期及实时策略配置、文件采集过滤配置。6.8.2应用场景6.8.2.1NFS全量文件采集应用场景应用场景描述如下:a)业务系统应提供初始文
32、件存储位置;b)大数据平台全量文件采集提供采集NFS文件任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.8.2.2应用场景图NFS全量文件采集应用场景见图11。数据源大数据平台文件NFS服务a)将业务数据写入指定文件区域b)配置NFS文件全量采集任务大数据平台数据仓库读取文件数据c)运行NFS文件全量采集任务进行文件校验,写入大数据平台存储信息流数据流图11NFS全量文件采集应用场景6.8.2.3NFS文件定期轮询采集应用场景应用场景描述如下:a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同,文件扩展名为.SHA1;c)大数据平台轮询文件采集服务配置NFS文件定期轮询采集任务,定期轮询采集文件;15DB23/T3304-2022d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。6.8.2.4应用场景图NFS文件定