《DB23∕T 3304—2022 大数据平台数据接入规范(黑龙江省).pdf》由会员分享,可在线阅读,更多相关《DB23∕T 3304—2022 大数据平台数据接入规范(黑龙江省).pdf(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 ICS 35.020 CCS L 70 DB23 黑龙江省地方标准 DB23/T 33042022 大数据平台数据接入规范 2022-07-07 发布 2022-08-06 实施 黑龙江省市场监督管理局 发 布 I 目 次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 3.1 数据接入.1 3.2 数据采集.1 3.3 全量采集模式.1 3.4 增量采集模式.1 3.5 轮询采集模式.1 4 缩略语.1 5 总体框架.2 5.1 总体框架描述.2 5.2 数据源的接入和采集方式.3 6 接入要求.3 6.1 关系数据库抽取.3 6.2 数据库实时复制.4 6.3 网
2、关服务.5 6.4 消息队列.6 6.5 文件接收 FTP 服务.8 6.6 文件拉取 FTP 服务.9 6.7 文件 HTTP 服务.11 6.8 文件 NFS 服务.13 附录 A(资料性)关系数据库抽取接入说明.16 附录 B(资料性)网关服务接入说明.17 附录 C(资料性)消息队列接入说明.18 附录 D(资料性)文件接收 FTP 服务接入说明.20 附录 E(资料性)文件拉取 FTP 服务接入说明.24 附录 F(资料性)文件 HTTP 服务接入说明.27 附录 G(资料性)文件 NFS 服务接入说明.31 II 前 言 本文件依据GB/T 1.1-2020标准化工作导则 第1部分
3、:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。本文件由黑龙江省大数据产业协会提出。本文件由黑龙江省工业和信息化厅归口。本文件起草单位:黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限公司。本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰
4、、王阳、陈要武、杨大志、吕猛、王磊、唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。DB23/T 3304-2022 1 大数据平台数据接入规范 1 范围 本文件规定了大数据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景提供规范要求。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 29262 信
5、息技术 面向服务的体系结构(SOA)术语 GB/T 35274 信息安全技术 大数据服务安全能力要求 GB/T 35295 信息技术 大数据 术语 GB/T 37973 信息安全技术 大数据安全管理指南 3 术语和定义 GB/T 29262、GB/T 35295和GB/T 35274界定的以及下列术语和定义适用于本文件。3.1 数据接入 将数据传输进入数据平台所采用的形式。3.2 数据采集 将数据收集进入数据平台所采用的形式。3.3 全量采集模式 是指一次性将关系数据库中物理表的数据抽取到大数据平台。3.4 增量采集模式 是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。3.5 DB2
6、3/T 3304-2022 2 轮询采集模式 轮询采集模式是增量采集模式的一种。4 缩略语 下列缩略语适用于本文件。DTS:数据传输服务(Data Transfer Service)。ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。FTP:文件传输协议(File Transfer Protocol)。HTTP:标准的超文件传输协议(Hyper Text Transfer Protocol)。JDBC:java数据库连接(Java DataBase Connectivity)。NFS:网络文件系统(Network File System)
7、。KQS:消息集群数据接入(Kafka Queue Stream)。SHA:安全哈希算法(Secure Hash Algorithm)。5 总体框架 5.1 总体框架描述 大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。总体框架示意图见图1。DB23/T 3304-2022 3 关系数据库接口数据文件流数据管理信息系统FTP服务管理信息系统关系数据库抽取网关服
8、务文件接收FTP服务文件拉取FTP服务消息队列结构化数据存储非结构化数据存储数据源数据接入服务数据仓库大数据平台数据库Web接口服务HTTP服务NFS服务文件HTTP服务文件NFS服务数据库实时复制 图1 总体框架示意图 5.2 数据源的接入和采集方式 大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集包含但不限于以下方式:a)关系数据库抽取;b)数据库实时复制;c)网关服务;d)消息队列服务;e)文件接收 FTP 服务;f)文件拉取 FTP 服务;g)文件 HTTP 服务;h)文件 NFS 服务。6 接入要求 6.1 关系数据库抽取 DB23/T 3304
9、-2022 4 6.1.1 功能要求 关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批量抽取功能。关系数据库数据抽取应具备以下主要功能:a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持“全量”和“增量”两种数据抽取模式;c)支持关系数据库中结构化数据抽取到大数据平台,包含结构化数据、半结构数据存储的数据仓库中;d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具体的字段、字段类型格式转换等操作;e)支持数据抽取操作的立即执行、定期调度运
10、行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界面;g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;h)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。6.1.2 应用场景描述 应用场景描述如下:a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信息;b)关系数据库抽取服务配置
11、数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标表;c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。6.1.3 应用场景图 关系数据库抽取应用场景见图2。DB23/T 3304-2022 5 数据源大数据平台数据抽取服务大数据平台数据仓库b)配置数据传输任务a)抽取元数据信息c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流数据流 图2 关系数据库抽取应用场景 6.1.4 应用要求 应用要求如下:a)关系数据库抽取服务适用于关系数据库定期批量抽
12、取场景,详细说明见附录 A;b)数据源须提供关系数据库的访问链接,包括 IP、端口、数据库实例名、用户名、密码;c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。6.2 数据库实时复制 6.2.1 功能要求 数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延复制功能,数据实时复制应具备以下主要功能:a)支持对主流的关系型数据库进行低时延增量复制,至少包括 Oracle、MySQL、PostgreSQL 等关系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持秒级时延的关系型数据库增
13、量复制能力;同时支持在全量复制的基础上,无缝自动切换到增量复制模式;c)支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布式文件存储、实时数据存储及消息队列;d)支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格式转换、时区转换等操作;e)支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤;DB23/T 3304-2022 6 f)支持数据复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;外部触发支持标
14、准 webservice 接口;g)应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段;h)选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等操作界面。6.2.2 应用场景 应用过程如下:a)业务系统关系型数据库服务器上部署增量捕获程序;b)增量捕获程序捕获到增量数据通过 TCP 或消息队列发送到大数据平台增量接收服务;c)大数据平台解析增量数据,并将增量数据存储到大数据平台中;d)大数据平台分发增量数据到目标数据仓库中。6.2.3 应用场景图 数据库实时复制应用场景见图3。关系数据库a增量捕获程序bc大数据平台接收、解析服务大数
15、据平台数据仓库TCP/消息队列d 图3 数据库实时复制应用场景 6.2.4 应用要求 应用要求包括:a)源数据库应是关系型数据库;b)源数据库表应包含主键或唯一索引;c)源端数据库应开启附加日志和强制归档模式;d)源端数据库的在线日志文件、归档日志文件应存放在文件系统上。6.3 网关服务 6.3.1 功能要求 网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。网关服务应具备以下主要功能:a)支持接入 webservice、RESTful 方式的接口;b)支持包括结构化数据、非结构化数据的接口;c)支持接口编排,轻松实现多个接口的功能集成;d)提供图形化管理界面,用于接口数
16、据存储位置、操作用户、目标存储位置的配置;e)提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事件;DB23/T 3304-2022 7 f)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。6.3.2 应用场景 网关服务应用场景描述如下:a)数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等接口信息;b)大数据平台根据数据源提供的数据接口进行定义及编排;c)网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。6
17、.3.3 应用场景图 网关服务应用场景见图4。数据源大数据平台数据网关服务大数据平台数据仓库b)创建数据库、用户,分配权限a)资源申请返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作 图4 网关服务应用场景 6.3.4 应用要求 网关服务应用要求包括:a)网关服务适用于提供接口类数据的数据源,详细说明见附录 B;b)提供数据接口的数据源需做好自身数据操作接口程序的开发。6.4 消息队列 6.4.1 功能要求 消息队列采集为管理信息系统提供消息推送和缓存功能。消息队列应具备以下主要功能:a)应提供分布式消息队列的管理功能
18、,支持消息主题的创建、删除、修改;b)应提供支持“点对点”和“发布-订阅”两个消息模式;DB23/T 3304-2022 8 c)应支持消息的持久化存储操作并且支持持久化周期设置;d)应提供消息分布式高可用的发送和消费接口,包括链接建立、消息发送、消息消费、链接关闭,支持消息分区和备份操作;e)具有风格统一的图形化管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作;f)具备完善的日志审计能力,应记录消息发送和消费时发生的各种事件。6.4.2 应用场景 应用场景描述如下:a)管理信息系统应向大数据平台申请消息队列接入服务;b)大数据平台根据申请创建消息队列主题,返回消息队列名称;c)管
19、理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。6.4.3 应用场景图 消息队列应用场景见图5。数据源大数据平台实时消息队列服务大数据平台数据仓库b)创建消息队列主题a)申请实时消息队列接入服务c)业务系统开发业务处理程序,发送或接入消息信息流数据流 图5 消息队列应用场景 6.4.4 应用要求 应用要求如下:a)消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。基于消息队列的消息缓存进行数据分析,详细说明见附录 C;b)发送的消息内容格式支持字符串,发送的数据对象可通过对象序列化机制转换为字符串格式的消息内容;DB23/T 3304-20
20、22 9 c)管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开发。6.5 文件接收 FTP 服务 6.5.1 功能要求 文件接收FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库的功能。文件采集应具备以下主要功能:a)支持标准 FTP 协议接收数据;b)支持顺序型断点续传功能;c)支持接收的文件的重命名及指定存储目录;d)应支持对接收文件的完整性校验;e)应支持对客户端进行认证;f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。6.5.2 应用场景 应用场景描述如下:a)大数据平台配置应用账号、接收参数及存储位置;b)管理信息系统
21、通过标准 FTP 协议连接大数据平台服务;c)管理信息系统检查目标临时文件是否存在;d)管理信息系统发起全量或续传指令;e)管理信息系统发送数据到大数据平台;f)大数据平台接收文件数据;g)管理信息系统发送数据校验文件;h)大数据平台根据校验文件校验数据文件内容;i)大数据平台按配置的规则存储接收到的数据文件;j)大数据平台回写数据存储状态;k)管理信息系统获取数据存储状态。6.5.3 应用场景图 文件FTP服务应用场景见图6。DB23/T 3304-2022 10 数据源大数据平台文件接收FTP服务大数据平台数据仓库a)大数据平台配置应用账号b)业务系统通过标准FTP协议连接大数据平台服务c
22、)业务系统检查目标临时文件是否存在d)业务系统发起全量或续传命令e)业务系统发送数据到大数据平台g)业务系统发送改命令修改文件为带校验的文件名f)大数据平台接收文件数据h)大数据平台校验文件内容i)大数据平台按配置的规则存储接收到的文件j)大数据平台通知后续业务继续处理信息流数据流 图6 文件 FTP 服务应用场景 6.5.4 应用要求 应用要求如下:a)管理信息系统应在大数据平台注册并申请账号;b)管理信息系统应按平台协议规范开发上传功能;c)管理信息系统生成文件数据时应同时生成对应的完整性校验码;d)具体文件接收 FTP 服务 API 接口详细说明见附录 D。6.6 文件拉取 FTP 服务
23、 6.6.1 功能要求 文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文件拉取FTP服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持 FTP 服务登录用户名和密码设置;DB23/T 3304-2022 11 c)支持文件压缩传输,提供文件压缩规则设置;d)支持文件加密传输,提供文件加密传输规则设置;e)支持设置文件同步、异步拉取,支持设置拉取并行度;f)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;g)支持全量文件采集,支持外部数据一次性初始化导入;h)支持定期
24、轮询文件采集,采集新增的文件,支持文件列表规则过滤;i)支持图形管理功能,支持 FTP 连接配置、文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤配置。6.6.2 应用场景 6.6.2.1 基于 FTP 协议的全量文件采集应用场景 应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供基于 FTP 协议的采集任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.6
25、.2.2 应用场景图 基于FTP协议的全量文件采集应用场景见图7。数据源大数据平台文件拉取FTP服务b)配置基于FTP协议的全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行基于FTP协议的全量采集任务大数据平台数据仓库信息流数据流 图7 基于 FTP 协议全量采集应用场景 6.6.2.3 基于 FTP 协议的定期轮询采集应用场景 应用场景描述如下:DB23/T 3304-2022 12 a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法 SHA1 在相同目录下生成校验文件,校验文件名称与数据文件相同;c)大数据平
26、台轮询文件采集服务配置基于 FTP 协议的定期轮询采集任务,定期轮询采集文件;d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。6.6.2.4 应用场景图 基于FTP协议的定期轮询采集应用场景见图8。数据源大数据平台文件FTP服务c)配置基于FTP协议的定期轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储e)文件有更新、读取文件大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图8 基于 FTP 协议的定期轮询采集应
27、用场景 6.6.3 应用要求 应用要求如下:a)业务系统应先将业务数据保存为文件,并设置访问权限;b)文件数据校验算法应支持标准的 SHA1 进行校验,结果转化为 16 进制 ASCII 字符表示;c)数据文件可通过 FTP 协议访问;d)业务系统生成文件数据时应同时生成对应的完整性校验码;e)具体文件拉取 FTP 服务 API 接口详细说明见附录 E。6.7 文件 HTTP 服务 6.7.1 功能要求 文件HTTP服务,应提供通过访问HTTP协议实现将文件信息抽取到大数据平台存储的功能。文件HTTP服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模
28、式匹配;b)支持文件压缩传输,提供文件压缩传输规则设置;DB23/T 3304-2022 13 c)支持文件加密传输,提供文件加密传输规则设置;d)支持设置文件同步、异步拉取,支持设置拉取并行度;e)支持制定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;f)支持全量文件采集,支持外部数据一次性初始化导入;g)支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤;h)支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤配置。6.7.2 应用场景 6.7.2.1
29、 基于 HTTP 协议的全量采集应用场景 应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供基于 HTTP 协议的采集任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、传输是否压缩、加密、同步/异步、并行度、存储目标位置及文件存储类型转换和命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.7.2.2 应用场景图 基于HTTP协议的全量采集应用场景见图9。数据源大数据平台文件HTTP服务b)配置基于HTTP协议的全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行基于HTTP协议
30、的全量采集任务大数据平台数据仓库信息流数据流 图9 基于 HTTP 协议的全量采集应用场景 6.7.2.3 基于 HTTP 协议的定期轮询采集应用场景 应用场景描述如下:DB23/T 3304-2022 14 a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法 SHA1 在相同目录下生成校验文件,校验文件名称与数据文件相同;c)大数据平台轮询文件采集服务配置基于 HTTP 协议的定期轮询采集任务,定期轮询采集文件;d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据
31、文件写入大数据平台中。6.7.2.4 应用场景图 基于HTTP协议的定期轮询采集应用场景见图10。数据源大数据平台文件HTTP服务c)配置基于HTTP协议的定期轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储e)文件有更新、读取文件大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图10 基于 HTTP 协议的定期轮询采集应用场景 6.7.3 应用要求 应用要求如下:a)业务系统须先将业务数据保存为文件;b)文件数据校验算法须支持标准的 SHA1 进行校验,结果转化为 16 进制 ASCII 字符表示;c)数据文件可通过 HTTP
32、协议访问;d)业务系统生成文件数据时应同时生成对应的完整性校验码;e)具体文件 HTTP 服务 API 接口详细说明见附录 F。6.8 文件 NFS 服务 6.8.1 功能要求 文件NFS服务,应提供通过访问NFS文件系统,实现将文件信息抽取到大数据平台数据存储的功能。文件NFS服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;DB23/T 3304-2022 15 c)支持全量文件采集,支持外部数据一次性初始化导入;d)支持定期轮询文件采集,采集新增的文件,支持文
33、件列表规则过滤;e)支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件定期及实时策略配置、文件采集过滤配置。6.8.2 应用场景 6.8.2.1 NFS 全量文件采集应用场景 应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供采集 NFS 文件任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.8.2.2 应用场景图 NFS全量文件采集应用场景见图11。数据源大数据平台文件NFS服务b)配置NFS文件全量采集任务a)
34、将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行NFS文件全量采集任务大数据平台数据仓库信息流数据流 图11 NFS 全量文件采集应用场景 6.8.2.3 NFS 文件定期轮询采集应用场景 应用场景描述如下:a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法 SHA1 在相同目录下生成校验文件,校验文件名称与数据文件相同,文件扩展名为.SHA1;c)大数据平台轮询文件采集服务配置 NFS 文件定期轮询采集任务,定期轮询采集文件;DB23/T 3304-2022 16 d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据
35、文件出现新增时,大数据平台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。6.8.2.4 应用场景图 NFS文件定期轮询采集应用场景见图12。数据源大数据平台文件NFS服务c)配置NFS文件定时轮询采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储e)文件有更新、读取文件大数据平台数据仓库b)生成索引、校验文件d)定期读取索引文件信息流数据流 图12 NFS 文件定期轮询采集应用场景 6.8.3 应用要求 应用要求如下:a)业务系统应先将业务数据保存为文件,并设置访问权限;b)文件数据校验算法应支持标准的 SHA1 进行校验,结果
36、转化为 16 进制 ASCII 字符表示;c)数据文件可通过 NFS 访问;d)业务系统生成文件数据时应同时生成对应的完整性校验码;e)具体文件 NFS 服务 API 接口详细说明见附录 G。DB23/T 3304-2022 17 A A 附 录 A(资料性)关系数据库抽取接入说明 A.1 关系数据库应用流程图 关系数据库抽取通过大数据平台提供的Web界面进行操作,完成数据接入操作。关系数据库应用流 程见图A.1:1.配置执行器2.配置数据源3.配置任务4.配置作业是否立即执行7.执行日志查看5.立即执行传输6.作业调度配置与执行是否开始结束 图A.1 关系数据库应用流程图 A.2 应用流程
37、应用流程描述如下:a)大数据平台配置执行器,用于作业调度执行的服务;b)配置数据源,分别配置源数据库及目标数据库。根据业务源端的数据库的 IP、端口、实例 名、用户名、密码,进行数据源链接配置,抽取数据库用户所属的表、字段信息,目标端数据 库配置,配置抽取目标数据库信息配置,包括目标数据库的 IP、端口、用户名、密码、数据 库名;c)配置任务,配置源端与目标端字段对应关系、是否抽取、格式化公式等,一个抽取可配置多个 任务;d)配置作业,根据抽取任务执行的先后顺序配置成作业;e)作业调度配置与执行,将数据库抽取配置为作业,支持配置抽取作业的执行策略,包括作业开 始时间、结束时间、运行频率等;f)
38、执行日志查看,提供作业执行结果信息查看,包括作业开始执行时间、结束时间、运行时长、作业状态、运行结果、日志详情等。DB23/T 3304-2022 18 B B 附 录 B(资料性)网关服务接入说明 B.1 网关服务应用流程图 通过大数据平台的网关服务提供的Web界面进行操作。首先网关服务录入接口信息,然后 通过服务编排进行接口的编排,生成新的数据接口进行调度发布。网关服务应用流程见图B.1:1.登记接口信息2.服务编排3.调度发布开始结束 图B.1 网关服务应用流程图 B.2 应用流程 应用流程描述如下:a)根据数据源提供的数据接口地址、请求方式、请求头配置、传输协议、请求参数信息在服务网
39、关进行数据接口的登记、熔断保护配置及测试验证;b)针对登记的接口信息进行服务编排,定义接口的输入参数、输出参数、请求头等信息,并生成 新的接口地址;c)服务编排后的数据接口配置调度策略,包括调度时间、调度周期及频次等信息,然后进行发布。DB23/T 3304-2022 19 C C 附 录 C(资料性)消息队列接入说明 C.1 消息队列接入说明 管理信息系统通过代码开发方式调用大数据平台提供的消息队列API接口,往消息队列主题中发送数据。消息队列应用流程见图C.1:1.大数据平台与管理信息系统方约定消费队列主题名称2.大数据平台创建相应的消息队列3.管理信息系统应用方开发程序调用大数据平台消息
40、队列API,封装数据发送消息开始结束 图C.1 消息队列应用流程 说明:1大数据平台与管理信息系统应用方约定消息队列主题名称;2大数据平台在大数据集群中创建相应的消息队列主题;3管理信息系统开发程序调用大数据平台消息队列 API,封装数据往消息队列主题中发送消 息。C.2 消息队列API 消息队列API接口清单见表C.1。DB23/T 3304-2022 20 表C.1 消息队列 API 接口清单 序号 接口方法 接口说明 1 Producer(String username,String password,List)构建消息队列主题发送实例。参数说明如下:username:用户名 passw
41、ord:密码 topics:消息队列主题名称 2 send(String topic,String message)往主题发送单条消息。参数说明如下:topic:主题名称 message:数据内容 3 send(String topic,String messages)往主题发送多条消息。参数说明如下:topic:主题名称 messages:多条数据内容 4 send(String topic,String message,Boolean isSensitive)往主题发送单条消息,进行加密后发送。参数说明如下:topic:主题名称 message:数据内容 isSensitive:是否敏感信
42、息 5 send(String topic,String messages,Boolean isSensitive)往主题发送单条消息,进行加密后发送。参数说明如下:topic:主题名称 messages:多条数据内容 isSensitive:是否敏感信息 6 Producer.close()关闭消息队列主题发送实例的连接 7 Consumer(String username,String password,List topics)构建消息队列主题接收实例。参数说明如下:username:用户名 password:密码 topics:消息队列主题名称 8 fetch(String topic,
43、EventHander handler)监听消息主题的消息。参数说明如下:topic:主题名称 handler:接收到数据后的处理类 9 Consumer.close()关闭消息队列主题接收实例的连接 DB23/T 3304-2022 21 D D 附 录 D(资料性)文件接收 FTP 服务接入说明 D.1 文件接收FTP服务API接口 文件接收FTP服务API接口见表D.1。表D.1 文件接收 FTP 服务 API 接口 序号 接口方法 接口说明 1 public void initFtpClient(String hostname,Integer username,String passw
44、ord)初始化 FTP 服务器,参数说明如下:hostname:FTP 服务器地址;prot:FTP 服务器端口 username:FTP 登录账号;password:FTP 登录密码。2 public boolean uploadFile(String pathname,String fileName,InputStream inputStream)上传文件。参数说明如下:pathname:ftp 服务 保存地址 fileName:上传到 ftp 的文件名 inputStream:输入文件流 3 Public boolean CreateDirecroty(String remote)创建文
45、件目录。参数说明如下:remote:文件目录 D.2 文件接收FTP服务示例 业务系统在生成好文件后,通过调用大数据平台FTP文件接收服务。调用服务示例如下:示例:DB23/T 3304-2022 22 public void initFtpClient(String hostname,Integer port,String username,String password)ftpClient=new FTPClientO();ftpClient.setControlEncoding(utf-8);try(ftpC1ient.connect(hostname,port);ftpClient.l
46、ogin(username,password);int replyCode=ftpClient.getReplyCode();if(!FTPReply.isPositiveCompletion(replyCode)System.out.println(connect failed.ftp 服务器:+this.hostname+:+this.port):catch(MalformedURLException e)e.printStackTrace();catch(I0Exception e)e.printStackTrace();public boolean uploadFile(String
47、pathname,String filelame,InputStrean inputStrean)try Systen.out.println(开始上传文件);initFtpClient();ftpClient.setFileType(FTP.BINARY_ FILE _TYPE):CreateDirecroty(pathname);ftpClient.makeDirectory(pathname);ftpClient.changeWorkingDirectory(pathname);ftpClient.storeFile(fileName,inputStrean);inputStream.C
48、lose();ftpClient.Logout();System.out.println(上传文件成功);catch(Exception e)System.out.print1n(上传文件失败);e.printStackTrace();finally if(ftpClient.isConnected())try ftpClient.disconnect();catch(IOException e)e.printStackTrace();if(null!=inputStrean)try inputStrean close();catch(IOException e)DB23/T 3304-202
49、2 23 e.printStackTrace();return true;public boolean CreateDirecroty(String remote)throws IOException boolean success=true;String directory=renote+/;/如果远程目录不存在,则递归创建远程服务器目录 if(!directory.equalsIgnoreCase(/)&!changeWorkingDirectory(new String(directory)int start=0;int end=0;if(directory.startsith(/)st
50、art=1:else start=0:end=directory.indexOf(/,start):String path=;String paths=;while(true)String subDirectory=new String(remote.substring(start,end).getBytes(GBK),is0-8859-1);path=path+/+subDirectory;if(lexistFile(path)if(makeDirectory(subDirectory)changeorkingDirectory(subDirectory);else Systen.out.p