《2023智慧税务大数据中心(一期)项目建设方案(详细版).docx》由会员分享,可在线阅读,更多相关《2023智慧税务大数据中心(一期)项目建设方案(详细版).docx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智慧税务大数据中心(一期)项目建设方案(详细版)的经济分析功能,打造湾区综合性先进的决策分析平台。321税源管理基于大数据平台税源管理,整合大湾区的数据,实现湾区整体的 税源管理分析功能,并实现税源在湾区、湾区市级、湾区区级、湾区 纳税人维度的数据分析以及可视化展示。指标包含:纳税人总体趋势、 纳税人每月增长情况、年度纳税人变动情况、新增纳税人趋势、纳税 人重点行业分布、正常纳税人分布、注销纳税人分布、纳税人行业分 布、纳税人分行业占比、新增纳税人分行业占比、注销纳税人分行业 占比、城市税收收入与GDP发展增长比较。322税收收入解构基于大数据平台税收收入解构,整合大湾区的数据,实现湾区整 体
2、的税收收入解构分析功能,并实现税收收入在湾区、湾区市级、湾 区区级、湾区纳税人维度的数据分析以及可视化展示。包含:税收收 入概况、税收收入质效、税收收入行业集中度、重点税源变动情况、 企业生命周期贡献率、纳税大户集中度、行业纳税人纳税大户集中度、 千户集团税收收入分析。323减税降费专题基于大数据平台减税降费专题,整合大湾区的数据,实现湾区整 体的减税降费分析功能,并实现减税降费在湾区、湾区市级、湾区区 级、湾区纳税人维度的数据分析以及可视化展示。包含:减税降费概 况、增值税优惠落实专题、企业所得税优惠落实专题、个税改革优惠 落实专题、六税两费优惠落实专题、社会保险费降费减负专题。324经济专
3、题分析基于大数据平台经济专题分析,整合大湾区的数据,实现湾区整 体的经济专题分析功能,并实现经济专题分析在湾区、湾区市级、湾 区区级、湾区纳税人维度的数据分析以及可视化展示。包含:企业经 营分析、金融业专题、高新技术企业专题、房地产专题、外商境内投 资及源泉所得情况。自然人分析基于大数据平台自然人分析,整合大湾区的数据,实现湾区整体 的自然人分析功能,并实现自然人分析在湾区、湾区市级、湾区区级、 湾区纳税人维度的数据分析以及可视化展示。包含:自然人概况、个 税申报自然人分行业情况、个税申报自然人跨区迁徙图、个税申报自 然人大户异动监测、外国及港澳台个税申报自然人情况。326发票实时监控实时展示
4、发票的动态变化情况,系统默认为截止到当前日期的发票累计统计数据和当时发票变化数据,整体体现页面动态变化。327发票票流分析发票流向分析,包含了中国的深圳、湾区的深圳、世界的深圳三 个主题,从深圳视角出发,分析发票的进项和销项情况,主要包括了 地区和商品进销汇总分析,数据以实时为主。328产业链监控分析对重点行业涉及的重点纳税人,通过发票的上下游,结合行业情 况,进行产业链的分析。上下游包含,行业大类、行业门类、深圳外 地区统计分析。并且点击纳税人名称可进入一户式。329民生消费分析衣食住行房车6个维度分析民生情况,以及变化趋势分析,掌握 居民生活水平的变化。区块链发票分析对区块链发票进行分析,
5、展示区块链发票开具、总的行业开票趋 势、热点时段以及重点纳税人监控。产业园分析使用地图对产业园区的税收收入、产值、纳税人等进行分析,从 宏观到微观展现实体经济对国民生活的影响。产业园划定借助四维地图,实现产业园区的定义和审批,并实现产业园管理。1.1.13 发票风险识别成效依托传统经验,借力于人工智能技术展示发票风险识别手段和方 法带来的管理成效。1.1.14 API服务平台接口对接数据通过数据服务平台发布为API服务接口,可视化展示需要对接API服务接口。1.1.15 地图接口可视化地图展示需对接四维地图,基于思维地图产品展示各个指 标数据,各个指标数据需对接地图接口。1.1.16 维度模型
6、数据系统后端的数据需要以维度模型的方式进行数据处理,维度模型 需要用统一的规则进行数据的管理及使用。1.1.17 系统初始化数据系统运维需初始化对应功能的初始化数据,如:重点产业园、支柱商品等。3.3 大湾区虚开和出口骗税分析系统构建基于大湾区9+2市跨区域的虚开与出口骗税指标体系,覆盖 虚开骗税企业的涉税行为,例如登记信息、增值税申报信息、发票票 面信息、缴款信息、退税(免抵退、免税)信息、出口报关单信息等, 构建大湾区虚开与出口骗税智能画像,实现对虚开骗税风险智能、简 便、及时、准确地监控和预警。3.3.1 大湾区虚开与出口骗税指标体系构建构建基于大湾区9+2市跨区域的虚开与出口骗税指标体
7、系,覆盖 虚开骗税企业的涉税行为,例如登记信息、增值税申报信息、发票票 面信息、缴款信息、退税(免抵退、免税)信息、出口报关单信息等。税务登记指标:以企业税务登记,出口登记备案数据为基础,构 建虚开与骗税企业的登记基础性指标。增值税申报指标:以企业增值税申报数据为基础,构建虚开与骗 税企业的申报行为指标。增值税发票指标:以企业开具与接受的增值税发票数据为基础, 构建虚开与骗税企业的发票行为指标。缴款信息指标:以企业税款缴纳数据为基础,构建虚开与骗税企 业的缴款行为指标;退税(免抵退、免税)指标:以企业退税(免抵退、免税)数据 为基础,构建虚开与骗税企业的退税行为指标。出口行为指标:以企业出口报
8、关单、海关票数据为基础,构建虚开与骗税企业的出口行为指标;3.3.2 大湾区企业虚开风险预测智能画像基于大湾区虚开骗税指标体系与大湾区9+2市虚开企业样本,构 建大湾区虚开风险预测机器学习模型,对虚开企业风险进行精准画像, 实现虚开企业精准识别。333企业出口骗税风险预测智能画像基于大湾区虚开骗税指标体系与大湾区9+2市虚开骗税企业样 本,构建大湾区出口退税风险预测机器学习模型,对出口退税企业风 险进行精准画像,实现出口骗税企业精准识别。334虚开与出口骗税扫描监控功能提供给业务人员自行选择扫描画像模型,对开具发票与出口企业 定时扫描并及时预警,通过系统、短信等多渠道通知税务人员与海关 人员。
9、3.3.5 画像模型维护升级功能提供模型样本升级维护功能,支持任务应对结果、外系统黑名单 导入,丰富画像训练样本,并支持一键升级训练模型,更新画像重要 特征指标,保持画像持续可用。3.4 大湾区Al风险态势感知系统基于大湾区数据中心的数据源,提供对不同分析对象的指标、特 征进行业务维度分类(登记认定、发票管理、申报管理、退税管理、 关联交易等)的维护管理,形成大湾区特有风险指标库,对不同分析 对象多维度的指标进行统一维护,为风险识别、态势感知提供业务数 据引擎。3.4 大湾区风险疑点库针对反避税情报、异常发票凭证、团伙、骗税与风险画像中的风 险疑点,形成大湾区税收风险疑点库,提供风险疑点自定义
10、导入功能、 风险疑点查询功能,实现大湾区风险疑点清单共同维护、共同使用的 能力。风险指标库管理基于大湾区数据中心的数据源,提供对不同分析对象的指标、特 征进行业务维度分类(登记认定、发票管理、申报管理、退税管理、 关联交易等)的维护管理,形成大湾区特有风险指标库,对不同分析 对象多维度的指标进行统一维护,为风险识别、态势感知提供业务数 据引擎。343风险指标集成对已有反避税跨境关联交易指标、发票风险指标、作案工具指标、 出口骗税指标、风险画像指标进行集成,初始化已有分析指标数据, 指标数量约400条。344风险态势展示基于大湾区风险疑点库、风险指标库,利用发票上下游关系、企 业四员任职关联,形
11、成大湾区风险链条,通过思维地图进行全景展示, 并提供监控预警,实现风险疑点企业实时开票、办税监控提醒。345风险趋势展示与预测利用思维地图,展示大湾区各市区涉税风险总量、涉税风险类型、 涉税风险涉及税款总总量与分布的趋势展示,并利用机器学习回归算 法,对趋势进行预测,提供风险管理决策支持。3.5 大湾区跨境税源监管分析系统351大湾区企业关联交易数据项集成集成粤港澳大湾区9+2个市的跨境关联交易数据(包括企业关联交易申报表),并构造数据项作为关联交易分析的数据基础。352大湾区企业生产经营数据项集成集成粤港澳大湾区9+2个市的生产经营数据(包括企业所得税年度申报表),并构造数据项作为利润监控分
12、析的数据基础。353大湾区企业基本信息数据项集成集成粤港澳大湾区9+2个市的企业基本信息数据,并构造数据项作为企业分析的数据基础。354大湾区跨境税源数据项管理基于粤港澳大湾区数据中心,对跨境税源分析的数据项提供增、 删、改、查、启用、停用等维护功能,为业务人员提供业务元数据管 理的能力。3.5.5 大湾区跨境税源查询分析基于大湾区跨境税源数据项,提供面向业务人员的建议查询分析 工具,提供给用户基于拖拽的业务逻辑查询能力,与增加列示项查看 的能力。356大湾区跨境税源评价模型基于大湾区跨境税源数据项,提供面向业务人员的评价模型构建 与管理能力,基于多种评价排序方法对企业设定基于不同分数段与权
13、重的评价方案,形成跨境税源监控模型库。357评价模型方法集成集成“均值离散度评价法”、“分段加权法”、“指标排序法”三种评价模型方法。358大湾区跨境税源模型监控基于跨境税源评价模型提供监控调度预警的功能,定时对企业进行评价分析,并预警问题企业。3.5.9 大湾区跨境关联交易全景分析对大湾区9+2市的跨境关联交易全境进行分析展示,包括大湾区 跨境关联交易企业数量与分别、跨境关联交易金额比例,对外支付情 况等。3.5.10 大湾区企业跨境关联交易信息查询基于大湾区数据中心,对大湾区9+2市的跨境关联交易企业的关 联交易数据进行汇总查询,辅助业务人员对跨境关联交易企业进行分 析。3.6 大湾区单点
14、登录用户认证系统361登录根据用户提供的登录信息,认证系统进行身份校验,如果通过校 验,应该返回给用户一个认证的凭据。362注册用户注册、重定向到密码认证服务器的注册页面,发送验证信息到短信平台。目录第1章项目背景1第2章项目目标1第3章项目建设内容23.1 大湾区数据同步实施项目23.1.1 实时解析23.1.2 实时传输23.1.3 实时复制23.1.4 实时数据存储23.1.5 实时数据安全管理33.1.6 实时消费33.1.7 实时消息接口适配33.1.8 负载均衡33.1.9 表结构搬迁转换33.1.10 数据批量抽取33.1.11 数据全量导入43.1.12 迁移脚本开发43.1.
15、13 实时同步管理接口43.1.14 实时同步过程配置文件管理接口43.1.15 增量同步43.1.16 数据核对43.1.17 运维管理监控门户53.1.18 运维监控指标展示53.1.19 运维数据采集代理53.1.20 运维消息通知53.2 大湾区决策展示系统53.2.1 税源管理63.2.2 税收收入解构63.2.3 减税降费专题63.2.4 经济专题分析73.2.5 自然人分析73.2.6 发票实时监控73.2.7 发票票流分析73.2.8 产业链监控分析83.2.9 民生消费分析83.2.10 区块链发票分析8363修改密码大湾区智慧应用用户修改密码。364忘记密码大湾区智慧应用用
16、户忘记密码、密码找回验证。365成员页面间跳转单点登录后用户认证后页面跳转集成。366密码认证服务单点登录密码检验认证服务。367短信平台对接短信验证时,与现有短信平台进行对接。368短信认证服务后台短信验证码进行认证服务。3.6.9 访问网关统一认证和单点登陆平台为税务内部和外部用户提供了一个统 一的,集中的访问入口网关,利用这个网关平台可以实现对用户身份 的认证工作。3.6.10 系统审计管理记录所有用户敏感的操作,包括登录、登出、关键服务请求等。 系统设计通过日志或者策略服务器记录用户敏感的操作,包括登录、 登出、关键服务请求。3.6.11 用户访问控制对应用用户的开户、变更和停用进行管
17、理和控制;加强对密码认 证方式的管理,通过密码策略的制定和实施进行相应的安全控制;实 施权限控制策略,确保用户获得合适的操作权限。3.6.12 认证管理包括HTTP基本认证、数字证书、RSA SecurlD Token. WAP身 份认证机制、资源敏感的认证-对于特殊的资源需要额外的用户认 证机制,例如:在访问一般资源是只需要使用HTTP的基本认证机制, 但当这个用户访问其它更为机密的信息使,还会提示用户提供数字证 书来再次确定身份。3.6.13 身份信息管理系统的用户为各级税务工作人员。由于涉及复杂的功能分配和数 据级权限,除了人员基本信息(人员编号、姓名、出生年月、ID、部 门、机关)外,
18、还需要包含业务岗位信息,岗位是角色的集合,用于 功能权限的授予,业务岗位和权限机关的组合构成了执行岗位,用于数据权限的控制。3.6.14 身份和权限信息的存储内部税务人员和权限信息存储。3.6.15 权限信息管理功能权限:可以进行哪些增加、删除、修改和查询操作等。3.7大湾区非结构化数据存储支撑实现用对象存储方式,提供非结构化数据资产的统一存储和管理, 支持主流第三方产品对接使用,存储非结构化数据。3.7.1 集群概览提供资源使用情况、集群运行状态基本信息展现面板。3.7.2 存储池管理支持多存储策略,每个存储池可以配置不同副本策略,解决不同 业务场景。3.7.3 主机管理提供添加、删除主机功
19、能,通过可视化界面实现集群扩缩容;支持主机CPU,内存,磁盘状态监控,实时掌握主机运行状态。3.7.4 磁盘管理磁盘健康状态实时监控,支持在线换盘。3.7.5 监控告警支持多级事件告警,系统主动向注册邮箱推送告警信息,支持管 理页面查询告警事件。3.7.6 用户管理基于角色的用户权限管理,实现资源视图隔离。3.7.7 日志管理支持系统运行日志、用户操作日志检索功能,用于异常跟踪、系 统排障和用户行为审计。378多副本冗余支持2副本及以上的副本策略,针对不同业务设置不同等级的 数据可靠性。3.7.9 EC纠删码相比于副本方式,纠删码采用计算时间换取存储空间的方式,只需更少的存储空间,来保证数据可
20、靠性。3.7.10 容灾策略支持主机、机架、机房纬度容灾,解决不同业务对不同安全等级 要求。3.7.11 多数据中心支持跨区域复制,多数据中心数据同步。3.7.12 恢复控制当节点从异常状态恢复后,存储系统默认实现数据迁移以及数据 重平衡,同时提供恢复控制(RecoveryQoS)特性,让数据在恢复过 程中,对业务正常读写影响降到最低。3.7.13 集群巡检定期集群状态检查,提前发现系统潜在异常。3.7.14 硬件热插拔支持主机、磁盘热插拔,实现在线扩缩容、异常硬件剔除。3.7.15 Swift 接 口兼容 OpenStack Swift对象存储接口。3.7.16 FTP 协议兼容 FTP (
21、File Transfer Protocol)文件传输协议。3.7.17 读写缓存支持配置Cache,提升文件读取性能。3.7.18 在线扩容在线扩容,现有业务无感知。3.7.19 REST API支持REST API,便于二次开发对接现有系统3.7.20 多存储介质SATA HD多种存支持 NVMe SSD, SATA SSD、SAS HDD、储硬件,提供更多的性能、容量、成本选择。1.1.11 产业园分析81.1.12 产业园划定81.1.13 发票风险识别成效91.1.14 API服务平台接口对接91.1.15 地图接口91.1.16 维度模型数据91.1.17 系统初始化数据93.3
22、大湾区虚开和出口骗税分析系统103.3.1 大湾区虚开与出口骗税指标体系构建103.3.2 大湾区企业虚开风险预测智能画像113.3.3 企业出口骗税风险预测智能画像113.3.4 虚开与出口骗税扫描监控功能113.3.5 画像模型维护升级功能113.4 大湾区AI风险态势感知系统123.4.1 大湾区风险疑点库123.4.2 风险指标库管理123.4.3 风险指标集成123.4.4 风险态势展示133.4.5 风险趋势展示与预测133.5 大湾区跨境税源监管分析系统133.5.1 大湾区企业关联交易数据项集成133.5.2 大湾区企业生产经营数据项集成133.5.3 大湾区企业基本信息数据项
23、集成143.5.4 大湾区跨境税源数据项管理143.5.5 大湾区跨境税源查询分析143.5.6 大湾区跨境税源评价模型143.5.7 评价模型方法集成143.5.8 大湾区跨境税源模型监控153.5.9 大湾区跨境关联交易全景分析153.5.10 大湾区企业跨境关联交易信息查询153.6 大湾区单点登录用户认证系统153.6.1 登录153.6.2 注册153.6.3 修改密码163.6.4 忘记密码163.6.5 成员页面间跳转163.6.6 密码认证服务163.6.7 短信平台对接163.6.8 短信认证服务163.6.9 访问网关163.6.10 系统审计管理173.6.11 用户访问
24、控制173.6.12 认证管理173.6.13 身份信息管理173.6.14 身份和权限信息的存储183.6.15 权限信息管理183.7 大湾区非结构化数据存储支撑183.7.1 集群概览183.7.2 存储池管理183.7.3 主机管理183.7.4 磁盘管理193.7.5 监控告警193.7.6 用户管理193.7.7 日志管理193.7.8 多副本冗余193.7.9 EC 纠删码193.7.10 容灾策略203.7.11 多数据中心203.7.12 恢复控制203.7.13 集群巡检203.7.14 硬件热插拔203.7.15 Swift 接口203.7.16 FTP 协议203.7.
25、17 读写缓存213.7.18 在线扩容213.7.19 REST API213.7.20 多存储介质21第1章项目背景按照中共中央国务院关于支持深圳建设中国特色社会主义先 行示范区的意见以及国家税务总局关于国家税务总局深圳市税务 局开展税收征管创新先行先试工作的批复(税总函(2019)311号) 要求,为支持中国特色社会主义先行示范区建设和我局税收信息化建 设创新工作,国家税务总局(税总函2019)311号)批复深圳建设粤 港澳大湾区智慧税务大数据中心,在建设大湾区智慧税务大数据中心 方面进行先行先试,为税务系统信息化建设积累经验。第2章项目目标项目主要实现两大目标:一是大湾区数据底层平台统
26、一、互连互 通。结合深圳市局、广东省局、港澳税务信息化现状,构建底层统一、 数据实时互连互通的大数据基础平台,为各类上层应用提供架构支撑。 二是大湾区数据智慧应用智能化、一体化。基于大湾区数据底层,强 化大湾区税收合作,围绕风险管理、出口骗税、发票虚开、反避税、 区块链应用方面开发系统应用场景,强化大湾区税收统一监管。第3章项目建设内容3.1大湾区数据同步实施项目制定大湾区数据互通方案并实施。实现与大湾区税务部门的数据 互通,开发数据互通监控界面,用于日常运维监控。要点如下:3.L1实时解析在目标端服务器上部署新的OGG复制,通过OGG kafka复制 到大湾区kafka集群中。包括技术沟通、
27、讨论方案、申请权限、部署 实施、联调测试、网络打通等一系列实施工作。3.L2实时传输传输网络的协调沟通、联调测试、方案评估。3.L3实时复制实时解析trail文件,实时复制写入到kafka集群中。实时数据存储把OGG目标端ogg复制到新的kafka集群中。用于存储实时采 集的数据。包括机器申请、机器上架、网络联调、kafka部署实施、 联调测试。3.L5实时数据安全管理对实时存储在kafka中的数据进行topic, partition,表级数据访问权 限控制、黑白名单、用户认证授权管理。3.L6实时消费从kafka集群中消费端实时拉取同步的数据,实时同步到大湾区 大数据平台。3.L7实时消息接
28、口适配对消费的目标存储环境进行接口定制、适配、兼容开发,满足数 据实时变更和计算。3.L8负载均衡在实时消费过程中,对消费端服务进行负载均衡,负载均衡算法 包括有随机、最小连接数、IP hash、轮询算法。3.L9表结构搬迁转换表结构迁移、转换成大湾区目标端实时数据存储环境表结构。3.1.10 数据批量抽取迁移全量的数据到大湾区大数据平台实时MPP数据库中。3.1.11 数据全量导入对抽取的文件进行处理后批量并行加载到目标环境中,乱码处理、 编辑转换。3.1.12 迁移脚本开发对于全量搬迁的数据进行批量脚本开发、包括数据和表结构、文 件处理、数据加载。3.1.13 实时同步管理接口对于实时同步
29、整个数据流进行图形化监控和运行日志查看。3.1.14 实时同步过程配置文件管理接口数据源抽取、投递、复制、MGR管理服务的配置文件的管理接 口开发。3.1.15 量同步从省局OGG目标端复制到kafka再到MPP,整个数据流的实时 数据同步联调。3.1.16 数据核对定期全量数据与大数据平台进行核对。3.L17运维管理监控门户监控kafka、ogg复制监控、kafka实时消费监控、MPP数据库监 控。3.1.18 运维监控指标展示OGG, kafka,实时消费,同步数据的监控指标数据采集,处理, 图表展示。3.1.19 运维数据采集代理运维监控指标的实时采集和数据预处理。3.1.20 运维消息通知运维告警消息通知提醒。3.2大湾区决策展示系统大湾区决策展示系统项目目标是作为湾区的综合性分析决策支 撑平台,利用大数据相关技术整合、清洗、挖掘、分析、应用湾区的 数据,最终利用多种可视化技术图表、视频动画及地图从多维度去剖 析展现数据,让数据展示更加生动具体。此次项目在深圳大数据决策平台的基础上,打通湾区的数据、整 合现有业务功能、丰富平台的内容、优化可视化展示的效果、开发新