《集团大数据平台整体方案业务需求分析.doc》由会员分享,可在线阅读,更多相关《集团大数据平台整体方案业务需求分析.doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、集团大数据平台整体方案业务需求分析1.1 总体需求大数据平台应支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。大数据平台要求使用Hadoop系统应实现主流数据仓库的功能,同时支持与现有系统Oracle数据库及Teradata数据仓库的无缝连接。大数据平台需支持多应用管理,即支持对应用的服务级别管理(SLA)。能够实现应用的访问资源控制,支持资源隔离。同时支持多租户功能,例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户
2、管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理功能,支持使用工作流的可视化的方式对工作任务进行统一编排和调度。同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL调度任务的部署和并行处理等功能。集团大数据平台的建设内容包含:图3-1大数据平台建设内容重点建设内容包括:1) 基础平台建设2) 量收迁移3) 六大重点应用4) 与CRM、综分、MDM等系统的融合5) 基于大数据平台的数据应用。1.2 数据管理集团大数据平台的数据管理,包含数据采集、数据交换、数据存储与管理(包含结构化数
3、据管理、半/非结构化数据管理、数据存储等)、数据清洗加工、数据计算和查询等方面的内容。1.2.1 数据采集大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。1.2.2 数据交换与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面,需要考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数
4、据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。1.2.3 数据存储与管理结构化数据管理包括对结构化数据的采集管理、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。半/非结构化数据管理包括半/非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能。数据存储管理功能包括数据分区划分方式、适用场景、对应计算处理框架、硬件
5、配置推荐等。同时需要支持多存储层级,实现数据的多温度管理,能够将数据存储在不同IO读写速度的不同介质上。支持对数据生命周期进行管理。支持多种索引模式,具有索引分析与选择功能和工具。支持多数据副本管理功能,能够进行数据平衡、索引平衡的检测。支持自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。支持在线变动节点管理功能,支持在线增加、删除节点时,数据和索引的倾斜探测和自动平衡功能,保证平滑扩展和性能的线性增长。支持多种数据分区管理、多数据类型管理、多文件格式管理、数据自定义标签管理、数据块读写锁处理、数据文件元数据备份和恢复,支持数据压缩、表压缩功能,节省数据空间。1.2.4 数据加
6、工清洗支持数据从来源端经过抽取、转换、加载至目标端的过程。支持多数据源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等数据源。实现传统数据库、数据仓库与Hadoop以及Hadoop集群之间的数据抽取、转换、加载等功能。支持数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理;支持数据清洗功能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。1.2.5 数据查询计算支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。支持并行计算及并发处理功能,支持多服务
7、器、多CPU、多进程并行及并发处理数据的机制。支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。能够实现OLAP查询功能,需要内置OLAP函数,支持超大数据立方,支持雪花、星型等复杂模型。支持CUBE,支持国际SQL92、SQL2003标准,能够实现数据字典、动态SQL执行、视图、子查询、JOIN 查询功能。支持全文检索。支持中文字符集,实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。1.3 数据管控 数据管控主要是对主数据、元数据、数据标准和数据质量的管控。集团大数据平台的数据管控组件对集团集团现有的产
8、品能够完善集成,使集团元数据能够整体管理。图3-2大数据平台数据管控1.4 数据分析与挖掘本方案对R语言提供支持。支持ANSI SQL、Python、R、Java、C/C+等语言的使用。应提供图形化界面操作支持,操作界面要求简体中文。支持对TB以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供支持。支持处理过程的数据预览功能。支持数据分析挖掘算法管理,每个算法能够灵活选择数据源。支持对分析挖掘的脚本和模型的共享,可实现用户分析挖掘脚本和模型的发布与管理。支持数据的探索和发现,实现通过作图、制表、方程拟合、计算特征量等手段探索数据结
9、构和规律。对统计分析方法、数据挖掘、模型预测提供支持,并实现其分布式并行计算。对常用场景实现提供支持。场景包括客户画像、产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。对分析挖掘的脚本和模型的快速应用、服务提供支持,能够快速生成分析报告和图表、发布实时/非实时的分析应用、使用Web方式访问分析应用成果。实现对分析指标管理、分析过程的管理以及对挖掘模型固化的支持。1.5 数据展现支持多数据来源输入输出;支持表格、图形、地图等可视化元素展示,对电子地图、GPS定位的应用、服务提供支持。支持数据互动、过滤、钻取、刷取、关联、变换等功能。支持多维度多种类的自定义。支持数据脱敏的展示。支持多种展示端的展示,包括PC端、移动端、大屏等。其中移动端应基于集团移动应用平台架构建设。1.6 量收系统功能迁移量收系统主要功能有基本业务分析、渠道分析、产品分析、大客户分析、欠费分析、流量流向分析、进销存分析、预警稽核、系统优化功能等,需要对原量收系统全部功能进行迁移。