上海联通大数据平台规划方案34790.pptx

上传人:jix****n11 文档编号:91081042 上传时间:2023-05-21 格式:PPTX 页数:24 大小:1.74MB
返回 下载 相关 举报
上海联通大数据平台规划方案34790.pptx_第1页
第1页 / 共24页
上海联通大数据平台规划方案34790.pptx_第2页
第2页 / 共24页
点击查看更多>>
资源描述

《上海联通大数据平台规划方案34790.pptx》由会员分享,可在线阅读,更多相关《上海联通大数据平台规划方案34790.pptx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、250,190,0160,160,160236,229,206241,212,175224,142,121一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号2023 年5 月15 日上海联通大数据平台规划方案汇报一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,22

2、9,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号目 目 录 录二、大数据平台整体规划一、大数据应用发展趋势一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A

3、0A00F4B69FABE00SwiffChart 16 进制编号大数据 大数据所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。从大量数据中挖掘高价值知识是各界对于大数据的一个共识。海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。Google 首席经济学家 Hal Varian大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果就越接近于

4、真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,对企业产生新的价值。一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号大数据对 大数据对 电信 电信 运营商的应用价值体现 运营商的应用价值体现31 54 2自助分析、生

5、产管道可视化、资源解耦随需而动,营销实时,以业务效率提升为标志。提升业务效率数据集中到数据中心,多数据源管理,透明服务支持,实时的决策和预测能力提升整体经营管理水平。增强管理水平数据开放服务、与OTT厂商合作的后向收费、广告等新业务.创新商业模式互联网化的电子渠道全景体验、个性化商品推荐、LBS位置营销、面向客户个体的深度洞察提升客户体验以技术驱动为标志,内存计算、MPP、CEP分而治之的分布式计算让运营商实时高效决策.技术高效、低成本一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,22

6、9,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号上海联通数据 上海联通数据 平台现状 平台现状精细化营销数据中心营账系统经分(BI)GN口上网话单终端(DM)VAC短彩信中心语音通话详单客服接触记录流媒体平台详单位置信令话单基站信息116114企业黄页信息渠道应用助销信息 经过一二期的建设,精细化运营平台的数据中心,已经成为上海联通最大、内容最丰富的数据仓库;随着数据量的增长,需要对基础架构做长远规划;有必要深入挖掘数据

7、价值,研究新的商业模式,将成本中心转化为利润中心一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号5 增量式的、几乎无限的扩展 要求系统总是在线运行扩展性 灵活可动态改变的数据模型可用性灵活性扩展性 纵向扩展 横向扩展分布式资源集中计算和存储分布可用性 单份数据 数

8、据复制 不要使用分布式事务处理 一致性大数据处理的需求和特点 大数据处理的需求和特点一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号低成本运营一体化运营精细化运营全网运营实时、智能化运营集中化建设、管理和维护可不断线性扩展提高资源综合利用率标准化功能组件,可共享可

9、复用按业务量、按需支付BASS与BOSS、CRM的一体化BSS与MSS、OSS、VAS等跨域一体化对外部客户和应用的一体化片区化、网格化管理长尾市场、小众市场的支撑个性化、短周期需求的满足异地客户、家庭客户、集团客户一点接入、全网服务、全网客户画像全国统一套餐、全网营销、统一客服实时数据获取、处理、分析智能化主动事件触发智能管道移动互联网业务运营发展趋势 对业务支撑平台的集中化要求 对数据架构的集中化要求n集中化、大容量、高扩展、高可用数据库平台:支持全网型数据、跨域数据的整合,形成集中化管理的的企业级数据中心n高性能:支持3G时代更高的实时性要求、支持n动态资源共享:支持多租户管理、资源动态

10、按需供应n可重用、标准化组件:形成可重用组件,支持一次开发、各省共享的模式,形成规模型效益 数据集中化趋势使得运营商面临着海量数据的存储及分析问题,大数据在支撑移动业务发展趋势中,充当重要角色。电信运营商数据集中化趋势 电信运营商数据集中化趋势一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00Swif

11、fChart 16 进制编号7电信 电信 运营 运营 面临的大数据挑战 面临的大数据挑战移 动 互 联 网 和 个 人 消 费 领 域 业 务 扩 展 和CEM 导 致 海 量数据的及时分析带来挑战运 营 商 一 体 化 集 中 运 营 和 透 明 管 控,催 生 巨 大 的 经 营 分析数据仓库,对大数据的存储、性能、开放带来挑战DPI 和 信 令 监 测,产 生 的 大 量 事 件 在 存 储 和 用 户 通 信 行为分析的实时处理性能带来挑战ICT 融 合,核 心 网 络、运 营 支 撑 和VAS 业 务 数 据 的 融 合催 生 海 量User Profile 并 集,对 大 数 据

12、的 关 联 分 析 计 算效能带来挑战移动互联网流量井喷与客户行为分析 业务融合、能力互通带来数据融合提升客户体验要求分析网络服务数据 IT系统集中化和行业数据价值挖掘BSS BI数据:n河南17个地市,每天抽取正常用户数7000多万,拨备用户数3000多万,DW层用户表总量1亿多条;语音清单每天2.7亿条数据,GPRS清单每天4.2亿条数据;账务每天4.7亿条数据;GPRS文件每个100M左右,其它文件25M。n日接口数据量:2000G,其中话单 220G,WAP清单 300G,工单服务 200G,用户、帐务 300G,其它980G。每月124TB数据量入库,历史数据保留1年,总数据量1.4

13、5PB。n按照用户数简单测算,6.5亿用户下,总数据量 10PB!联通总部3G互联网访问记录查询及分析系统:全国每日新增10TB数据,每月近万亿条记录,要存放6个月,约 2PB的上网记录数据。上网记录入库时间小于30分钟,原始上网记录保留6个月。上网查询速度不高于1秒,并发查询数1000请求/秒。集群规模188个数据节点,存储容量2.6 PB一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部

14、/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号 传统数据仓库无法有效存储日益增长的业务数据存储需求基础数据(用户资料,产品订购信息):15G/日*365+40G*12月=5T/年考虑20%的业务增长率后为:6T/年用户上网数据话单数据:250T/年考虑20%的业务增长率后为:300T/年MR 数据话单数据:634G/日634G/日*365=227T/年考虑20%的业务增长率后为:272T/年BSS 数据新增新增评估中 评估中2025303540452013 年下半年用户流量增长趋势日使用流量(TB)6 月 10

15、月n 随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等n 传统数据仓库只保存处理后的汇总数据。在大数据架构下需要对用户原始话单进行长期保存。需要扩容大量存储空间。大 大 数据使得现有的数据处理 数据使得现有的数据处理 方法面临 方法面临 新问题 新问题 用户层现平台的数据保存周期大数据的数据保存周期应用层 KR/CB/DM 层 永久保留 至少2 年数据存储层MK层 永久保留 至少2 年DW 层 5 个月 永久保留数据获取层 ODS 层 37 天 永久保留面对海量的数据压力,需要大数据平台

16、提供可供线性扩容的存储能力。一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号n 每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常缓慢。n 由于传统数据仓库的数据处理流程与业务保持紧密关联。

17、整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。大 大 数据使得现有的数据处理 数据使得现有的数据处理 方法面临 方法面临 新问题 新问题数据源明细数据层(DW)汇总层(MK)报表数据标签库指标数据客户统一视图应用层DW&MK操作型数据ODS层Oracle数据库精细化营销架构短信中心 经分 DM VAC GN话单流媒体 客服系统 计费中心 MC 话单 彩信中心MR 数据 BSS 用户互联网联系方式(总部研究院)241234n 现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理,缺乏非结构化数据

18、的处理能力。用户上网行为等互联网行为数据以结构化数据方式保存至数据仓库中。传统数据仓库无法有效应对大数据分析需求1n 现网每日用户上网HTTP话单达14亿条。每月汇总的记录条数也近30亿条。随着移动互联网正在迅猛增长,传统数据仓库将很难驾驭,无法满足数据处理时限和事务处理需求。3面对海量的数据压力,需要大数据平台提供快速的处理能力。一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E

19、08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号大 大 数据使得现有的数据处理 数据使得现有的数据处理 方法面临 方法面临 新问题 新问题 传统数据仓库组网将是大数据分析的瓶颈n 现网精细化营销平台的数据库既存放着所有采集的原始数据,又承担所有的数据加工任务,还承载所有报表和业务应用的数据存储和计算。缺乏对数据分层分级及生命周期的有效管理。n 系统核心架构为Oracle数据库+小型机+磁阵。数据存放在磁阵上,计算时由数据库服务器从磁阵读到本地后进行计算结果。随着数据量增长,磁盘I/O、网络带宽、数据库服务器的处理能力将存在瓶

20、颈,处理时延严重。由于传统架构的可扩展性差,无法满足大数据的计算的扩容需求。为应对海量数据处理需求,大数据将从集中数据库向分布式数据库进行转变。计算和存储资源都由x86服务器提供。一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号 因为在移动互联网和物联网上需要有新

21、领域的突破,不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力。关系数据库引入对XML 的支持仍然无法有效处理 ETL大 大 数据使得现有的数据处理 数据使得现有的数据处理 方法面临 方法面临 新问题 新问题 传统数据仓库无法有效处理新型的业务数据主要关键技术自然语言理解,文本分词、语义分析,情感分析或者大规模计算技术非结构化数据索引技术,如搜索引擎倒排索引技术多媒体处理,包括图像识别,语音识别,多媒体索引等技术 传统数据仓库无法有效支撑数据合作运营n 由于保存原始话单数据周期较短,合作运营无法追溯历史原始数据。n 现网传统主数据库的设计只适用与向上层

22、提供既定好的数据分析任务结果。对外开放底层数据将大大消耗系统资源,影响主库正常的数据处理流程。同时数据的处理方式及结果也恐难以满足合作运营的需要。n 大数据平台的架构将数据分层管理。在各层提供数据开放接口,以满足不同数据需求。将更有效支撑数据合作运营。同时历时数据能促使合作在第一时间就开展起来。一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1

23、D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号目 目 录 录二、大数据平台整体规划一、大数据应用发展趋势一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号上海联通大数据平台目标架构及定位 上海联通大数据平台目标架构及定位准实时采集

24、批量采集Hadoop平台MPP,基于X86平台主数据仓库分布式数据库基于X86平台数据采集(云化ETL,流数据处理、爬虫)数据层获取层能力层精细化营销 智能运营 物联网应用 应用商店 客服应用基础分析能力 数据挖掘能力 实时分析能力 自助分析能力 多维分析能力 数据共享能力指标应用 报表应用 主题分析 专题分析互联网 GN口半结构化、非半结构化、非结构化结构化数据数据BSS 经分 DMVACMC话单 业务平台结构化数据结构化数据数据源分布式文件系统 HDFS记录明细数据HBase M/R Hive记录汇总数据数据统一服务和开放SQL、FTP、WS、MDX、API、分布式数据库(MPP):存储加

25、工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。主数据仓库(与MPP合设):存储指标数据、KPI数据和高度汇总数据。Hadoop云平台:负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。数据开放接口:向大数据应用方提供大数据平台的能力。数据采集(ETL):负责源数据的采集、清洗、转换和加载包括:1、把原始数据加载到Hadoop平台。2、把加工后的数据加载分布式数据库和主数据仓库应用层一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0

26、,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号l HDFS:分布式文件系统 有较强的容错性 可在x86平台上运行,减少总体成本 可扩展,能构建大规模的应用l HBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全 列式存储,节省存储空间 提供大数据量的高速读写操作l Hive:分布式关系型数据库 数据可保存在HDF

27、S,可提供海量的数据存储 类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理 通过MapReduce实现大规划并行计算l MapReduce:大规划并行计算引擎 可将任务分布并行运行在一个集群服务器中Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源,Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。大数据平台:大数据平台:Hadoop Hadoop 主要功能 主要功能HBase MapReduce HiveHDFS快速的数据读取大数据存储统计复杂计算并行

28、处理一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号Shared Nothing代表数据库:GreenPlum、Vertica、Teradatal适合大数据量的OLAP应用缺点优点线性扩展:X86平台高可用性较低新型MPP数据库主要构建在x86平台上,为无共享架构

29、(Share Nothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。大数据平台:大数据平台:分布式数据库 分布式数据库l 新型MPP分布式数据库 基于开放平台x86服务器 大规模的并发处理能力 无单点故障,可线性扩展 多副本机制保证数据安全 支撑PB级的数据量 支持SQL,开放灵活一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,1752

30、24,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号数据分级存储原则 数据融合与分级存储实施按数据血缘 按逻辑层次 按业务种类按设备网络划分 按设备物理地址在线、近线、离线按访问频度内存数据库按响应及时性内存数据库 数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理属性分级原则高性能磁盘库磁带

31、光盘库中低性能磁盘库 将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据 数据 数据1、核心模型融入主数据仓库主数据仓库主数据仓库2、历史数据迁移到分布式数据库分布式数据库分布式数据库1、清单数据入MPP数据库大数据平台:大数据平台:数据分级存储 数据分级存储一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241

32、,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号Hadoop平台主数据仓库报表数据标签库指标数据客户统一视图信息子层话单数据非结构化数据信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总。明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规

33、则进行的拆分及合并ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。明细数据层(DW)轻度汇总层(MK)高度汇总层(MK)应用库精细化营销分布式数据库MPP 其他应用1其他应用2应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,有由大数据平台提供数据支撑数据访问SQLFTPHSQLAPIETL数据采集ETL互联网GN口非非结构化数据结构化数据BSS经分DMVACMC话单业务平台结构化数据结构化数据数据源 获取层1 2123344大数据平台:大数据平台:数据分层 数据分层一级标题华黑

34、/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号 源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到主数据仓库,规划保存3年 清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年 ODS数据和非结构

35、化数据,如爬到的网页数据ftp到Hadoop平台做长久保存 非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库 生成KPI和高度汇总数据加载到主数据仓库。Hadoop平台主数据仓库报表数据标签库客户统一视图信息子层话单数据非结构化数据明细数据层(DW)轻度汇总层(MK)高度汇总层(MK)应用库分布式数据库MPP数据访问SQLFTPHSQLAPIETL数据采集ETL互联网GN口非非结构化数据结构化数据BSS经分DMVACMC话单业务平台结构化数据结构化数据数据源 获取层123465 业务应用通过数据访问接口获取所需求数据。7精细化营销其他应用1其他应用2指标数据大数据平台:大

36、数据平台:数据处理流程 数据处理流程一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号消息采集文件采集话单预处理信令预处理Gn话单位置信令DCNBSS 炫铃 VAC短彩平台物联网客服平台1*10GE1*GE2*GES9300 S9300分布式数据库集群新建ETL、分

37、布式数据库和Hadoop集群内部各自独立组网。分别通过10GE网口接入汇聚交换机。Hadoop集群1*10GEETL集群1*10GE大数据 大数据 平台的组 平台的组 网 网一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号20Pcap数据(DPI)互联网路由器路由

38、器防火墙WAP网站WWW网站分光镜像DPI数据爬取数据爬取数据采集Agentcollector日志采集网元设备(GGSNPDSNWAP网关、NET网关)/Apache日志核心设备话单互联网页面数据正向采集用户行为数据反向采集互联网数据 建设方案p 基于Hadoop构建大数据的用户行为分析系统p 系统提供了核心的分布式云存储、分布式并行计算、分布式数据仓库、分布式列数据库整体解决方案 方案延伸p 基于Hadoop的大数据解决方案提供了基础的云存储和云计算的能力,基于该技术框架可进行应用的扩展和衍生。p 基于用户互联网访问行为分析结果,形成详细的户兴趣爱好列表,可进行即时、精准的广告投放大数据平台

39、有助于提升现网分析能力 大数据平台有助于提升现网分析能力一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号21系统 系统构成 构成p 系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统p 采用Hadoop/HBase作为上网记录存储方案

40、p 采用MapReduce/Hive作用统计分析和数据挖掘工具关键性指标 数据存储p 上网记录入库时间:一般小于30分钟,实际约10分钟p 历史5个月+当前月 数据查询p 上网记录查询速度:不高于1秒(不含用户访问查询页面的时间)p 并发查询数目:1000请求/秒大数据 大数据 平台有效提升数据查询速度 平台有效提升数据查询速度 以手机上网详单查询为应用案例一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,

41、105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号22n 项目背景p 运营商建设有多套垂直的网管子系统,目前系统数据集中程度不够,还未形成统一的数据标准和数据共享框架,对运营支撑的支撑力度不够,而网络运维分析在面向服务转型的过程中对数据的汇聚和共享要求极为迫切,因此需要建立统一的网管资源池p 网管资源池主要负责各个垂直网管子系统信令数据、日志数据的、告警数据的统一管理,实现跨平台的数据整合、数据应用和数据共享等功能,p 网管统一资源池需提供海量历史数据的查询功能,满足运维人员日常信息查询和信息追溯的需

42、要。p 系统与呼叫中心、工单系统对接,实现快速的数据交付(工单生成、告警触发)n 难点分析p 多个垂直网管系统的数据结构千差万别,抽取后的数据无法关联形成统一的数据集合,传统关系型数据库优势无法体现p 系统需要满足OLAP 类应用分析,并面向上层应用提供一致性的数据查询,传统的关系型数据库受限于数据体量和数据种类,无法满足多类型的海量数据的查询和分析要求p 系统需同时从多个数据源实现数据库数据、信令数据和日志数据的采集,传统的ETL 工具无法满足流式数据的采集要求,导致进程拥塞。n 建设方案p 基于不同的数据源及应用分析模式采用Flume、Sqoop 等系统工具完成结构化和非结构化数据的导入p

43、 基于HDFS 实现海量历史数据的存储p Hive组件可通过SQL 命令完成大数据的统计分析,并与传统关系型数据库配合完成分析结果数据的存放p HBase 主要应用于历史数据的查询,例如:查询1 天全网所有隐形故障告警数据大数据 大数据 平台适应复杂数据结构的数据整合应用 平台适应复杂数据结构的数据整合应用一级标题华黑/Arial黑色(0,0,0)16-20 号正文华楷/Arial黑色(0,0,0)14-16 号250,190,0160,160,160236,229,206241,212,175224,142,121204,0,015,75,105主色系局部/辅色系E08E79CC0000ECE5CEF1D4AFA0A0A00F4B69FABE00SwiffChart 16 进制编号

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁