2022年Hadoop技术在电信运营商上网日志处理中的应用架构 .pdf

上传人:Che****ry 文档编号:34883898 上传时间:2022-08-19 格式:PDF 页数:3 大小:48.66KB
返回 下载 相关 举报
2022年Hadoop技术在电信运营商上网日志处理中的应用架构 .pdf_第1页
第1页 / 共3页
2022年Hadoop技术在电信运营商上网日志处理中的应用架构 .pdf_第2页
第2页 / 共3页
点击查看更多>>
资源描述

《2022年Hadoop技术在电信运营商上网日志处理中的应用架构 .pdf》由会员分享,可在线阅读,更多相关《2022年Hadoop技术在电信运营商上网日志处理中的应用架构 .pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Hadoop 技术在电信运营商上网日志处理中的应用架构大数据时代的IT 架构设计本书以大数据时代为背景,邀请著名企业中的一线架构师,结合工作中的实际案例展开与架构相关的讨论。大数据时代的IT 架构设计作者来自互联网、教育、传统行业等领域,分享的案例极其实用,代表了该领域较先进的架构。本节为大家介绍Hadoop 技术在电信运营商上网日志处理中的应用架构。AD :一、电信运营商上网日志处理的现状在移动互联网如此普及的今天,每天会产生大量的上网日志,这些上网日志由于数据量巨大,产生后只能被保留3 天,就因为存储空间等原因被丢弃。目前,电信运营商只能基于CDR(详细通话记录)为主的客户行为分析可能缺失

2、了大量的客户行为有效信息。例如,两个通话行为相似的人可能是完全不同类型的客户,如果将之同等对待,客户的接受度必然很差,浪费大量资源,并且无法取得良好的效果。这种分析,由于无法知晓通话内容,两个通话行为模式类似(例如夜间长时间的长途电话水草玛瑙 ) ,实际通话目的及生活方式(其中一个是晚上与朋友聊天, 另一个是加班需要的工作电话)完全不同的两个人往往在分析中被误归为一类,从而导致对客户的理解有较大偏差,营销效果不佳。用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,而又是传统的CDR 话单分析所不能提供的。因此,这就要求用户的上网日志记录必须被保存,而且还需要进行数据分析挖掘

3、处理,然后根据处理结果定义用户的行为习惯,为电信运营商实现精细化运营提供重要的营销依据。随着 Hadoop 技术平台系统的出现,可以实现上网日志的存储,同时提供数据挖掘处理功能。二、上网日志数据处理方法的流程上网日志数据处理方法的流程如下:1对上网日志数据的URL 地址进行提取。2对已知的URL 数据,按照基准URL 分类准则进行分类。3对未知的URL 地址,首先爬取网页数据,然后对爬取的网页数据按照网页分类模型,进行网页分类,不断优化模型,提高网页分类的准确性。4根据每个人访问网址和对应网址的网页分类,利用模型统计出每个手机号码的个人喜好,为精准营销提供依据。具体流程如下图所示。三、上网日志

4、系统的技术架构方案基于上述处理流程,上网日志处理系统的逻辑架构方案如下图所示。针对每一部分的具体功能介绍如下。数据源从电信运营商系统服务器定时获取用户基本信息和上网日志信息,输入到集群HDFS 文件系统和 HBase 数据库中。接口层接口层负责与外部系统的数据进行交换,包括用户数据、上网日志数据的采集,互联网网页内容的爬取和对外围系统提供高山茶 访问接口。数据接口可实现对关系型数据库,如Oracle、DB2 等的数据交换,包括采集和加载过程,同时也支持文件类型的数据,可以通过FTP 等方式进行采集。系统对外提供统一访问接口,具有开放性、高性能、可监控管理和安全性等特征。数据层数据层是分布式大数

5、据处理平台,从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到分布式存储中去。通过分布式计算框架可以实现数据的清洗、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 转换、校验和装载等过程。资源层由于分布式架构带来的硬件部署的复杂度,需要对物理资源层和系统平台层提供进一步的抽象,以提供自动化部署和弹性的运维能力,因此资源层实现了对物理资源的自动部署和动态扩展,对分布式集群中不同角色进行灵活部署。功能

6、层功能层实现了数据处理流程模块的模块化处理,提供集群的访问控制,并负责Hadoop 集群的运行管理和系统报警日志管理。数据处理能够进行任意串并联的流程调度,并且能够控制节点的优先级、超时时间、重试次数,同时具备路由判断能力,能够在多分支的情况下通过条件进行不同的流程流转。采用异步调度策略,能够支持大并发量的调度。应用层负责应用功能的具体算法实现。实现了网页分类索引,通过互联网注册URL 及其类别的爬取,对数据进行统一管理,并置于持久化存储中。将其中的类别进行模块化重组,划分至对应的层次结构,如(社交-社区)或(社交-微博),对类别进行索引。实现了词库分类管理,通过对网络热门词汇及常用词汇的爬取

7、,根据所属类别构建分词词库。词库定期更新,不断完善。实现了用户行为统一分析,基于客户的访问行为,识别其偏好特征,根据内容偏好特征进行客户细分,并支持目标客户群提取,以便支撑营销活动,实现了URL 地址统一管理。展示层负责将应用功能处理结果通过Web 页面展示,并且提供交互页面, 熟练使用各种应用处理功能,并对处理结果进行动态展示。网络爬虫负责从互联网系统中爬取网页的具体内容信息。具体处理流程是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。程序从日志文件中提取URL 地址,并进行过滤、去重操作。其中过滤操作去除图片、视频、软件等内容的URL 地址;去重会把重复的URL 、已经抓取的URL

8、 、已经分类的URL 地址去掉。剩下的URL 地址送入爬虫的地址库中,爬虫会根据一定的规则产生要抓取的URL 地址,然后通过MapReduce 的方式并发抓取产生的URL 地址,最终把抓取到的URL 地址的内容存储到HDFS 文件系统中。由于网络爬取流程需要互联网资源支持,数据处理Hadoop 集群是和电信运营商内部网络互联,而且Hadoop 集群的安全处理措施不够完善,因此,它们之间的访问需要严格控制,以保证网络部署安全。在物理架构设计上,需要设计两个完整的内部集群网络,集群网络之间需要用防火墙进行访问控制。上网日志处理系统的物理网络部署拓扑如下图所示。四、上网日志系统方案的优势上网日志系统

9、采用Hadoop 技术解决方案的优势有如下几点。1Hadoop 技术方案是基于分布式基础架构,充分利用分布式两大核心技术分布式文件系统与分布式计算框架,构建了一整套完整的分布式存储和分布式计算系统。分布式系统有着高容错性的特点,并且设计用来运行在采用X86 架构的普通PC 服务器上, 大大降低了服务器和存储的成本,以及数据库License 的成本,有效缓解了系统扩容带来的高成本压力。2Hadoop 技术方案采用并行处理大数据集的软件框架。在处理大数据的时候,通过分布式计算将其任务分解并在运行的多个节点中处理。当集群中的服务器出现错误时,整个计算过程并不会终止,同时分布式系统可保障在整个集群中发

10、生故障错误时的数据冗余。这种设计方案可以使网络爬虫、网页分类和上网行为等模型快速、高效运行。目前在国内,像天云大数据、华为、亚信等多家知名的大企业都针对上网日志处理系统按照上述架构,提出了完整的解决方案。尤其是天云大数据公司,他们依托自主研发的BDP 平台软名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 件(包含Hadoop 平台的完整解决方案)和公司强大的算法支持团队,已经成功地在某省级运营商运行平台上部署了上网日志处理系统,

11、为该公司的用户精准营销提供了强有力的支撑。作者介绍:方建国,微软三届MVP ,某知名房地产公司资讯科技高级主任。多次参与大型实际生产环境的部署及维护,对服务器存储以及虚拟化架构、解决方案(服务器整合、虚拟桌面架构)有深入的研究,尤其是基于Windows 虚拟化解决方案。 【责任编辑:book TEL : ( 010)68476606】回书目上一节下一节Absolute C+ 中文版 (原书第 2 版) 本书是讲解C+语言程序设计的优秀教程。全书围绕C+语言来组织,开始章节介绍编程的普通感念,接下来详细介绍C+中的继承、多态名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁