《基于云计算技术的大数据管理平台PPT.pptx》由会员分享,可在线阅读,更多相关《基于云计算技术的大数据管理平台PPT.pptx(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于云计算技术的基于云计算技术的大大数据分析处理平台数据分析处理平台大数据分析处理概述基于云计算技术的大管理平台大数据分析处理概述电子商务生产制造形成商品上架的时机和策略分析以及个性化的用户推荐系统形成如市场走势、成本控制、供应链策略等分析报告形成商品排行榜、好评度,用户等级、积分等信息形成比如合格率、损耗、占有率、单位成本等生产经营指标信息按时间、地域、种类等维度对数据进行清理和存储数据清理、融合和存储大量的商品、用户以及在线消费行为数据生产全流程数据供应商相关数据客户、订单、市场数据大数据分析处理理念大数据分析处理理念智能决策企业经营活动以及消费者行为等产生的海量数据数据采集、清理并存储原
2、始数据集信息建模计算形成有价值的信息知识归纳总结形成知识资产数据采集传输存储数据加工深度分析大数据分析处理从数据到决策支撑大数据分析处理应用大数据分析处理应用大数据分析处理示例大数据分析处理示例患者记录的汇总挖掘和在线诊疗平台和社区。患者记录的汇总挖掘和在线诊疗平台和社区。研发资源的分布模型预测、研发资源的分布模型预测、临床实验设计以及个性化临床实验设计以及个性化药物设计;药物设计;比较效果研究比较效果研究(CER)(CER)、临床决策支持以及临床、临床决策支持以及临床数据的透明度控制;数据的透明度控制;支持欺诈检测的数据分析算法以及基于临床效果的药支持欺诈检测的数据分析算法以及基于临床效果的
3、药物定价体系;物定价体系;公共卫生监测和反馈系统;公共卫生监测和反馈系统;大数据分析处理示例大数据分析处理示例市场营销:交叉销售,基于地点的营销推广,店内行为分析,市场营销:交叉销售,基于地点的营销推广,店内行为分析,客户精分,情绪分析,多途径消费者体验提升;客户精分,情绪分析,多途径消费者体验提升;经营策略:分类优化,定价优化,位置和设计优化;经营策略:分类优化,定价优化,位置和设计优化;运营管理:经营状况分析,劳力投入优化;运营管理:经营状况分析,劳力投入优化;供应链管理:库存管理、采购与物流系统优化,供应商交涉;供应链管理:库存管理、采购与物流系统优化,供应商交涉;商务模式:价格比对服务
4、,线上线下业务同步。商务模式:价格比对服务,线上线下业务同步。沿供应链构建一致的、可互操作的、跨功能的研发和产品设计数据库沿供应链构建一致的、可互操作的、跨功能的研发和产品设计数据库,支持并行工程设计、支持并行工程设计、快速模拟仿真以及共同创建等的实现;快速模拟仿真以及共同创建等的实现;整合并开放用户数据,用以改善服务水平和获取上下游销售机会;实现面向价值的产品设整合并开放用户数据,用以改善服务水平和获取上下游销售机会;实现面向价值的产品设计;计;实现需求预测分析以及随需应变的采购计划制定;实现需求预测分析以及随需应变的采购计划制定;实现数字化可视化的精益生产和模型设计,达到过程透明、生产可控
5、和风险可视的目的;实现数字化可视化的精益生产和模型设计,达到过程透明、生产可控和风险可视的目的;通过数据驱动的逻辑运算分析方法来提升生产能力和实现大范围的用户定制化;通过数据驱动的逻辑运算分析方法来提升生产能力和实现大范围的用户定制化;采集售后数据和用户反馈信息,用以制定售后服务策略以及发现设计和生产上的缺陷。采集售后数据和用户反馈信息,用以制定售后服务策略以及发现设计和生产上的缺陷。大数据分析处理示例大数据分析处理示例实现公开与透明;实现公开与透明;实现需求发掘、可变性控制以实现需求发掘、可变性控制以及功能提升的循环验证机制;及功能提升的循环验证机制;群体细分及人物画像;群体细分及人物画像;
6、决策支撑体系决策支撑体系商务模式、产品和服务的创新商务模式、产品和服务的创新支持;支持;个性化的个性化的LBSLBS应用和服务,比如应用和服务,比如最优路径、汽车远程信息处理、最优路径、汽车远程信息处理、手机定位等服务;手机定位等服务;对个人位置信息的使用,比如广对个人位置信息的使用,比如广告推送、电子收费站、保险定价告推送、电子收费站、保险定价和应急响应等;和应急响应等;对群体位置信息的使用,比如城对群体位置信息的使用,比如城市规划、商业智能以及一些新商市规划、商业智能以及一些新商业模式的产生。业模式的产生。未来十年全球大数据的产业规模将会至少以万亿美元来进行衡量!未来十年中国大数据的产业规
7、模将超过千亿美元!未来十年中国能源行业相关的大数据分析处理将带来400亿人民币的收入!大数据分析处理前景大数据分析处理前景数据来源:麦肯锡全球研究所大数据分析处理技术思路IT系统的数据类型及特性11数据鲜活性:毫秒数据鲜活性:毫秒 秒分钟秒分钟 小时天小时天访问吞吐量:几万访问吞吐量:几万IOPS IOPS 几百万几百万IOPS IOPS 几百几百IOPSIOPS存储总容量:存储总容量:GBGBTB TB TBTBPB PB PB-EBPB-EB交易型数据流式业务和用户数据归档型数据指数级变化大数据分析处理的核心挑战数据库云化交易数据归档数据流式数据大数据压力下的关系型数据库:大数据压力下的关
8、系型数据库:性能瓶颈性能瓶颈延展难度大延展难度大访问模型单一访问模型单一单点失效单点失效全集中架构全集中架构关系型数据库集群分布式文件对象存储分布式数据库数据库云化的实现活跃数据活跃数据活跃数据活跃数据流式数据交易数据归档数据归档数据归档数据归档数据归档数据交易数据交易数据大数据分析处理技术分类大数据分析处理技术分类数据采集数据存储整合/聚集/表达分析/建模结果展示规模性实时性异构性共享协同安全隐私对多种类、多来源的全业务流程数据进行多样化的采集获取,并进行层级化的抽取、清洗、过滤等数据预处理通过恰当的存储技术,在满足一致性要求的基础上,安全、可靠、快速、有效地对多类型、多格式、多特性的数据进
9、行存储大数据分析处理技术流程对海量数据分析、探索和挖掘,探寻数据的模式及特征,寻找数据背后的信息变化和价值通过数据切片、ETL、数据分类聚合、数据索引标记等技术对数据进行处理,并提供统一高效的查询访问服务通过对分析结果概念化、系统化,将数据和信息转化成知识,并多维度多样化立体地向不同受众进行展现。采集存储分析展现跨域、异构、可信、独立的数据采集高性能、高可靠、多模式、海量弹性的数据存储大数据分析处理技术关键从局部到全景、从建模计算到决策支撑的层级化数据分析多维度、立体、动态的结果展现支持数据采集点的地理分布和网络跨域;支持不同业务系统不同数据类型的采集;近实时的数据抓取;能够检测到数据的前后状
10、态变化;无需对原业务系统进行更改;不影响业务系统的正常运行。Raw DataIndex&ParameterDecision-Making传统的IT架构在数据容量处理性能成本投入持续发展等方面无法满足企业信息化的需要云计算给出了一种新的问题解决思路和实现机制。大用户大数据大系统增长爆发性使用突发性需求易变性关联网络效应Volume::数据量Variety:数据多样性Velocity:数据吞吐量Value:数据内容系统高可用性管理压力与维护成本性能线性延展应用与需求多样性云计算技术帮助解决三大问题大数据管理平台架构 大数据管理平台架构:一个核心系统一个核心系统:多模式多格式大数据统一存储统一数据访
11、问数据分析平台数据共享服务物理分布逻辑集中大数据管理平台架构:两种管理机制两种管理机制:分布式数据总线:数据流管理,协同分布式工作流引擎:控制流管理,调度大数据管理平台架构:三类支撑框架三类支撑框架:系统运维监控框架数据采集融合框架服务管理交付框架 大数据分析处理平台的关键子系统概述大数据分析处理平台的关键子系统概述高容错、高性能的数据传输、交换以及应用协作平台,在大规模分布式应用系统各组成部分之间进行通信和协作,同时可以降低分布式应用系统开发的难度。对遍布全国的采集点的数据进行高效可信独立的采集,同时通过指定的配置和策略对各类数据进行预处理。分布式数据总线通过集群化的关系型数据库,实现海量强
12、关系型结构化数据(业务数据尤其是交易型数据)的存储和快速访问,并对数据分析系统进行很好的支撑。数据采集系统用于对数量特别巨大且关联性不强的结构化和半结构化数据进行实时高效的存储和访问,同时支撑这类数据的实时和离线的分布式计算分析。关系型数据库集群用于总数量和总容量都很大的各类图片、视频等多媒体文件以及其他非结构化数据的实时高效存储和访问。分布式数据库从存放在数据库和其他信息源中的大量的销售数据和用户行为数据中获取有效的、有使用价值的、最终可决策和执行的信息。通常,数据分析由以下三个阶段组成:(1)数据准备;2)数据挖掘;(3)结果表达和展现。分布式对象/文件存储系统通过对业务系统中的数据层,服
13、务层实现功能抽象,采用面向服务体系架构(SOA)将系统应用的不同功能单元通过服务之间定义良好的接口和契约联系起来,消除不同应用之间以及数据提供者之间的技术差异,让不同的应用服务器协调运作,实现了不同服务之间的通信与整合,为数据,应用和服务的使用者提供统一透明的访问接口。综合数据分析系统实现针对大规模系统的基于分布式工作流技术和策略引擎的复杂任务的定义,调度,协作和执行,主要用于支撑大规模系统的实现。数据服务系统用于基础设施管理平台的快速构建,并通过自动化方式进行大规模应用部署、资源和应用的监控报警等。同时还能实现全系统资源的动态调配,分布式工作流引擎自动化运维管理系统大数据分析处理平台关键流程
14、大数据分析处理平台关键流程数据采集数据采集大数据分析处理平台关键流程大数据分析处理平台关键流程数据存储数据存储大数据分析处理平台关键流程大数据分析处理平台关键流程数据数据融合融合/访问访问大数据分析处理平台关键流程大数据分析处理平台关键流程数据分析数据分析/查询查询大数据分析处理案例分析某中央部委全国业务信息统一数据管理及访问系统某重要的政府管理部门计划构建一个综合性的全国信息管理系统,以记录,融合及管理全国范围内的所有业务信息。该系统的核心数据平台必须满足:在不修改或影响原有业务系统运行的条件下,统一采集,存储并管理分布在全国几百的地市内的异构业务系统中生成的业务数据。初期汇聚的关系型结构化
15、业务数据总量超过3PB,系统架构实现弹性动态扩展,支持未来数据容量的不断增长。在保证数据可靠性的前提下,同时支持数据的鲜活性和主权管理,明确划分数据拥有者和数据使用者的权限支持高效的数据共享查询访问及大规模分析能力,为中央的专项政策制定提供有力数据支撑实践:跨域异构海量关系型数据的融合及访问用户需求实践:跨域异构海量关系型数据的融合及访问总体架构实践:跨域异构海量关系型数据的融合及访问跨域异构海量关系型数据的融合及访问数据采集数据采集业务系统无需更改,完全不影响生产系统的正常运行;支持异构数据库的数据同步复制;支持多源及多目标数据库之间的数据同步复制;通过高效的群组通讯机制,保证在多节点情况下
16、的准实时同步速度。实践:跨域异构海量关系型数据的融合及访问跨域异构海量关系型数据的融合及访问数据容灾数据容灾多活体备份,通过冗余机制消除各个主要环节单点失效的风险;活体流动性,在数据和服务两个层面保证系统的动态迁移;系统可靠性级别和策略可根据需求进行灵活调整调度;活体休眠和唤醒机制保证资源和能耗的优化配置。实践实践:跨域异构海量关系型数据的融合及访问跨域异构海量关系型数据的融合及访问数据管理数据管理某运营商为了开拓云计算服务市场,实现快速部署云计算,推出云服务。最先考虑实现面向公众的云存储来提供云计算服务类型。面向其4亿多的有线和移动用户急速增长的在线存储需求,针对个人和商业用户提供文档、图片
17、等信息的存储,同步,备份和共享服务。在保证数据高可靠的前提下,提供可线性延展的通用非结构化数据存储能力。满足海量用户对数据存储,同步,备份,共享的需求。提供方便可靠的用户认证和数据隔离,符合公有云存储服务对数据安全和审计规范。面向遍布全国的有线和移动用户,提供地理分布的多数据中心部署,存储缓存和负载均衡能力,确保用户在各种使用场景下一致的用户体验。实现在符合SLA前提下合理的硬件和运营成本。系统设计能力支持PB级存储容量,数十亿存储对象数量,数亿活跃用户。某运营商公有云存储服务平台实践:构建运营商公有云存储服务用户需求实践:构建运营商公有云存储服务系统架构实践:构建运营商公有云存储服务应用示例
18、2023/2/21云同步云同步实现了自己的联系人/图片/视频/文件等,在自己多个电脑和智能手机上协同起来。云备份云备份实现了自己在电脑、U盘、移动硬盘、存储卡、手机上大量和分散文件、资料的集中存储、安全保管(可选加密保存)。云共享云共享实现自己在电脑、手机、Pad上的文件、资料与好友快速分享,支持照片即拍即发,一次可以发多个人。跨终端跨操作系统多同步方向安全可靠的加密算法实践:海量非结构化数据的融合存储平台用户需求某部信息服务云一数据云存储系统某部构建一个基于云存储和信息检索技术的非结构化数据服务平台,以统一记录,融合及管理已有的分散的期刊、档案等信息,为未来数据的扩充预留存储空间,并支撑多个
19、业务系统的访问查询。该系统的云存储平台必须满足:在物理隔离的条件下,支持按业务部门进行的光、硬盘等方式的数据交换。初期的数据总量超过100TB,系统架构实现弹性动态扩展,支持未来数据容量的不断增长。存储的总文件数量庞大且数据类型多样,包括期刊、视频、音频及图片扫描件等。在保证数据可靠性的前提下,支持多样的数据权限管理,明确划分数据权限和使用者权限提供简单高效的数据维护管理能力,为分中心管理人员提供方便的数据维护工具。实践:海量非结构化数据的融合存储平台逻辑架构信息处理平台分类编目文本摘要索引查询知识关联搜索支撑引擎统一门户数据展现层知识导航个性化服务订阅及推送分布式文件系统对象存储管理及访问数
20、据存储层分布式数据库平台管理身份管理身份管理权限权限/密级控制密级控制审计管理审计管理运维管理运维管理导入导出管理导入导出管理实践:面向数据处理的云计算服务平台用户需求某部数据服务云计算平台某部通过建立一个面向海量数据处理的云计算服务平台,以验证云计算关键技术对现行业务的支撑能力,并研究与已有业务及数据的对接方式,内容包括:整合计算与存储资源,提供云计算资源池服务验证平台的任务动态分配调度、管理、性能、可靠性、扩展性实现资源的统一管理、监控海量结构化、非结构化数据的高速入库、存储、处理多种文件类型存储、读取、图形化展示对海量数据处理应用的支撑,可进行高并发快速查询分布式存储分布式计算执行环境工
21、作流引擎工作流引擎工作流引擎工作流引擎群组通信/逻辑地址分布式工作流引擎调度引擎调度引擎调度引擎调度引擎群组通信/逻辑地址分布式任务调度任务集合工作流定义文件存储引擎键值存储引擎结构化数据存储引擎时序数据存储引擎Web Service APIs 数据访问层动态路由表高并发高速读写低延迟线性扩展与高可靠多存储方式支持去中心化支持大量工作任务的灵活切分和分布式的调度,提升大型复杂任务的执行效率和效果实践:面向数据处理的云计算服务平台数据处理技术用户根据业务要求组装构件,形成业务模板设定构件间的前后关系,控制构件启动、停止顺序1、业务定义2、部署方案3、部署4、实例管理业务流程通过构件解耦业务应用和
22、资源,避免业务与资源紧密绑定,有效降低业务复杂性,提高不同业务和环境的适应性易于管理,用户很容易调整构件间的启动、停止先后顺序业务定义实践:面向数据处理的云计算服务平台服务管理示例设定业务所需要的资源和配置等信息,形成部署方案1、业务定义2、部署方案3、部署4、实例管理业务流程选择各构件中软件的版本和配置包业务部署的资源要求和配置要求部署策略紧凑-提高资源利用率松散-提高资源运行效率业务部署方案设定版本选择是软件配置的重要控制过程,避免错乱、重复,也可以避免构件升级、维护的影响。设定服务各个层级对资源的要求和资源分配策略是部署的基本要求,决定了资源池实例化的多少和构件部署方式、系统基本配置。实
23、践:面向数据处理的云计算服务平台服务管理示例2构件按照设定的部署方案安装到指定节点上,生成业务实例以流水线方式完成部署1、业务定义2、部署方案3、部署4、实例管理业务流程部署生成实例减少部署的复杂性和繁琐性,轻松构建完成应用部署与配置,实现无忧部署系统自动执行部署,无需人工干预,减少人为错误,加快软件交付保持环境一致,使环境维护变得非常简单,低成本甚至零成本运行维护使用户重点关注在业务逻辑实现和处理上,而不是将时间浪费在重复的、容易出错的活动上,从而提高工作效率实践:面向数据处理的云计算服务平台服务管理示例31、业务定义2、部署方案3、部署4、实例管理业务流程业务实例控制启动停止卸载监控告警升
24、级降级部署自动化运维策略在线迁移业务拓展和扩容实践:面向数据处理的云计算服务平台服务管理示例4某省智能交通管控系统道路交通的智能化是提高道路和车辆使用效率,使用安全性的重要发展方向。随着新一代监控,稽查以及相关的识别技术在交通领域的广泛应用,如何对分布在各个交通路口的大量图像采集设备产生的稽查监控数据进行高效的采集,存储并提供近实时的处理,分析和查询能力是实现智能交通的关键技术挑战。某省在建设全省智能交通管控系统的过程中,对后台海量数据存储系统提出以下需求:在保证数据高可靠的前提下,提供可线性延展的图片与相应元数据存储能力。系统设计能力支持Multi-PB级存储容量,超过千亿条图片和相应纪录。
25、系统提供不低于10Gbps的原始采集数据的写入能力。系统提供针对数十亿条纪录小于1秒时延的数据查询能力。系统提供报警,测速等实时数据分析支持。实践:海量多模式数据存储及实时分析用户需求实践:海量多模式数据存储及实时分析总体架构实践:海量多模式数据存储及实时分析信息处理框架实践:海量多模式数据存储及实时分析高吞吐、低时延系统针对不同数据类型采用不同存储引擎,针对实际场景进行特别优化。一份数据存储多份数据拷贝,多份数据可以同时提供服务。支持数据分级存储,将“热数据”加载到内存中提升读写性能。提供自定义数据访问导航策略,综合服务器负载和地域位置特征,选取最优数据拷贝完成读取响应。传统Oracle数据
26、库在海量数据规模下,数据写入和访问的性能都较差。实践:海量多模式数据存储及实时分析高可靠、高可用分布式数据库采用去中心架构设计,系统无单点存在。数据有多份拷贝,各拷贝间数据实时同步,数据自动容错。当存储节点或磁盘发生故障时,能够对故障进行自动监测和恢复,系统自动容错。传统Oracle数据库可以采用双机热备方式提供系统高可靠和高可用,但是会降低单台设备使用效率,系统造价变高。实践:海量多模式数据存储及实时分析延展性保障随着数据量的增长,存储系统规模可以按需无限扩展。在系统扩容时,支持在线热扩展,不影响系统正常运行。传统Oracle数据库扩展性差,集群有节点数量限制,且扩展过程中一般都需要中断业务
27、。实践:海量多模式数据存储及实时分析性能比对实践:海量多模式数据存储及实时分析应用示例实时分析类应用吉林省公安机关布控查找长春市内有男婴被盗车辆通过实时黑名单比对和报警,快速、及时拦截查处违法车辆,纠正违法行为一、一、重大嫌疑车辆布控重大嫌疑车辆布控二、比对报警二、比对报警三、区间测速三、区间测速通过区间测速功能对两个测量点间过车进行实时测速,并实时发布交通违法车辆信息,以对违法车辆进行告知及警示更多的车辆实践:海量多模式数据存储及实时分析应用示例短时交通流预测:短时交通流预测:对来自道路交通数据采集设备的当前交通流数据及历史数据进行深层次加工,能实现交通流状动态、实时、准确的预测与判别。套牌
28、分析:套牌分析:通过对比同一车牌经临两个卡口地理距离和时间差,判别是否存在套牌行为。通过同其他地市数据联网分析,可以挖掘出跨地域套牌现象。最佳路径诱导服务:最佳路径诱导服务:通过诱导屏、指路服务站、语音平台、短信平台、手机终端、车载终端、互联网站、广播台、微博等信息发布媒介进行发布,市民可通过自己最为方便的途径获取交通出行的信息,了解实时交通路况,选择最佳出行线路数据挖掘类应用实践:基于微博的新媒体大数据分析平台用户需求文本分析情绪分析关系分析统计分析群体分析。关系圈、文本关键词、群体行为分析。微博转发关系,和时间关系。舆情分析比如微博中包含中国移动字样的OLAP分析统计谁发的什么微博,微博量
29、,地域属性等。微博讨论话题聚类潜在用户画像针对1亿全量用户进行画像,需要从好友关系中获取属性标签情绪分析实践:基于微博的新媒体大数据分析平台数据体量用户微博数以亿计的用户、千亿级别的微博、外加百倍以上的关联关系!实践:基于微博的新媒体大数据分析平台总体架构通过微博平台接口获取用户和微博数据通过爬虫爬取用户头像文件通过DataCell集群存储全量原始用户和微博结构化数据,以及用户头像文件数据通过用户点和微博点(可选)构建图数据库,进行图计算和OLAP分析,并支持全文检索、数值范围检索和地域检索支持对结构化数据、半结构化数据和非结构化数据的统一透明访问实践:基于微博的新媒体大数据分析平台应用示例1
30、微博关系图Schema用户微博follow订阅发布名称:stringId:Long地域:string工作:string内容:StringId:Long时间:long时间:Long时间:Long时间:Long转发时间:Long适用场景:个体情绪分析利用BOW(bag of world)+贝叶斯概率过滤方式完成计算给定微博,可采用图数据模型或者BigTable数据模型计算,最后将情绪属性增加到微博点上用户社会化特征分析,比如财务情况推测、用户年龄推测、长短期兴趣等上述属于知识发现,数据挖掘类计算,可采用批量图计算模型完成等。舆情分析,如分析各人大提案社会关注程度微博过滤(按关键字)统计方式 采用图
31、数据库+map/reduce 或者图数据库+全文索引方式进行统计消息影响程度评估和预测采用图数据库。评估消息被转发和再转发率,预测消息结束边界。Vetex ID属性1属性2Labley:出边2Lablex:出边1Labely:入边1Labelz:入边2Row key 1.1.列可动态增加列可动态增加2.2.列列有序有序-同属性聚集同属性聚集Column set实践:基于微博的新媒体大数据分析平台应用示例2user1Time1:tweet1Time2:tweet2Time3:tweet3user2Time1:tweet4Time2:tweet5Time3:tweet6user3Time1:twe
32、et7Time2:tweet8Time3:tweet9数据模型适用场景从单个用户(点,边)出发的分析 统计谁发的什么微博,微博量,地域属性等。可以通过图数据模型(图在线遍历方式完成)或BigTable数据模型(直接查询)完成。采用BigTable数据模型便于一次性访问获取所需数据,性能更高;而采用图数据模型需要先通过外部索引获取对应边点ID,在通过ID在图中遍历数据。个体情绪分析利用BOW(bag of world)+贝叶斯概率过滤方式完成计算给定微博,可采用图数据模型或者BigTable数据模型计算,最后将情绪属性增加到微博点上实践:基于微博的新媒体大数据分析平台应用示例3数据模型适用场景以
33、时序为基础的全面分析 统计某个时间段共发出多少微博,平均每人发出多少,平均微博长度,地域统计,终端类型等,可出具报表信息可以利用TimeSeries(时序引擎)+impala 完成,外加一个用户属性表,保存在DataCell中用户侧写类型的分析时序下的微博发布量,转发量;时序下微博使用时间(统计该用户微博发生时段);用户关系圈(入边统计+可扩展多层)上述关系可采用普通批量计算模式,定期计算已报表形式存放到用户粒度的报表库中,上述动作比较重,所以建议使用时序引擎+map/reduce方式产生报表,而不去干扰graph db的在线访问性能,即离线负载和在线负载分离。批量情绪分析(计算给定时间范围的
34、微博)可采用 时序引擎+map/reduce 完成,或图数据库+map/reduce(如果算法中点边关系复杂,则采用图数据库,否则可采用时序引擎)Time1:user1tweet1Time1:user3Time1:user1tweet4tweet7Time2:user1tweet2实践:某运营商信令网海量数据存储和处理实践:某运营商信令网海量数据存储和处理用户需求用户需求59某省电信运营商每天发生约1亿次通话信令交互,为了对海量信令数据进行高效存储和快速分析处理,对数据支撑平台提出如下需求:1、原始信令数据用于网络故障详细分析,需要保存15天,存储容量在百TB量级。2、CDR记录需要存储3个月,存储记录条数在百亿条记录量级,针对用户投诉,对单一手机号码可在秒级完成相关记录查询。3、提供对终端和用户维度的实时统计分析和数据挖掘能力,相关功能包括SIM卡复制防范、异常通话(超短、超频)、VIP用户保障等。4、相关存储产品具备良好的扩展性和性价比。实践:某运营商信令网海量数据存储和处理实践:某运营商信令网海量数据存储和处理系统架构系统架构实践:某运营商信令网海量数据存储和处理实践:某运营商信令网海量数据存储和处理应用示例应用示例互动交流