互联网大数据案例分享.pdf

上传人:索**** 文档编号:76195858 上传时间:2023-03-08 格式:PDF 页数:2 大小:128.37KB
返回 下载 相关 举报
互联网大数据案例分享.pdf_第1页
第1页 / 共2页
互联网大数据案例分享.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《互联网大数据案例分享.pdf》由会员分享,可在线阅读,更多相关《互联网大数据案例分享.pdf(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、互联网大数据案例手中握有数据的公司站在金矿上,挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。有某互联网咨询公司,其手中有大量用户行为数据,希望建立用户行为分析系统,但面临数据量大,无法做到分析的实时性。也曾组建过Hadoop 团队,但基于Hive 的分析系统不够实时,且项目预算有限。这家咨询公司后来通过Yonghong Z-Suite 搭建大数据分析平台,完成了大数据量下的用户行为实时分析,那么下面就介绍下这个互联网大数据案例:首先需要分析的数据量是90 天细节数据约50 亿条数据,硬盘存储空间10T

2、B 左右。这些数据已经存储在Hadoop 上,只是 Hadoop 无法做到实时分析,需要将其导入到Data Mart中。考虑到数据压缩到Data Mart 中后所需存储空间会变小,10TB 的数据导入到Data Mart中会经过压缩后大致需要900G 的存储空间。假设900G 的数据中有1/3 是热数据需要分析的,则认为系统内存量需要300G,假设每台机器有64G内存,则大致需要5 台机器。于是有如下配置:90 天的 50 亿详细数据已经导入到Data Mart 中,经过系统调优,基于这些数据做的电商用户行为分析,互联网视频分析,互联网金融网站访问分析等等都可以在秒级响应。之后进行每日数据增量更新,并删除超过90 天的数据,保存用于分析的数据为90 天。如何达到高性能计算呢?目前很多产品都是通过分布式并行计算来处理大数据计算,需要的技术有分布式文件系统,分布式通讯,计算任务拆解为可分布执行的分布式任务,需要库内计算等技术;另外列存储也是大数据高性能计算所需要的技术。上述互联网大数据案例的大数据分析平台的架构有了大数据,还要从大数据中提取价值,离不开分析工具,通过丰富的分析功能,在繁杂的数据中找到其中的价值。而大数据给分析提供了一定的挑战,需要高性能计算做支撑,才能在大数据的金矿中挖到金子。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁