《互联网大数据案例分享.pdf》由会员分享,可在线阅读,更多相关《互联网大数据案例分享.pdf(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、互联网大数据案例手中握有数据的公司站在金矿上,挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。有某互联网咨询公司,其手中有大量用户行为数据,希望建立用户行为分析系统,但面临数据量大,无法做到分析的实时性。也曾组建过Hadoop 团队,但基于Hive 的分析系统不够实时,且项目预算有限。这家咨询公司后来通过Yonghong Z-Suite 搭建大数据分析平台,完成了大数据量下的用户行为实时分析,那么下面就介绍下这个互联网大数据案例:首先需要分析的数据量是90 天细节数据约50 亿条数据,硬盘存储空间10T
2、B 左右。这些数据已经存储在Hadoop 上,只是 Hadoop 无法做到实时分析,需要将其导入到Data Mart中。考虑到数据压缩到Data Mart 中后所需存储空间会变小,10TB 的数据导入到Data Mart中会经过压缩后大致需要900G 的存储空间。假设900G 的数据中有1/3 是热数据需要分析的,则认为系统内存量需要300G,假设每台机器有64G内存,则大致需要5 台机器。于是有如下配置:90 天的 50 亿详细数据已经导入到Data Mart 中,经过系统调优,基于这些数据做的电商用户行为分析,互联网视频分析,互联网金融网站访问分析等等都可以在秒级响应。之后进行每日数据增量更新,并删除超过90 天的数据,保存用于分析的数据为90 天。如何达到高性能计算呢?目前很多产品都是通过分布式并行计算来处理大数据计算,需要的技术有分布式文件系统,分布式通讯,计算任务拆解为可分布执行的分布式任务,需要库内计算等技术;另外列存储也是大数据高性能计算所需要的技术。上述互联网大数据案例的大数据分析平台的架构有了大数据,还要从大数据中提取价值,离不开分析工具,通过丰富的分析功能,在繁杂的数据中找到其中的价值。而大数据给分析提供了一定的挑战,需要高性能计算做支撑,才能在大数据的金矿中挖到金子。