《大数据平台技术应用方案.pptx》由会员分享,可在线阅读,更多相关《大数据平台技术应用方案.pptx(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据平台技术应用方案,淘宝数据分析挖掘实践及变革,百度大数据分析系统架构,京东大数据实时处理技术,物流大数据处理简介,1,2,3,4,目 录,你知晓大数据在哪些方面有应用?,3,1,3,2,架构化 1950-1970,数字化,1970-1990,网络化 1990-2010+,物联网 大数据 Something Big is Happening NOW,移动互联网 云计算,4,信息技术革命的小周期 智慧化,5,1:1 Marketing,Nanotargeting和Retargeting,6,2,IBM IBM 2013,多渠道 交通控制 交易分析,智慧的医疗 国土安全 制造,金融 电信 欺诈
2、和风险,日志分析 搜索质量 零售:流失、促销 Copyright 2011 Corporation,大数据在各行各业都可以获得应用,2,4, Copyright 2011 Corporation,IBM IBM 2013,获得突破性回报 了解关于客户的 一切,作 快速大量地创 新产品,和风险,利用工具化的 资产,利用大数据能力可以帮助企业获得突破性回报,利用大数据独有的 技术能力 可视化和发现,Hadoop 执行零延迟的操,数据仓库 流计算,文本分析,整合和治理,多媒体内容,通过分析仸意 大数据类型 交易 / 应用数 据,机器数据,社交媒体数据 实时侦测欺诈,4,11,快,杂,大,大数据的新思
3、维,13,多数据源的集成,浮动车GPS:20M/day,手机位置信息: 18M/day,居民调查: 80000户,视频/图像数据 和元数据: 100s of TB/day GIS数据,供水系统,智能电网,睡眠质量,出租车运营数据: 1M/day 交通卡:19M/day 高速路收费数据: 0.5M/day 社交网络 情感分析,部分数据来源:BeijingTOCC,12,大数据的新方法学 数据极大丰富前提下的新分析思维和技术,采样数据 全集数据 多数据源的整合 基于主观因果假设 相关关系,大数据+小算法 +上下文+知识积累 描述性分析 预测性 和处方性分析 实时性 绝对的精确性,数据,数据中介 服
4、务,生态系统,数据拥有者 大数据的,数据中介,数据技术公司 数据产品 和服务 16,大数据系统的设计权衡,大体量,基于采样的查询 实时性 流计算,批量计算 精确性,惰性数据的即席查询,Little data (个人计算) 19,城市计算,增量计算 内存计算,案例一: 大数据分析系统架构的搭建,百度的数据规模, 1001000PB 10100PB/天 千亿万亿 百亿千亿 十亿百亿/天 十亿百亿/天 100TB1PB/天,数据总量 数据处理量 网页 索引 更新量 请求 日志,离线,在线,离线分析与在线实验相结合,快速迭代是互联网产品的 主要创新手段 算法A 算法B 算法B 通过反馈来验证算法优劣,
5、搜索引擎的迭代,5%,5%,Online Learning A/B test 策略,机器学习 平台 FeatureTraining,数据 网页 网页库 倒排表 Data Mining,想法,原型,系统,快速开发,测试,产品,部署运维,开发框架,互联网产品的迭代 A/B测试,持续优化 数据智能,验证,数据分析,应用引擎 云测试,应用引擎,数据,架构 技术,互联网服务 enable 数据智能,IT产业生产力的变化,60,70,80,90,00,10,硬件 Mainframe,软件 PC,Internet,Inf +人 +数据 Cloud,迭代的本质是让人参与系统进化, 而Big Data为迭代指导
6、方向, Infrastructure则加速迭代。 软件 +人,互联网服务的典型技术特点,超大规模,快速迭代,数据智能,软件基础架构,大数据,数据中心、网络、服务器,数据中心计算,云计算技术体系,Disk,Flash,Pipe,K/V,File,Table,统一存储体系 平衡大容量、高并发、低延迟 不同访问模式通过组合满足 统一访问与传输,数据访问层,P2P,CDN,分布式存储,描述能力,数据流优化,控制流管理 资源分配,优先级、并发控制 隔离、安全,执行层,模型层,Map,Reduce,表示层,SQL-like 翻译,Join,Select,Top,分布式计算,B C,D,A,实时存储与计算,
7、kNN查询 平台,向量计算引擎,流式数据处理引擎,PubSub 引擎,机器学习 算法平台,OLAP 引擎,复杂事件处理引擎 分布式数据结构 超大规模数据仓库,图查询 平台,实时检索 平台,向量计算引擎,Vector,Layout,Map-,Shuffle,Operators/ Checkpoint,SIMDProgram,复杂事件处理,average(price) trigger(?,b,c) filter(b),pattern(a-b-c),condition(func(a,b,c),流式计算模型 window,step,bound,time,M=Stream,目标, 1000PB 10亿维
8、特征训练 100维条件查询 流式 触发式,海量 高维、多维 实时,更大、更复杂、更快!,数据智能,分布式 存储与计算,大规模人工 辅劣标注系统,人计算,向量引擎,Machine Learning 算法,Web Contents,流式处理,Logs,PubSub,推荐系统 智能交通,Apps 自劢评估,商业智能,决策辅劣,关于京东,营销 管理,供应商 管理,仓储 管理,财务 系统,客户 数据,网站 前台,关于京东 京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平 台,全面提升用户体验。,配送 管理,大规模数据处理更加容易,ETL/企业数据仓库 (Hive/Pig/MR),数据挖掘/建
9、模,(R、Mahout),搜索和推荐,日志存储, ,“Next Click” 运营智能 风险控制 互动分析 ,一些场景需要进一步的考量,MapReduce批量处理 = 延迟较长 无法满足用户的实时需求 调度开销较大,大数据包括三部分,服务,模型 性能,大数据实时处理的思考, 模型, 海量数据, 数据量大 并发数高, 多个数据源整合, 预定义好的数据模型, 去规格化, 数据任务依赖关系简单 推和拉的问题, 拉比推好,大数据实时处理的思考, 性能, 高并发需求 大容量需求, GBTB 级后台数据处理吞吐, 高速度需求, 从数据产生到处理完成结果延迟要求到秒级 计算需要在短时间内完成, 批处理预算
10、硬件支持, 内存、CPU、网络, 容错, 水平扩展,大数据实时处理的思考, ,关联获取价值,维度按需定制 互动分析、报表等完成价值交付 与其他在线生产系统进行数据对接(数据反哺) 计算即服务,大数据实时处理的思考 服务,生产数据库,企业数据仓库,大数据实时处理架构 财务数据集市,采销数据集市,罗盘数据集市,分析挖掘 数据集,数据 缓冲区,企业消息总线,流式计算集群,实时数据 同步,模型,日志系统,高速存取集群 在线实时计算集群,持久 化,PUSH,PULL/PUSH,订阅,ELT,ELT,高速存取集群,ETL,报表应用,分析应用,推荐应用,.,数 据 推,送,中 心,近实时分析集群,近实时计算
11、,实时计算 在线服务,离线计算,应用,分布式消息系统 缓存集群, ,日志(用户行为、) 批量同步 消息队列 , 开源技术, ,Flume Scribe Kafka ,大数据实时处理技术 数据传输, Apache项目:http:/kafka.apache.org/ 一个分布式的发布/订阅消息系统 术语, Topics, 消息分组, Brokers, 消息存储, Producers, 消息生产者, Consumers, 消息消费者,Kafka, ,大数据实时处理技术 几个点,Sink,Agent,Agent,Storm等,Broker(Topic1),Broker(Topic2) HDFS,Zoo
12、keeper,解耦 缓冲 容错 透明 跨数据中心数据分发 Flume,Kafka, ,Hadoop HBase Cassandra MongoDB Redis , 数据库Sharding 合适的就是最好的,大数据实时处理技术 存储 大容量低速存储 高速存储 KV存储 开源NoSQL数据存储, ,可加计算、不可加计算 实时数据的实时计算 实时数据的计算 数据的实时计算, 开源计算框架 Storm Impala ,大数据实时处理技术 计算,大数据实时分析,明细事实表,聚合表1,聚合表2,聚合表3, 基本概念 Streams(流), 元组序列 Spouts 流的源头 Bolts Functions,
13、 Filters, Joins, Aggregations Topologies 优点 可扩展、容错、易用, 在内存中执行,流式计算Storm Twitter开源的分布式处理框架,Spouts,Bolt,Topologies, Nimbus, 主控节点,用于任务分配,集群任务监控等, Zookeeper, 集群中协调,共有数据的存放(如心跳信息), Supervisor, 对应一台物理机,用于启动worker, Worker, 工作进程,负责启动task,以及通过zeromq进行tuple的分发,与,接收。, Task, 工作线程,任务的处理,Storm的部署,Storm的应用模式,用户查询,
14、大数据存储,数据视图集 (批处理),数据流,Hadoop,Storm,数据视图集 (实时处理) 数据流,数据视图集 (实时处理) 数据视图集 (实时处理),流式计算,流式计算,应用,事件收集器,Storm,前段展现, 事件驱动实现, 注意, 内存泄露 消息堆积, 算法模块拆分,流式计算, ,分析可视化 数据可视化 数据反哺 计算即服务, 仔细思考其价值, ,实时的统计:最流行 广告CTR预测 ETL:格式转换、重复值过滤、 运营需求:资源调派 ,大数据实时处理技术 服务和应用 价值展现, 对系统的压力, 数据量, 数据展现, 数据读写和传输, 解决方法, 前端和后端解耦, 缓存的应用, JS发
15、挥前端的能力, 压缩 排队, 异步、非阻塞IO模型 线程池, 事件驱动, 后端更强劲, 数据库集群:分库、分表、分区 NoSQL数据库:Hbase、MongoDB等,数据应用的问题,淘宝数据分析挖掘实践及变革,淘宝数据四阶段, 被动响应,2007年前, 主动变革 2008-2010 优化完善 2011-2012 引领驱动,2013-,数据系统变迁,2007年前 数据库(集群) 脚本 简单调度 数据报表,2008-2010 Hadoop集群 调度监控,实时日志传输 数据门户 多维分析,2011-2012 Hadoop集群,DXP公有云 实时Storm 调度监控,实时日志传输 实时数据库同步 数据
16、门户 自助查询工具 元数据管理,2013- 数据驱动 新模式探索,调 度,监,控,业务库(Mysql),Log Server,外部数据,数 据 源,数 据,计 算 平 台,数据门户,多维自助查询平台,OpenAPI,数据平台架构 数,据 应,用,数 据 收 集,DBSync,TT,DataX,Hive,HDFS,Hbase,实时计算,Storm,Ocean Base,分布式集群,量子恒道,在云端接入,数据魔方,DXP 数据交 换平台,冷数据 集群,数据应用格局,对外数据产品, 数据魔方/淘宝指数,行业趋势 人群特征 成交排行 市场细分, 量子恒道,销售分析 营销效果 来源分析, 搜索排行榜,对
17、外数据产品, 淘宝时光机, 回忆的感动, 排行榜,对外数据产品-淘宝指数,对外数据产品-量子恒道,数据嵌入产品中, 搜索匹配、排序 广告匹配、排序 推荐, 商家后台数据 营销效果,直通车、展示广告、淘宝客,内部数据服务, 淘数据门户,用户分析 商家云图,活动效果分析 例行数据报表, 在云端,低门槛接入分布式集群 周活跃用户1000+,内部数据服务, 多维数据自助查询平台,数据仓库和索引技术结合 随意组合维度 秒级返回, 日常数据需求管理,数据接口人,数据工具, 天网调度, 元数据管理, 数据地图-定位、血缘分析 DataX异源数据传输, TimeTunnel实时日志传输 监控报警, 生命周期管
18、理,新的探索, 金融服务,小微企业贷款 个人消费贷款, 全网精准营销,DMP、DSP、AD Exchange、RTB, 无线与PC数据打通 数据交换,一些观点, 数据处理是手段,数据应用是根本 云系统运维能力是核心竞争力 整合关联让数据价值指数级增长 数据可视化很重要, 想大做小,迭代优化 关于隐私,隐私和服务的权衡,控制使用比控制收集更有效 不针对具体个体,初识物流,物流信息技术,物流信息平台,概念,发展历程,物流的概念(Logistics),来源于二战军事(运输管理、仓储管理和库存管理 ) 物流管理:除运输外的需求预测、采购、生产计划、存货管理、配送与客户服务等,物流信息技术,条码技术,射频技术,物流信息技术,EDI技术,GPS技术,物流信息技术,GIS技术,物流大数据来源,海量 并行 爆发式增长,物流大数据处理过程,处理过程,挖掘,统计/分析,导入/预处理,收集,识别、定位和感知,研究点:,物流信息平台的压力测试 物流信息平台大数据在亚马逊平台的性能分析 ,整合:用服务去换取管理 科学拆分 数据的数量优于质量 数据相关性优于数据逻辑性或因果性 公共平台解决网络(资源)与流程(服务) 电商物流企业 (物流仓储平台建设 、物流信息平台建设 ),启示,发展趋势,大数据能否预言足球盛况?,拭目以待,Thank You!,