《气象大数据资料39958.docx》由会员分享,可在线阅读,更多相关《气象大数据资料39958.docx(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 引言在气象行业内部,气象数据的价值已经和正在被深入挖掘着。但是,不能将气象预报产品的社会化推广简单地认为就是“气象大数据的广泛应用”。大数据实际上是是一种混杂数数据,气象大大数据应该是是指气象行业业所拥有的以以及锁接触到到的全体数据据,包括传统统的气象数据据和对外服务务提供的影视视音频资料、网网页资料、预预报文本以及及地理位置相相关数据、社社会经济共享享数据等等。传统的”气象数数据“,地面面观测、气象象卫星遥感、天天气雷达和数数值预报产品品四类数据占占数据总量的的90%以上上,基本的气气象数据直接接用途是气象象业务、天气气预报、气候候预测以及气气象服务。“大大数据应用”与与目前的气象象服务
2、有所不不同,前者是是气象数据的的“深度应用用”和“增值值应用”,后后者是既定业业务数据加工工产品的社会会推广应用。“大数据的核心心就是预测”,这这是大数据据时代的作作者舍恩伯格格的名言。天天气和气候系系统是典型的的非线性系统统,无法通过过运用简单的的统计分析方方法来对其进进行准确的预预报和预测。人人们常说的南南美丛林里一一只蝴蝶扇动动几下翅膀,会会在几周后引引发北美的一一场暴风雪这这一现象,形形象地描绘了了气象科学的的复杂性。运运用统计分析析方法进行天天气预报在数数十年前便已已被气象科学学界否决了也就是说说,目前经典典的大数据应应用方法并不不适用于天气气预报业务。现在,气象行业业的公共服务务职
3、能越来越越强,面向政政府提供决策策服务,面向向公众提供气气象预报预警警服务,面向向社会发展,应应对气候发展展节能减排。这这些决策信息息怎么来依赖赖于我们对气气象数据的处处理。气象大数据应该该在跨行业综综合应用这一一“增值应用用”价值挖掘掘过程中焕发发出的新的光光芒。2 大数据平台台的基本构成成2.1 概述“大数据”是需需要新处理模模式才能具有有更强的决策策力、洞察发发现力和流程程优化能力的的海量、高增增长率和多样样化的信息资资产。大数据技术的战战略意义不在在于掌握庞大大的数据信息息,而在于对对这些含有意意义的数据进进行专业化处处理。换言之之,如果把大大数据比作一一种产业,那那么这种产业业实现盈
4、利的的关键,在于于提高对数据据的“加工能能力”,通过过“加工”实实现数据的“增增值”。从技术上看,大大数据与云计计算的关系就就像一枚硬币币的正反面一一样密不可分分。大数据必必然无法用单单台的计算机机进行处理,必必须采用分布布式架构。它它的特色在于于对海量数据据进行分布式式数据挖掘(SSaaS),但但它必须依托托云计算的分分布式处理、分分布式数据库库(PaaSS)和云存储储、虚拟化技技术(IaaaS)。大数据可通过许许多方式来存存储、获取、处处理和分析。每每个大数据来来源都有不同同的特征,包包括数据的频频率、量、速速度、类型和和真实性。处处理并存储大大数据时,会会涉及到更多多维度,比如如治理、安
5、全全性和策略。选选择一种架构构并构建合适适的大数据解解决方案极具具挑战,因为为需要考虑非非常多的因素素。气象行业的数据据情况则更为为复杂,除了了“机器生成成”(可以理理解为遥测、传传感设备产生生的观测数据据,大量参与与气象服务和和共享的信息息都以文本、图图片、视频等等多种形式存存储,符合“大大数据”的44V特点:VVolumee(大量)、VVelociity(高速速)、Varriety(多样)、vveraciity(真实实性) 。这这些信息长期期存储于气象象各部门的平平台上未能加加以合理利用用。另一方面面,这些数据据本身就是分分散存储于多多个服务器平平台上,急需需应用分布式式平台统一管管理。因
6、此,我们亟需需一种结构化化和基于模式式的方法来简简化定义完整整的大数据架架构的任务。因因为评估一个个业务场景是是否存在大数数据问题很重重要,所以我我们包含了一一些线索来帮帮助确定哪些些业务问题适适合采用大数数据解决方案案。2.2 数据基基础决定平台台框架2.2.1 从从分类大数据据到选择大数数据解决方案案RDBMS:关关系型数据库库;ETL:数据清清晰、转换、装装载的过程; ELT:数据清晰、装装载、转换的的过程;CDC:增量数数据复制。有有同步和异步步两种模式。结构化数据半结构化数据“非结构化数据非结构化数据2.2.2 依依据大数据类类型对业务问问题进行分类类根据气象服务需需要,业务问问题可
7、分类为为不同的大数数据问题类型型。以后,我我们将使用此类型确定定合适的分类类模式(原子子或复合)和和合适的大数数据解决方案案。但第一步步是将业务问问题映射到它它的大数据类类型。下表列列出了常见的的业务问题并并为每个问题题分配了一种种大数据类型型。2.2.3 使使用大数据类类型对大数据据特征进行分分类按特定方向分析析大数据的特特征会有所帮帮助,例如以以下特征:数数据如何收集集、分析和处处理。对数据进行分类类后,就可以以将它与合适适的大数据模模式匹配:? 分析类型 对数据据执行实时分分析还是批量量分析。请仔仔细考虑分析析类型的选择,因为这这会影响一些些有关产品、工工具、硬件、数数据源和预期期的数据
8、频率率的其他决策策。一些用例例可能需要混混合使用两种种类型: ? 临近分析析;分析必须须实时或近实实时地完成。? 历史分析针针对战略性业业务决策的趋趋势分析;分分析可采用批批量模式。 ? 处理方方法 要要应用来处理理数据的技术术类型(比如如预测、分析析、临时查询和报告)。业业务需求确定定了合适的处处理方法。可可结合使用各各种技术。处处理方法的选选择,有助于于识别要在您您的大数据解解决方案中使使用的合适的的工具和技术术。? 数据频率和和大小 预计有多少少数据和数据据到达的频率率多高。知道道频率和大小,有助于于确定存储机机制、存储格格式和所需的的预处理工具具。数据频率率和大小依赖赖于数据源:? 按
9、需分析,与与社交媒体数数据一样 ? 实时、持持续提供(天天气数据、交交易数据) ? 时序(基基于时间的数数据)? 数据类型 要处理理数据类型 交易、历历史、主数据据等。知道数数据类型,有助于将数数据隔离在存存储中。? 内容格式(传传入数据的格格式)结构化化(例如 RRDMBS)、非非结构化(例例如音频、视频和图图像)或半结结构化。格式式确定了需要要如何处理传传入的数据,这这是选择工具具、技术以及及从业务角度度定义解决方方案的关键。? 数据源 数据的来来源(生成数数据的地方),比比如 Webb 和社交媒媒体、机器生成、人类类生成等。识识别所有数据据源有助于从从业务角度识识别数据范围围。该图显示示
10、了使用最广广泛的数据源源。? 数据使用者者 处理理的数据的所所有可能使用用者的列表:? 业务流程? 业务用户? 企业应用程程序? 各种业务角角色中的各个个人员? 部分处理流流程? 其他数据存存储库或企业业应用程序? 硬件 将在其上实实现大数据解解决方案的硬硬件类型,包包括商用硬件件或最先进的硬件。理理解硬件的限限制,有助于于指导大数据据解决方案的的选择。2.3 数据分分类决定应用用方案将不同的数据类类型集成后,统统一按照大数数据进行处理理,如下图:2.4 大数据据平台的逻辑辑层次逻辑构成从框架架上展示了各各个组件的组组织方式。这这些层提供了了一种方法来来组织执行特特定功能的组组件。这些层层只是
11、逻辑结结构;这并不不意味着支持持每层的功能能在独立的机机器或独立的的进程上运行行。大数据平台通常常由以下逻辑辑层组成:1. 数据集成成层2. 数据存储储层3. 数据分析析层4. 数据使用用层2.4.1 大大数据集成层层要全面考虑来自自所有渠道的的,所有可用用于分析的数数据。要求团团队中的数据据专家阐明执执行需求所需需的数据。这这些信息包括括:? 格式 结结构化、半结结构化或非结结构化。? 速度和数据据量 数据据到达的速度度和传送它的的速率因数据据源不同而不不同。 ? 收集点 收集数据的的位置,直接接或通过数据据提供程序,实实时或以批量量模式收集数据。数数据可能来自自某个主要来来源,比如天天气条
12、件,也也有可能来自自一个辅助来来源,比如媒媒体赞助的天天气频道。? 数据源的位位置 数据据源可能位于于企业内或外外部。识别您您具有有限访访问权的数据,因为为对数据的访访问会影响可可用于分析的的数据范围。2.4.2 大大数据存储层层此层负责从数据据源获取数据据,并在必要要时,将它转转换为适合符符合分析方式式的格式。例例如,可能需需要转换一幅幅图,才能将将它存储在 Hadooop Disstribuuted FFile SSystemm (HDFFS) 存储储或关系数据据库管理系统统 (RDBBMS) 仓仓库中,以供供进一步处理理。规范 11和治理策略略要求为不同同的数据类型型提供合适的的存储。2
13、.4.3 大大数据分析层层分析层读取数据据改动和存储储层整理 (digesst) 的数数据。在某些些情况下,分分析层直接从从数据源访问问数据。设计计分析层需要要认真地进行行事先筹划和和规划。必须须制定如何管管理以下任务务的决策:? 生成想要的的分析? 从数据中获获取洞察? 找到所需的的实体? 定位可提供供这些实体的的数据的数据据源? 理解执行分分析需要哪些些算法和工具具。2.4.4 大大数据应用层层此层使用了分析析层所提供的的输出。使用用者可以是可可视化应用程程序、人类、业业务流程或服服务。可视化化分析层的结结果可能具有有挑战。3 大数据平台台的功能架构构3.1 组件构构成3.1.1 横横向层
14、3.1.1.11 大数据集集成层大数据来源:? 企业遗留系系统 这些些系统是企业业应用程序,执执行业务需要要的分析并获获取需要的洞察:? 气象网络设设备监测系统统? 气象信息共共享系统? MICAPPS? 网络通信系系统CMA-Cast? 突发应急系系统? 气象预报系系统? 气象服务系系统? 办公自动化化? ? ? Web 应应用程序开发发-Webb 应用程序序和其他数据据来源扩充了了企业拥有的数据。这这些应用程序序可使用自定定义的协议和和机制来公开开数据。? 数据管理系系统 (DMMS) 数数据管理系统统存储逻辑数数据、流程、策策略和各种其他类型的文文档:? Microosoft? Exce
15、el? 电子子表格? Microosoft Word 文档? 这些文档可可以转换为可可用于分析的的结构化数据据。文档数据据可公开为领域实实体,或者数数据改动和存存储层可将它它转换为领域实体。 ? 数据存储储 数据存存储包含企业业数据仓库、操操作数据库和和事务数据库库。此数据通常是结结构化数据,可可直接使用或或轻松地转换换来满足需求求。这些数据据不一定存储储在分布式文文件系统中,具具体依赖于所所处的上下文文。? 智慧设备 智慧设备备能够捕获、处处理和传输使使用最广泛的的协议和格式式的信息。这方面面的示例包括括智能电话、仪仪表和医疗设设备。这些设设备可用于执执行各种类型型的分析。绝绝大多数智慧慧设
16、备都会执执行实时分析析,但从智慧慧设备传来的的信息也可批批量分析。? 聚合的数据据提供程序 这些提供供程序拥有或或获取数据,并并以复杂的格格式和所需的频率率通过特定的的过滤器公开开它。每天都都会产生海量量的数据,它它们具有不同同的格式,以以不同的速度度生成,而且且通过各种数数据提供程序序、传感器和和现有企业提提供。? 其他数据源源 有许多多数据来自自自动化的来源源:? 地理信息:? 地图? 地区详细信信息? 位置详细信信息? 经济热点详详细信息(工工农业旅游交交通教育医疗疗金融等等)? 人类生成的的内容:? 社交媒体? 电子邮件? 博客? 在线信息? 传感器数据据:? 环境:天气气、降雨量、湿
17、湿度、光线? 电气:电流流、能源潜力力等? 导航装置? 电离辐射、亚亚原子粒子等等? 靠近、存在在等? 位置、角度度、位移、距距离、速度、加加速度? 声音、声震震动等? 汽车、运输输等? 热量、热度度、温度? 光学、光、成成像、见光度度? 化学? 压力? 流动、流体体、速度? 力、密度级级别等? 来自传感器器供应商的其其他数据3.1.1.22 大数据存存储层因为传入的数据据可能具有不不同的特征,所所以数据改动动和存储层中中的组件必须须能够以各种种频率、格式式、大小和在在各种通信渠渠道上读取数数据:? 数据获取 从各种数数据源获取数数据,并将其其发送到数据据整理组件或或存储在指定的位置置中。此组
18、件件必须足够智智能,能够选选择是否和在在何处存储传传入的数据。它它必须能够确确定数据在存存储前是否应应改动,或者者数据是否可可直接发送到到业务分析层层。? 数据整理 负责将数数据修改为需需要的格式,以以实现分析用用途。此组件件可拥有简单的转转换逻辑或复复杂的统计算算法来转换源源数据。分析析引擎将会确确定所需的特特定的数据格格式。主要的的挑战是容纳纳非结构化数数据格式,比比如图像、音音频、视频和和其他二进制制格式。? 分布式数据据存储 负负责存储来自自数据源的数数据。通常,这这一层中提供供了多个数据存储储选项,比如如分布式文件件存储 (DDFS)、云云、结构化数数据源、NoSQL 等等。3.1.
19、1.33 分析层这是从数据中提提取业务洞察察的层:? 分析层实体体识别 负负责识别和填填充上下文实实体。这是一一个复杂的任任务,需要高效的高性性能流程。数数据整理组件件应为这个实实体识别组件件提供补充,将将数据修改为为需要的格式式。分析引擎擎将需要上下下文实体来执执行分析。? 分析引擎 使用其他他组件(具体体来讲,包括括实体鉴别、模模型管理和分分析算法)来处理理和执行分析析。分析引擎擎可具有支持持并行处理的的各种不同的的工作流、算算法和工具。? 模型管理 负责维护护各种统计模模型,验证和和检验这些模模型,通过持持续培训模型来提高高准确性。然然后,模型管管理组件会推推广这些模型型,它们可供供实体
20、识别或或分析引擎组组件使用。3.1.1.44 使用层这一层使用了从从分析应用程程序获取的业业务洞察。分分析的结果由由组织内的各各个用户和组组织外部的实实体(比如客客户、供应商商、合作伙伴伴和提供商)使使用。此洞察察可用于针对对客户提供产产品营销信息息。例如,借借助从分析中中获取的洞察察,公司可以以使用客户偏偏好数据和位位置感知,在在客户经过通通道或店铺时时向他们提供供个性化的营营销信息。该洞察可用于检检测欺诈,实实时拦截交易易,并将它们们与使用已存存储在企业中中的数据构建建的视图进行行关联。在欺欺诈性交易发发生时,可以以告知客户可可能存在欺诈诈,以便及时时采取更正操操作。此外,可以根据据在数据
21、改动动层完成的分分析来触发业业务流程。可可以启动自动动化的步骤 例如,如如果客户接受受了一条可自自动触发的营营销信息,则则需要创建一一个新订单,如如果客户报告告了欺诈,那那么可以触发发对信用卡使使用的阻止。分析的输出也可可由推荐引擎擎使用,该引引擎可将客户户与他们喜欢欢的产品相匹匹配。推荐引擎分析可可用的信息,并并提供个性化化且实时的推推荐。使用层还为内部部用户提供了了理解、找到到和导航企业业内外的链锁锁信息的能力力。对于内部部使用者,为为业务用户构构建报告和仪仪表板的能力力使得利益相相关者能够制制定精明的决决策并设计恰恰当的战略。为为了提高操作作有效性,可可以从数据中中生成实时业业务警告,而
22、而且可以监视视操作性的关关键绩效指标标:? 交易拦截器器 此组件件可实时拦截截高容量交易易,将它们转转换为一种容容易被分析层理解的的实时格式,以以便在传入数数据上执行实实时分析。事事务拦截器应应能够集成并并处理来自各各种来源的数数据,比如传传感器、智能能仪表、麦克克风、摄像头头、GPS 设备、ATTM 和图像像扫描仪。可可以使用各种种类型的适配配器和 APPI 来连接接到数据源。也也可以使用各各种加速器来来简化开发,比比如实时优化化和流分析,视视频分析,银银行、保险、零零售、电信和和公共运输领领域的加速器器,社交媒体体分析,以及及情绪分析。? 业务流程管管理流程 来自分析层层的洞察可供供业务流
23、程执执行语言 (BPEL)流程、API 或其他业务务流程使用,通通过自动化上上游和下游 IT 应用用程序、人员员和流程的功功能,进一步步获取业务价价值。? 实时监视 可以使用用从分析中得得出的数据来来生成实时警警告。可以将将警告发送给感兴趣趣的使用者和和设备,比如如智能电话和和平板电脑。可可以使用从分分析组件生成成的数据洞察察,定义并监监视关键绩效效指标,以便便确定操作有有效性。实时时数据可从各各种来源以仪仪表板的形式式向业务用户户公开,以便便监视系统的的健康或度量量营销活动的的有效性。? 报告引擎 生成与传传统商业智能能报告类似的的报告的能力力至关重要。用用户可基于从分析析层中得到的的洞察,
24、创建建临时报告、计计划的报告或或自助查询和和分析。? 推荐引擎 基于来自自分析层的分分析结果,推推荐引擎可向向购物者提供供实时的、相关的和和个性化的推推荐,提高电电子商务交易易中的转换率率和每个订单单的平均价值值。该引擎实实时处理可用用信息并动态态地响应每个个用户,响应应基于用户的的实时活动、存存储在 CRRM 系统中中的注册客户户信息,以及及非注册客户户的社交概况况。? 可视化和发发现 数据据可跨企业内内外的各种联联邦的数据源源进行导航。数数据可能具有不同同的内容和格格式,所有数数据(结构化化、半结构化化和非结构化化)可组合来来进行可视化化并提供给用用户。此能力力使得组织能能够将其传统统的企
25、业内容容(包含在企企业内容管理理系统和数据据仓库中)与与新的社交内内容(例如 tweett 和博客文文章)组合到到单个用户界界面中。3.1.2 垂垂直层影响逻辑层(大大数据来源、数数据改动和存存储、分析和和使用层)的的所有组件的的各方面都包包含在垂直层层中:? 信息集成? 大数据治理理? 系统管理? 服务质量3.1.2.11 信息集成成大数据应用程序序从各种数据据起源、提供供程序和数据据源获取数据据,并存储在在 HDFSS、NoSQQL 和 MMongoDDB 等数据据存储系统中中。这个垂直直层可供各种种组件使用(例例如数据获取取、数据整理理、模型管理理和交易拦截截器),负责责连接到各种种数据
26、源。集集成将具有不不同特征(例例如协议和连连接性)的数数据源的信息息,需要高质质量的连接器器和适配器。可可以使用加速速器连接到大大多数已知和和广泛使用的的来源。这些些加速器包括括社交媒体适适配器和天气气数据适配器器。各种组件件还可以使用用这一层在大大数据存储中中存储信息,从从大数据存储储中检索信息息,以便处理理这些信息。大大多数大数据据存储都提供供了服务和 API 来来存储和检索索该信息。3.1.2.22 大数据治治理数据治理涉及到到定义指南来来帮助企业制制定有关数据据的正确决策策。大数据治治理有助于处处理企业内或或从外部来源源传入的数据据的复杂性、量量和种类。在在将数据传入入企业进行处处理、
27、存储、分分析和清除或或归档时,需需要强有力的的指南和流程程来监视、构建、存储和保保护数据。除了正常的数据据治理考虑因因素之外,大大数据治理还还包含其他因因素:? 管理各种格格式的大量数数据。? 持续培训和和管理必要的的统计模型,以以便对非结构构化数据和分分析进行预处处理。请记住,设设置处理非结结构化数据时时的重要一步步。? 为外部数据据设置有关其其保留和使用用的策略和合合规性制度。? 定义数据归归档和清除策策略。? 创建如何跨跨各种系统复复制数据的策策略。? 设置数据加加密策略。3.1.2.33 服务质量量层此层复杂定义数数据质量、围围绕隐私和安安全性的策略略、数据频率率、每次抓取取的数据大小
28、小和数据过滤滤器:? 数据质量? 完整地识别别所有必要的的数据元素? 以可接受的的新鲜度提供供数据的时间间轴? 依照数据准准确性规则来来验证数据的的准确性? 采用一种通通用语言(数数据元组满足足使用简单业业务语言所表表达的需求) ? 依据数数据一致性规规则验证来自自多个系统的的数据一致性性? 在满足数据据规范和信息息架构指南基基础上的技术术符合性? 围绕隐私和和安全的策略略需要策略来保护护敏感数据。从从外部机构和和提供程序获获取的数据可可能包含敏感感数据(比如如 Faceebook 用户的联系系信息或产品品定价信息)。数数据可以来源源于不同的地地区和国家,但但必须进行相相应的处理。必必须制定有
29、关关数据屏蔽和和这类数据的的存储的决策策。考虑以下下数据访问策策略:? 数据可用性性? 数据关键性性? 数据真实性性? 数据共享和和发布? 数据存储和和保留,包括括能否存储外外部数据等问问题。如果能能够存储数据,数据可存储储多长时间?可存储何种种类型的数据据?? 数据提供程程序约束(政政策、技术和和地区)? 社交媒体使使用条款(参参见 参考资资料)? 数据频率提供新鲜数据的的频率是多少少?它是按需需、连续还是是离线的?? 抓取的数据据大小此属性有助于定定义可抓取的的数据以及每每次抓取后可可使用的数据据大小。? 过滤器标准过滤器会删删除不想要的的数据和数据据中的干扰数数据,仅留下下分析所需的的数
30、据。3.1.2.44 系统管理理系统管理对大数数据至关重要要,因为它涉涉及到跨企业业集群和边界界的许多系统统。对整个大大数据生态系系统的健康的的监视包括:? 管理系统日日志、虚拟机机、应用程序序和其他设备备? 关联各种日日志,帮助调调查和监视具具体情形? 监视实时警警告和通知? 使用显示各各种参数的实实时仪表板? 引用有关系系统的报告和和详细分析? 设定和遵守守服务水平协协议? 管理存储和和容量? 归档和管理理归档检索? 执行系统恢恢复、集群管管理和网络管管理? 策略管理3.2 功能应应用前面提到的技术术架构的这些些层定义了各各种组件,并并对它们进行行分类,这些些组件必须处处理某个给定定业务用
31、例的的功能性和非非功能性需求求。本文基于于层和组件的的概念,介绍绍了解决方案案中所用的典典型原子模式式和复合模式式。通过将所所提出的解决决方案映射到到此处提供的的模式,让用用户了解需要要如何设计组组件,以及从从功能角度考考虑,应该将将它们放置在在何处。模式式有助于定义义大数据解决决方案的架构构。利用原子子模式和复合合模式可以帮帮助进一步完完善大数据解解决方案的每每个组件的角角色和责任。3.3 原子模模式对于大数据上下下文中经常出出现的问题,原原子模式 有有助于识别数数据如何是被被使用、处理理、存储和访访问的。它们们还有助于识识别所需的组组件。访问、存存储和处理来来自不同数据据源的多种数数据需要
32、不同同的方法。每每种模式都用用于满足特定定的需求:例例如,可视化化、历史数据据分析、社交交媒体数据和和非结构化数数据的存储。可可以将多种原原子模式结合合使用,组成成一个复合模模式。这些原原子模式没有有进行分层或或排序。例如如,可视化模模式可以与社社交媒体的数数据访问模式式直接交互,可可视化模式还还可以与高级级分析处理模模式进行交互互。3.3.1 数数据使用组件件这种类型的模式式处理使用数数据分析结果果的各种方式式。数据使用用模式可以满满足几个需求求。3.3.1.11 可视化组组件可视化数据的传传统方式以图图表、仪表板板和摘要报告告为基础。这这些传统的方方法并不总是是用来可视化化数据的最佳佳方式
33、。大数据可视化的的典型需求(包包括新出现的的需求)如下下所示:? 执行流数据据的实时分析析和显示? 基于上下文文,以交互方方式挖掘数据据? 执行高级搜搜索,并获得得建议? 并行可视化化信息? 获得先进的的硬件,支持持未来的可视视化需求? 正在进行研研究,以确定定人类和机器器如何使用大大数据洞察。这这些挑战包括括所涉及的数据量量,并且需要要将数据与上上下文相关联联。必须在适适当的上下文文中显示洞察察。? 可视化数据据的目的是为为了更容易、更更直观地使用用数据,因此此报告和仪表表板可能提供全高高清的观看效效果和 3-D 互动视视频,并且可可以为用户提提供使用应用用程序控制业业务活动和结结果的能力。
34、3.3.1.22 即席发现现组件创建满足所有业业务需求的标标准报告往往往是不可行的的,因为企业业的业务数据据查询会有不不同的需求。用用户在查找特特定信息时,可可能需要获得得根据问题的的上下文执行行即席查询的的能力。即席分析可以帮帮助数据专家家和关键业务务用户了解业业务数据的行行为。即席处处理中涉及的的复杂性来自自多种因素:多个数据源可用用于相同的域域。? 单一的查询询可以有多个个结果。? 输出可以是是静态的,并并具有多种格格式(视频、音音频、图形和和文本)。 ? 输出可可以是动态和和交互式的。3.3.1.33 数据转储储组件在大数据的初步步探索中,许许多企业选择择使用现有的的分析平台来来降低成
35、本,并并依赖于现有有的技能。加加强现有的数数据存储有助助于拓宽可用用于现有分析析的数据的范范围,包括驻驻留在组织边边界内外的数数据,比如社社交媒体数据据,它可以丰丰富主数据。通通过拓宽数据据范围,使之之包含现有存存储中的新事事实表、维度度和主数据,并并从社交媒体体获取客户数数据,组织可可以获得更深深入的客户洞洞察。但要牢记的是,新新的数据集通通常比较大,而而现有的提取取、转换和加加载工具可能能不足以处理理它。您可能能需要使用具具有大规模并并行处理能力力的高级工具具来解决数据据的数量、多多样性、真实实性和速度特特征。3.3.1.44 信息推送送/通知组件件大数据洞察使人人类、企业和和机器可以通通
36、过使用事件件通知而立即即采取行动。通通知平台必须须能够处理及及时发送出去去的预计数量量的通知。这这些通知与大大量邮件或群群发短信不同同,因为内容容一般是特定定于使用者的的。例如,推推荐引擎可以以提供有关世世界各地的庞庞大客户群的的洞察,而且且可以将通知知发送给这样样的客户。3.3.1.55 自动响应应组件从大数据获得的的业务洞察,可可用于触发或或启动其他业业务流程或事事务3.3.2 数数据处理组件件无论数据是处于于静止状态还还是在运动中中,都可以处处理大数据。具具体情况取决决于分析的复复杂性,有可可能不需要对对数据进行实实时处理。这这种模式解决决了对大数据据进行实时、近近实时或批量量处理的方式
37、式。以下高级的大数数据处理类别别适用于大多多数分析。这这些类别通常常也适用于基基于 RDBBMS 的传传统系统。惟惟一的区别是是庞大规模的的数据、多样样性和速度。在在处理大数据据时,要使用用机器学习、复复杂事件处理理、事件流处处理、决策管管理和统计模模型管理等技技术。3.3.2.11 历史数据据分析组件传统的历史数据据分析仅限于于预定义的数数据时间段,这这通常取决于于数据保留策策略。由于处处理和存储的的限制,超出出此时间段的的数据通常会会被归档或清清除。基于 Hadooop 的系统统和其他等效效的系统可以以克服这些限限制,因为它它们具有丰富富的存储以及及分布式大规规模并行处理理能力。运营营、业
38、务和数数据仓库的数数据被移动到到大数据存储储,您通过使使用大数据平平台功能对它它们进行处理理。历史分析包括分分析给定时间间段、季节组组合和产品的的历史趋势,并并与最新的可可用数据进行行比较。为了了能够存储和和处理如此庞庞大的数据,您您可以使用 HDFS、NoSQL、SSPSS? 和 InffoSpheere? BBigInssightss?。3.3.2.22 高级分析析组件大数据提供了很很多实现创意意洞察的机会会。不同的数数据集可以在在多种上下文文中存在关联联。发现这些些关系需要创创新的复杂算算法和技术。高级分析包括预预测、决策、推推理过程、模模拟、上下文文信息标识和和实体解析。高高级分析的应
39、应用包括生物物统计数据分分析(例如,DDNA 分析析)、空间分分析、基于位位置的分析、科科学分析、研研究,等等。高高级分析要求求大量的计算算来管理大量量的数据。数据专家可以指指导您识别合合适的技术、算算法和数据集集,以及在给给定上下文中中解决问题所所需的数据源源。比如 SSPSS、IInfoSpphere Streaams 和 InfoSSpheree BigIInsighhts 等工工具提供了这这类功能。这这些工具访问问存储在大数数据存储系统统(比如 BBigTabble、HBBase,等等等)中的非非结构化数据据和结构化数数据(例如,JJSON 数数据)。3.3.2.33 预处理原原始数据
40、组件件大数据解决方案案主要由基于于 MapRReducee 的 Haadoop 系统和技术术组成,MaapReduuce 是开开箱即用的分分布式存储和和处理解决方方案。然而,从从非结构化数数据提取数据据(例如,图图像、音频、视视频、二进制制提要,甚至至是文本)是是一项复杂的的任务,需要要具有机器学学习能力并掌掌握自然语言言处理等技术术。另一个主主要挑战是如如何验证这些些技术和算法法的输出的准准确度和正确确性。要对任何数据执执行分析,数数据都必须是是某种结构化化格式。从多多个数据源访访问的非结构构化数据可以以按原样存储储,然后被转转化成结构化化数据(例如如 JSONN),并被再再次存储到大大数据
41、存储系系统中。非结结构化文本可可以转换成半半结构化或结结构化数据。同同样,图像、音音频和视频数数据需要转换换成可用于分分析的格式。此此外,使用预预测和统计算算法的高级分分析的准确性性和正确性取取决于用来训训练其模型的的数据和算法法的数量。下面的列表显示示了将非结构构化数据转换换成结构化数数据所需的算算法和活动: ? 文档档和文本分类类? 特征提取? 图像和文本本分割? 关联特征、变变量和时间,然然后提取包含含时间的值? 输出的准确确度检查使用用了混淆矩阵阵(conffusionn matrrix)等技技术和其他手手动活动? 数据专家可可以帮助用户户选择合适的的技术和算法法。3.3.2.44 即
42、席分析析组件处理大数据的即即席查询所带带来的挑战不不同于对结构构化数据执行行即席查询时时所面临的挑挑战,由于数数据源和数据据格式不是固固定的,所以以需要使用不不同的机制来来检索和处理理数据。虽然大数据供应应商可以处理理简单的即席席查询,但在在大多数情况况下,查询是是复杂的,因因为必须在运运行时动态地地发现数据、算算法、格式和和实体解析。所所以需要利用用数据专家和和业务用户的的专业知识来来定义下列任任务所需的分分析:? 识别并发现现计算和算法法? 识别并发现现数据源? 定义所需的的可以由计算算使用的格式式? 对数据执行行并行计算3.3.3 数数据访问组件件在大数据解决方方案中,有许许多数据源,还
43、还有很多访问问数据的方式式,本节将介介绍最常见的的几种。3.3.3.11 web和和社交媒体访访问组件Interneet 是提供供许多目前可可以获得的洞洞察的数据源源。在几乎所所有分析中,都都会用到 WWeb 和社社交媒体,但但获得这种数数据需要不同同的访问机制制。在所有数据源中中,因为 WWeb 和社社交媒体的多多样性、速度度和数量,所所以 Webb和社交媒体是最最为复杂的。网网站大约有 40-500 个类别,每每一个类别都都需要使用不不同的方式来来访问数据。本本节将列出这这些类别,并并介绍一些访访问机制。从从大数据的角角度讲,高级级的类别是商商业站点、社社交媒体站点点,以及具有有特定和通用
44、用组件的站点点。有关的访访问机制见图图 3。如果果需要的话,在在完成预处理理后,可将所所访问的数据据存储在数据据存储中。Web 和社交交媒体访问需要执行以下步步骤来访问 Web 媒媒体信息。图 大数据访问问步骤非结构化数据存存储中的 WWeb 媒体体访问步骤 A-1. 爬网程序序读取原始数数据。步骤 A-2. 数据被存存储在非结构构化存储中。Web 媒体访访问为结构化化存储预处理理数据步骤 B-1. 爬网程序序读取原始数数据。步骤 B-2. 对数据进进行预处理。步骤 B-3. 数据被存存储在结构化化存储中。Web 媒体访访问预处理非非结构化数据据步骤 C-1. 在极少数数情况下,来来自供应商的
45、的数据可以是是非结构化数数据。 步骤骤 C-2. 对数据进进行预处理。步骤 C-3. 数据被存存储在结构化化存储中。非结构化或结构构化数据的 Web 媒媒体访问步骤 D-1. 数据供应应商提供结构构化或非结构构化数据。步骤 D-2. 数据被存存储在结构化化或非结构化化存储中。Web 媒体访访问预处理非非结构化数据据步骤 E-1. 不能使用用在存储时未未经过预处理理的非结构化化数据,除非非它是结构化化格式的数据据。步骤 E-2. 对数据进进行预处理。步骤 E-3. 经过预处处理的结构化化数据被存储储在结构化存存储中。如图所示,数据据可以直接存存储在存储器器中,或者可可以对它们进进行预处理,并并将
46、它们转换换成一个中间间格式或标准准格式,然后后再存储它们们。在可以分析数据据之前,数据据格式必须可可用于实体解解析或用于查查询所需数据据。这种经过过预处理的数数据可以存储储在一个存储储系统中。虽然预处理通常常被认为是微微不足道的,但但这项处理可可能非常复杂杂和耗时。3.3.3.22 物联网设设备数据的访访问组件设备生成的内容容包括来自传传感器的数据据数据是从天天气信息、电电气仪表和污污染数据等数数据来源检测测到的,并且且由传感器捕捕获。这些数数据可以是照照片、视频、文文本和其他二二进制格式。下图说明了处理理机器生成的的数据的典型型过程。图 5. 设备备生成的数据据访问图 5 说明了了访问来自传
47、传感器的数据据的过程。由由传感器捕获获的数据可以以发送到设备备网关,设备备网关会对数数据执行一些些初始预处理理,并缓冲高高速数据。机机器生成的数数据大多为二二进制格式(音音频、视频和和传感器读数数)或文本格格式。这样的的数据最初可可以存储在存存储系统中,也也可以对它们们进行预处理理,然后再存存储它们。对对于分析来说说,要求执行行预处理。3.3.3.33 基础数据据(观测数据据和生产数据据)的访问模模式可以存储现有的的事务、运营营和仓库数据据,避免清除除或归档数据据(因为存储储和处理的限限制),或减减少在数据被被其他使用者者访问时对传传统存储的负负载。对于大多数企业业而言,事务务、运营、主主数据和仓库库信息都是所所有分析的核核心。如果用用在 Intternett 上,或者者通过传感器器和智能设备备提供的非结结构化数据以以及外部数据据来增强此数数据,那么可可以帮助组织织获得准确的的洞察,并执执行高级分析析。使用由多个数据据库厂商提供供的标准连接接器,