集团大数据平台建设项目技术要求实现方案.doc-淘文阁

资源描述

《集团大数据平台建设项目技术要求实现方案.doc》由会员分享，可在线阅读，更多相关《集团大数据平台建设项目技术要求实现方案.doc（185页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、集团大数据平台建设项目技术要求实现方案1.1 产品架构图8-1 TDH产品架构TDH架构采用的是单一纯Hadoop式的数据平台架构，在结构上分为实时处理以及海量数据存储分析集群。大数据统一平台既可以处理结构化的数据，实现数据整合平台、历史数据平台的处理，也可以处理非结构化、半结构化的数据，实现大数据平台、外部数据采集平台的支撑，同时，基于平台提供的实时流处理能力，可以满足准实时数据服务平台的需求。配合平台内工具组件和应用开发，数据服务总线、统一调度系统、数据管控平台的功能需求。数据接入层系统接入数据方式多样化，包括关系型数据库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求，数据

2、平台提供多种针对性的接入方式以及工具，通过分布式消息队列Kafka接入实时数据；通过Sqoop、DataStage等ETL工具全量或定时增量抽取同步关系型数据库，也可采用文本文件方式批量导入；自带HUE作为数据抽取管理工具，提供图形化的界面定义数据抽取规则，并可与其他工具相结合，完成数据抽取的工作流；同时，分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道；通过Flume提供海量日志文件的聚汇到HDFS的功能。数据存储层在数据存储层中，底层为统一分布式存储HDFS，HDFS采用三份副本策略保证数据的安全性以及可靠性。然而，随着时间的推移，很少被使用到的归档

3、历史数据会越来越多，占用大量的HDFS存储空间，HDFS通过Erasure Code技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。在HDFS之上提供分布式NoSQL（Not Only SQL）实时数据库 Hyperbase为高并发检索分析以及事务支持提供平台级支撑。Hyperbase通过多种索引支持海量数据多维度的秒级检索查询，包括全局索引，全文索引，组合索引等，另外Hyperbase与Titan相结合支持图数据库。在平台存储层，支持各类结构化、半结构化、非结构化海量数据的低成本存储，为超长时间的海量历史数据存储和使用提供基础支撑。并通过Hyperbase对于海量数据高并发低延时的

4、检索能力，很好的支持移动互联业务场景的数据访问需求。数据计算层在数据存储层之上的数据计算层通过YARN提供统一的资源管理调度，可以动态创建和销毁集群，灵活部署业务。采用Inceptor内存计算分析能力为贵州银行的各个应用提供高效的分析挖掘能力。在Inceptor中，通过独立的分布式内存列式存储Holodesk，解决开源Spark的稳定性问题以及进一步提供交互式分析能力，同时为了降低平台建设成本与提高平台内存分析数据量，分布式内存存储可建在内存或者固态硬盘SSD上。利用Spark高速内存迭代计算的优势，通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库，为大数据平台提供高效的

5、数据挖掘能力。同时，保留传统的MapReduce计算框架，完整大数据平台对于各个计算框架的支持。此外，实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。通过消息队列Kafka消费实时数据流，做到数据不丢不重，基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时，将数据时延降低至秒级，适用于各种实时数据的复杂处理业务场景。数据分析层在数据分析层，通过Inceptor对存储在HDFS、Hyperbase以及分布内存缓存Holodesk上的数据进行统计检索分析，并为数据服务层提供JDBC/ODBC接口，同时为了降低数据平台学习与使用成本，

6、方便传统业务迁移，Inceptor兼容支持SQL2003标准以及PL/SQL。对于数据挖掘，在分析层，提供可视化的挖掘建模设计工具RStudio，使用R语言进行交互式数据挖掘与统计分析，挖掘数据深度规律并建立数据模型。同时支持Mahout，利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。数据应用层在数据服务层，通过数据存储层、计算层以及分析层提供的接口，封装后提供多种数据服务能力，包括海量数据高并发检索查询，即席查询，海量数据交互式统计分析，数据可视化，实时数据比对异常检测告警，实时数据基于滑动时间窗口统计分析，海量数据统计挖掘以及数据平台中数据交换等。通过大数据平台对外提供

7、的各种服务，在其之上实现贵州银行各类应用，包括管理驾驶舱、统一报表平台、数据分析、实时数据处理等。数据管理与系统安全此外，大数据平台通过安全通信协议和角色权限管理功能，在软件层面提供通信安全和数据访问安全的双重保障，有效的对各个部门以及下级单位的数据访问进行控制和安全管理，实现数据平台4A级（认证Authentication、账号Account、授权Authorization、审计Audit）统一安全管理解决方案。通过LDAP管理用户账号，使用Kerberos进行用户身份认证，同时大数据平台实现基于角色的访问权限控制（Role Based Access Control），最后所有的安全访问审计

8、内容都会记录在数据平台的日志中。大数据平台中，从数据的接入，如分布式消息队列Kafka的Topic权限控制，到平台中的各个组件都支持安全管理，包括HDFS，YARN，Hyperbase，Inceptor等组件。同时为了重要数据的安全考虑，HDFS提供加密存储。最后，数据平台提供易用的管理运维工具，降低数据平台运维成本，包括集群的安装，参数的配置，节点的增删，服务的监控，资源指标的监控以及异常的记录与告警。1.1.1 基础构建平台图8-2核心技术产品架构图Transwarp Data Hub大数据基础平台，底层为Transwarp Hadoop统一分布式存储，其上包含了分布式流处理Transwa

9、rp Stream，交互内存分析SQL引擎Transwarp Inceptor，分布式实时在线数据库Transwarp Hyperbase，分布式机器学习引擎Transwarp Discover，以及基于Transwarp YARN的多租户分布式计算集群Inceptor。以上组件由Transwarp Manager进行统一管理和监控。内部组件通过Stargate进行通信，同时各个组件也对外开放接口。 Inceptor：ODBC/JDBC、Stargate Hyperbase：Hyperbase driver、Stargate、Java API、Scala API Stream ：Stargat

10、e、专用API Discover：专用API、Stargate1.1.2 大数据平台组件功能介绍1.1.2.1 Transwarp Hadoop分布式文件系统本平台采用基于HDFS的大数据存储系统，同时支持Erasure Code以及HDFS文件加密存储。Hadoop分布式文件系统（HDFS）是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用，已经成为海量数据存储的事实标准。HDFS通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠的多备份存储的同时还能将访问分布在集

11、群中的各个服务器之上，是传统存储构架的一个颠覆性的发展。NameNode管理元数据，包括文件目录树，文件-块映射，块-数据服务器映射表等；DataNode负责存储数据、以及响应数据读写请求；客户端与NameNode交互进行文件创建/删除/寻址等操作，之后直接与DataNode交互进行文件I/O。采用NameNode HA方案保证HDFS的高可靠性，始终有一个NameNode做热备，防止单点故障问题。采用QJM的方式实现HA，文件系统元数据存储在由JournalNode组成的高可靠集群上。同时当数据量太大导致单个NameNode达到处理瓶颈时，提供HDFS Federation功能，不同的Nam

12、e Service(由NameNode组成)处理挂载在HDFS上不同目录下的文件。HDFS的每个数据块分布在不同机架的一组服务器之上，在用户访问时，HDFS将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问，而不是仅从数据源读取，HDFS对于单数据块的访问性能将是传统存储方案的数倍。对于一个较大的文件，HDFS将文件的不同部分存放于不同服务器之上。在访问大型文件时，系统可以并行从服务器阵列中的多个服务器并行读入，增加了大文件读入的访问带宽。通过以上实现，HDFS通过分布式存储的算法，将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上，单

13、个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破，提供了极高的数据吞吐量。HDFS将文件的数据块元数据信息存放在NameNode服务器之上，文件数据块分散的存放在DataNode服务器上。当整个系统容量需要扩充时，只需要增加DataNode的数量，系统会自动实时将新的服务器匹配进整体阵列之中。之后，文件的分布算法会将数据块搬迁到新的DataNode之中，不需任何系统停机维护或人工干预。通过以上实现，HDFS可以做到在不停止服务的情况下实时加入新的服务器作为分布式文件系统的容量升级，不需要人工干预文件的重新分布。HDFS文件系统假设系统故障（服务器、网络、存储故障等）是常态，而不是异常。因此

14、通过多方面保证数据的可靠性。数据在写入时被复制多份，并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上；数据在读写时将自动进行数据的校验，一旦发现数据校验错误将重新进行复制。1.1.2.2 Transwarp Inceptor内存分析交互引擎Transwarp Inceptor是基于Spark的分析引擎，从下往上有三层架构，最下面是一个分布式内存列式存储（Transwarp Holodesk），可建在内存或者SSD上，中间层是Spark计算引擎层，最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。Spark是Map/Reduce

15、计算模式的一个全新实现。Spark的创新之一是提出RDD(Resilient Distributed Dataset)的概念，所有的统计分析任务是由对RDD的若干基本操作组成。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据，因此速度可以得到很大提升。Spark的创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图，根据数据之间的依赖性把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快100倍或1000倍都很容易。基于这两点创新，可在Spark

16、基础上进行批处理、交互式分析、迭代式机器学习、流处理，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。Inceptor可以分析存储在HDFS，HBase或者Holodesk分布式缓存中的数据，可以处理的数据量从GB到数十TB，即使数据源或者中间结果的大小远大于内存，也可高效处理。另外也通过改进Spark和YARN的组合，提高了Spark的可管理性。这些使得Inceptor成为目前真正适合企业生产环境7x24小时部署的Spark衍生产品。同时星环不仅仅是将Spark作为一个缺省计算引擎，也重写了SQL编译器，提供更加完整的SQL支持。图8-3 Incepto

17、r模块架构同时，星环通过改进Spark使之更好的与HBase融合。星环基于HBase的产品叫做Hyperbase，通过结合Inceptor，可以为HBase提供完整的SQL支持，包括批量SQL统计、OLAP分析以及高并发低延时的SQL查询能力，使得HBase的应用可以从简单的在线查询应用扩展到复杂分析和在线应用结合的混合应用中，大大拓展了HBase的应用范围。这两个产品的组合使得星环在市场上处于领先地位。1.1.2.3 稳定的Spark计算框架面对企业级需求，企业目前应用开源Spark的主要困难在稳定性、可管理性和功能不够丰富上。开源Spark在稳定性上还有比较多的问题，在处理大数据量时可能无

18、法运行结束或出现Out of memory，性能时快时慢，有时比Map/Reduce更慢，支持的SQL语法仍然非常有限，无法应用到复杂数据分析业务中。然而从星环的Transwarp Inceptor中，上述问题都已经解决并经过实践上限案例的考验，并且Inceptor对Spark进行了大量的改进，极大提高了Spark功能和性能的稳定性。Transwarp Inceptor能稳定的运行7*24小时，并能在TB级规模数据上高效进行各种稳定的统计分析。1.1.2.4 支持Memory+SSD的混合存储架构跨内存/闪存等介质的分布式混合列式存储，可用于缓存数据供Spark高速访问。小内存+SSD+磁盘的

19、新方案可以提供跟大内存+磁盘的传统方案性能接近的交互式SQL分析能力。由于内存的价格是SSD的10倍，因此可以采用SSD来替代内存作为缓存，一方面可以增大分布式内存数据库Holodesk存储容量，另一方面可以降低成本，同时性能没有明显损失。1.1.2.5 完整SQL功能支持内置ORACLE函数支持列表表8-1 Conversionfunctions函数支持Oracle星环TDH平台ASCIISTR支持BIN_TO_NUM支持CAST支持CHARTOROWID支持COMPOSE支持CONVERT支持DECOMPOSE支持HEXTORAW支持NUMTODSINTERVAL支持NUMTOYMINTE

20、RVAL支持RAWTOHEX支持RAWTONHEX支持ROWIDTOCHAR支持ROWIDTONCHAR支持TO_CHAR(character)支持TO_CHAR(datetime)支持TO_CHAR(number)支持TO_CLOB支持TO_DATE支持TO_DSINTERVAL支持TO_LOB支持TO_MULTI_BYTE支持TO_NCHAR(character)支持TO_NCHAR(datetime)支持TO_NCHAR(number)支持TO_NCLOB支持TO_NUMBER支持TO_SINGLE_BYTE支持TO_YMINTERVAL支持TRANSLATE.USING支持UNISTR

21、支持表8-2 Miscellaneousfunctions函数支持Oracle星环TDH平台BFILENAME支持COALESCE支持DECODE支持DEPTH支持DUMP支持EMPTY_BLOB，EMPTY_CLOB支持EXISTSNODE支持EXTRACT(XML)支持EXTRACTVALUE支持GREATEST支持LEAST支持NLS_CHARSET_DECL_LEN支持NLS_CHARSET_ID支持NLS_CHARSET_NAME支持NULLIF支持NVL支持NVL2支持PATH支持SYS_CONNECT_BY_PATH支持SYS_CONTEXT支持SYS_DBURIGEN支持SYS

22、_EXTRACT_UTC支持SYS_GUID支持SYS_TYPEID支持SYS_XMLAGG支持SYS_XMLGEN支持UID支持UPDATEXML支持USER支持USERENV支持VSIZE支持XMLAGG支持XMLCOLATTVAL支持XMLCONCAT支持XMLFOREST支持XMLSEQUENCE支持XMLTRANSFORM支持表8-3 AgregateFunctions函数支持Oracle星环TDH平台AVG支持CORR支持COUNT支持COVAR_POP支持COVAR_SAMP支持CUME_DIST支持DENSE_RANK支持FIRST支持GROUP_ID支持GROUPING支持G

23、ROUPING_ID支持LAST支持MAX支持MIN支持PERCENTILE_CONT支持PERCENTILE_DISC支持PERCENT_RANK支持RANK支持REGR_(LinearRegression)Functions支持STDDEV支持STDDEV_POP支持STDDEV_SAMP支持SUM支持VAR_POP支持VAR_SAMP支持VARIANCE支持表8-4 ObjectReferenceFunction函数支持Oracle星环TDH平台DEREF支持MAKE_REF支持REF支持REFTOHEX支持VALUE支持支持超大数据立方。支持雪花、星型等复杂分析模型等。1.1.2.6

24、Transwarp Discover机器学习引擎Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎，主要由R语言、Spark分布式内存计算框架以及MapReduce分布式计算框架构成。Discover支持R语言引擎，用户可以通过R访问HDFS或者Inceptor分布式内存中的数据。在Discover中，用户既可以通过R命令行，也可以使用图形化的RStudio执行R语言程序来对TDH中的数据进行分析挖掘，易用性极高。Discover内置了大量常用的并行化机器学习算法和统计算法，同时兼容数千个开源的R包，配合TDH内置的高度优化的专有算法，可高速分析关联关系网络等图数据

25、。此外，Discover还支持用户直接将R语言代码处理逻辑作用于分布式数据集中，使用户的操作更加灵活方便。图8-4 Discover 模块架构星环Discover的并行化算法库主要包含机器学习算法库与统计算法库，利用Spark在迭代计算和内存计算上的优势，将并行的机器学习算法与统计算法运行在Spark上，可以有效提高大数据量上算法的执行效率。例如：机器学习算法库包括逻辑回归、朴素贝叶斯、支持向量机、随机森林、聚类、线性回归、推荐算法等，统计算法库包括均值、方差、中位数、直方图、箱线图等。可以支持后期在平台上搭建多种分析型应用，例如用户行为分析、精准营销，将对用户贴标签、进行分类，此类应用都会用

26、到平台的数据挖掘功能。Discover集成了RStudioServer，RStudio是R的一种强大而便捷的IDE，提供基于web的开发环境，支持多人同时在线。同时平台提供的RStudio预加载好了并行化后台以及并行化执行引擎的连接模块，并将R脚本的编写、编译、跟踪执行以及中间变量查看和绘图集于一体，为用户提供了一个强大的R的操作环境。用户除了可以自行编写R的程序脚本、调用开源版本R提供了数千个R的包和函数之外，还可以直接调用Discover实现的并行化机器学习算法库。Discover目前实现的并行化机器学习算法已经提供了常用的分类、聚类、回归、推荐等功能。还会根据进一步的具体需求在平台开发的

27、中进一步实现更多的并行化算法。此外，Discover中还包含了完整的并行化算子库，用户可以通过并行化算子进行并行化算法二次开发。1.1.2.7 并行化统计算法库星环Discover集成多种并行化统计算法，支持从HDFS或者Incteptor上获取数据，统计算法运行在Spark上，利用Spark的迭代计算和计算性能上的优势，将统计算法的运行任务分发给计算集群，实现各个计算节点负载均衡，提高统计任务的计算效率，统计算法库包括均值、方差、中位数、直方图、箱线图等，支持后期在星环大数据平台上开发搭建各种分析应用。现有的并行化统计算法列表：表8-5 统计算法列表算法描述Min计算某列数据的最小值.Max

28、计算某列数据的最大值.Mean计算某列数据的平均值Variance计算某列数据的方差PercentileApprox计算指定列的百分位数MinMaxNormalization归一化方法是一种简化计算的方式，通过将原始数据转换到某个范围内如（0，1），可以避免不同指标因取值范围的不同，对结果造成的偏差。ZNormalization将输入数据按照Z-Score进行归一化.Median计算某列数据的中位数Percentile用来计算处于某个分位数上的值，如给定参数0.5，则返回中位数Boxplot箱线图是一种描述数据分布的统计图，利用它可以从视觉的角度来观察变量值的分布情况。箱线图主要表示变量值的中

29、位数、四分之一位数、四分之三位数等统计量。Cardinality统计某列数据中每个值的频数Correlation计算两列数据的相关性Histogram直方图(Histogram)又称质量分布图。是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。Binning通过指定区间数，可以返回对数据进行均匀分布后的每个区间的取值。Pie通过输入RDD，构造饼图BoxPlotApprox计算指定列的boxplot参数，包括最小值、1/4分位数、中位数、3/4分位数、最大值BoxPlots绘制样本所有列的箱线图1.1.2.8 机器学习并行算法库为了从庞大的数据库中获取有用的高价值密度的数据

30、，星环Discover集成多种机器学习并行算法，支持读取HDFS和inceptor数据，包括分类算法、回归算法、聚类算法、关联分析等多种算法。表8-6 机器学习算法列表算法描述LogisticRegression逻辑回归当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等，常用于做分类。NaveBayes朴素贝叶斯ML中的一个分类算法，常用于做文本分类。该分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。该模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单实用。SVM支持向量机支持向

31、量机（SupportVectorMachine）是一种监督式学习的方法，可广泛的应用于统计分类以及回归分析，具有较高的鲁棒性。K-Means聚类算法K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。LinearRegression线性回归线性回归是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。在线性回归中，数据使用线性预测函数来建模，并且未知的模型参数也是通过数

32、据来估计。CollaborativeFiltering协同过滤基于用户的协同过滤算法:基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。Apriori频繁项集频繁项挖掘，频繁项集挖掘是关联规则挖掘中的首要的子任务。它主要用于挖掘集合中经常一起共现的元素，如经常被一起购买的商品等。AssociateRule关联挖掘关联规则分析，根据挖掘出的频繁项集，进一步挖掘如商品间或消费间的关联系数决策树（DecisionTree）决策树分类方法，采用的是基于最小距离的基尼指数估计函数，用来决定

33、由该子数据集生成的决策树的拓展形。其中如果目标变量是标称的，称为分类树；如果目标变量是连续的，称为回归树。分类树是使用树结构算法将数据分成离散类的方法。人工神经网络算法(ANN)人工神经网络(ArtificialNeuralNetworks，ANN)是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。它的优点是：分类的准确度高，并行分布处理能力强，分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。随机森林(RandomForest)随机森林(RandomForest，RF)是一个包含多个决策树的分类器，并且其输出的类别是由个别

34、树输出的类别的众数而定。梯度提升树(Gradient-BoostedTrees)Gradient-BoostedTrees(GBTs)就是一组决策树簇，它通过迭代训练决策树来最小化损失函数。保序回归IsotonicRegression算法用于回归模型的建立Apriori算法Apriori算法是一种挖掘关联规则的算法，用于挖掘其内含的、未知的却又实际存在的数据关系。Apriori算法分为两个阶段，一是寻找频繁项集，二是由频繁项集找关联规则。协同滤波（CF）推荐系统中应用最广泛的算法就是协同滤波算法，该算法用于预测用户-商品关联矩阵中所缺失的部分。FP-growthFP-growth是一种不产生候

35、选模式而采用频繁模式增长的方法挖掘频繁模式的算法PageRankPageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。TF-IDFTFI-DF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。Word2VecWord2Vec是一个将单词转换成向量形式的工具。奇异值分解(SVD)奇异值分解(singularvaluedecomposition，SVD)能够将一个矩阵分解成3个矩阵U，andV，其中U是一个的标准正交矩阵，是一个对角元素是非负且递减的对角矩阵，V是一个标准正交矩阵主成分分析(PCA)主成分分析(PC

36、A)是一种统计方法，目的是将多个变量通过线性变换以选出较少个数重要变量，达到降维的目的。Histogram造指定列的直方图算法BoxPlot绘制样本所有列的箱线图图形算法Binning对输入的RDD构建等区间直方图算法Pie通过输入RDD，构建饼图算法流处理统计算法计算流数据的平均值与方差算法流处理统计中位数算法计算流数据的中位数流处理统计终值算法计算流数据的最大值最小值算法流处理统计分位数算法计算流数据的分位数算法流处理数据统计算法计算指定范围内的数据个数算法流处理数据数据清洗统计增量数据中的异常值个数算法流处理数据直方图计算增量数据的等区间直方图算法流处理数据箱型图算法计算增量数据的箱线图

37、算法流处理数据直方图算法计算增量数据的直方图算法流处理数据密度算法基于增量学习的二维核密度估计算法流处理数据kmean算法基于增量学习的kmeans算法流处理数据线性回归算法基于增量学习的线性回归算法星环Discover集成了多种机器学习算法，并支持R语言、RStudio；为用户提供一个开放的R语言操作环境，用户后期基于平台开发各种分析应用，比如银行商圈聚类和精准营销，商圈，是指商店以其所在地点为中心，沿着一定的方向和距离扩展，吸引顾客的辐射范围，在具体计算过程中，我们可以定义一个表达区域内部的商户的稀疏程度的值，该值达到一定程度，则称该区域为一个商圈，银联大数据具有很高的价值，无论是真实消费

38、记录，还是准确地理位置的行为信息，这些数据可以为建模提高数据来源。目前，星环大数据平台在金融、电信等行业和客户一起合作开发了分析应用，并且取得良好的效果，为客户提供了精准的商业分析；1.1.2.9 Transwarp Hyperbase列式存储数据库Hyperbase实时在线数据处理引擎以Apache HBase为基础，具备与传统数据库相近的接口以及开发方式，以减少系统迁移和新应用开发成本，支持SQL2003以及PL/SQL，星环的Hyperbase集OLTP、OLAP、批处理和搜索引擎于一体，满足企业高并发的在线业务需求。在OLTP方面，Hyperbase支持高并发毫秒级数据插入/修改/查询

39、/删除(CRUD)，结合InceptorSQL引擎，可以支持通过SQL进行高并发的CRUD；支持分布式事务处理；支持常见数据类型，可更高效的存取数据。在OLAP方面，Hyperbase支持多种索引，包括全局索引（Global Index）、辅助索引、局部索引（Local Index）以及高维索引（high-dimensional index）；结合Inceptor，可进行行列存储转换，进行秒级高效分析；同时支持复杂查询条件，自动利用索引加速数据检索，无需指定索引；与Inceptor引擎相结合后，充分利用Hyperbase的内部数据结构以及全局/辅助索引进行SQL执行加速，可以满足高速的OLAP

40、数据分析应用需求。在批处理方面，Hyperbase通过为Inceptor引擎提供高效数据扫描接口，通Inceptor的扩展SQL语法，使得Inceptor能在Hyperbase之上做全量数据的高速统计，性能会比Hive/MapReduce跑在HBase上快510倍。此外，Hyperbase还支持全文索引，通过建立增量全文索引，对于全文关键字搜索达到秒级的返回。图8-5 Hyperbase模块架构Hyperbase支持分布式事务处理，支持多表的分布式事务处理，保证数据的一致性和操作的原子性。Transwarp Hyperbase支持多数据，包括结构化数据、半结构化（JSON/BSON，XML形式

41、存储）、非结构化数据，例如纯文本、图片或者视频大对象的高效存储以及读取。基于SQL的快速批处理Transwarp Hyperbase支持通过SQL语言对Hyperbase中的数据进行高效批量统计的能力。目前大数据场景越来越复杂，批处理任务场景是目前面临的一个难点之一，此种类型任务最为常见，需要耗费大量计算资源、磁盘IO，负载巨大，对时间要求不高，往往通过Spark或者Map/Reduce方式进行具体的任务执行，最终将结果写入磁盘或返回。而SQL的高度支持是实现批量处理的一个技术难点，因此有必要支持通过SQL对Transwarp Hyperbase中的数据进行高效的批量统计能力。Transwar

42、p Hyperbase通过Transwarp Inceptor的扩展SQL语法，同时充分利用Transwarp Hyperbase的内部数据结构以及全局/辅助索引进行SQL执行加速，可以满足高速的OLAP数据分析应用需求；同时也支持高速的SQL离线批处理。支持在在一个事务中批量执行多个增删改操作，在正式提交前事务不生效，可以回退。低延时高并发查询通过Inceptor对Hyperbase上的数据进行SQL统计分析，完整支持SQL2003和大部分PL/SQL，支持使用大表交互等一系列复杂的SQL分析语法操作。Hyperbase支持多种索引，包括全局索引（Global Index）、局部索引（Loc

43、al Index）、高维索引（High-Dimensional Index）以及全文索引（Full-Text Index）等；结合Inceptor支持通过SQL进行复杂条件毫秒级高并发查询。在Transwarp Hyperbase中通过使用索引来加快数据的查询速度。包括三种索引：本地索引、全局索引、全文索引，支持索引的自动创建（在创建表时指定索引），也支持对已有表创建索引。索引的基本设计思想是对Transwarp Hyperbase表中的需要经常作为查询条件的列建立一个映射到主数据的索引。查询时可以利用索引特性进行快速定位并返回查询结果。实验证明，通过使用索引，用户查询的响应速度可以达到原来的

44、20100倍。Hyperbase支持全局、局部、高维索引和高级过滤器，且Transwarp Hyperbase构建了全局索引、辅助索引和全文索引，扩展了SQL语法，满足在线存储和在线业务分析系统(OLAP)的低延时需求，实现高并发低延时的OLAP查询。基于Lucene的分布式全文检索TDH平台提供与ElasticSearch集成，ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户的全文搜索引擎，基于RESTfulweb接口。ElasticSearch是用Java开发的，设计用于云计算中，能够实时搜索，具有稳定、可靠、快速等特点，安装使用方便。Hyperbas

45、e中提供了全文索引的功能，通过ElasticSearch能够对Hyperbase中的数据进行全文检索。全文索引功能集成在Transwarp Hyperbase中，可在Hyperbase上建立索引任务，通过Spark分布式计算框架把子任务分发给节点服务器，把需求作为查询条件的列建立一个映射到主数据的索引，利用平台的处理能力，结合BigTable实时创建索引并进行搜索，快速返回搜索结果。集中信息配置使用Zookeeper进行集中配置，启动时可以指定把ElasticSearch上的相关配置文件上传Zookeeper，多机器共用。这些Zookeeper中的配置不会再拿到本地缓存，系统直接读取Zooke

46、eper中的配置信息。配置文件的变动，所有机器都可以感知到。另外，分布式全文检索模块的一些任务也是通过Zookeeper作为媒介发布的。目的是为了容错。接收到任务，但在执行任务时崩溃的机器，在重启后，或者集群选出候选者时，可以再次执行这个未完成的任务。自动容错分布式全文检索模块支持对索引分片，并对每个分片创建多个索引子任务。每个子任务都可以对外提供服务。一个分片的子任务挂掉不会影响索引服务。，支持在其它机器上把失败机器上的索引分片任务重建并投入使用。实时搜索支持立即推送索引分片（也支持慢推送，在计算资源不够的情况下），支持秒内检索到新加入的索引，同时，索引结果无延迟推送给上层用户；支持索引结果

47、和调用数据存放在内存里面，快速响应系统索引请求，同时，新索引也可以调用存放在内存的数据子集，节约索引开销；直到任务结束后，释放存在内存的数据子集，重新分配计算资源。事务日志支持事务日志，确保索引操作无丢失，即使整个集群因故重启或者任务没有索引到磁盘，重启后，索引模块仍然可以根据日志记录，快速恢复索引任务。批量建立索引索引存放在分布式数据库Hyperbase上，索引任务下达时，模块把索引任务翻译成MR任务，批量建立索引，通过MR任务把索引计算任务分发给计算节点，节点完成索引任务后统一汇总上传计算结果。高并发分布式事务处理Transwarp Hyperbase通过Transwarp Inceptor的扩展SQL语法，进行

展开阅读全文