(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc

上传人:君**** 文档编号:96418102 上传时间:2023-11-24 格式:DOC 页数:18 大小:525KB
返回 下载 相关 举报
(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc_第1页
第1页 / 共18页
(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc_第2页
第2页 / 共18页
点击查看更多>>
资源描述

《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc》由会员分享,可在线阅读,更多相关《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、(大数据资料)H3C DataEngine MPP Cluster技术白皮书H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司2023年10月目 录1DataEngine MPP Cluster产品简介11.1产品简介11.2产品技术特点11.3产品功能简介22DataEngine MPP Cluster产品架构33DataEngine MPP Cluster产品平台和指标43.1支持的操作系统和平台43.2硬件环境43.3技术指标44DataEngine MPP Cluster核心技术64.1MPP + Shared Nothing架构64.2核心组件64

2、.3高可用74.4高性能扩展能力84.5高性能数据加载94.6OLAP函数104.7行列混合存储105DataEngine MPP Cluster工具115.1客户端工具115.1.1企业管理工具115.1.2监控系统工具115.2备份/恢复工具115.3gcadmin工具125.4数据重分布工具125.5数据抽取及加载工具125.6GCMonit监控工具135.7DB-Link与透明网关135.8Hadoop 导入导出工具146DataEngine MPP Cluster开发接口146.1DataEngine MPP Cluster ODBC146.2DataEngine MPP Clust

3、er JDBC156.3DataEngine MPP Cluster ADO.NET156.4DataEngine MPP Cluster C API16杭州华三通信技术有限公司II1 DataEngine MPP Cluster产品简介1.1 产品简介H3C大规模分布式并行数据库集群系统,简称:H3C DataEngine MPP Cluster,它是在DataEngine列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统

4、。1.2 产品技术特点DataEngine MPP Cluster具备以下技术特征:1) 低硬件成本:完全使用x86架构的PC Server,不需要昂贵的Unix服务器和磁盘阵列;2) 集群架构与部署:完全并行的MPP + Shared Nothing的分布式架构,采用Non-Master部署,节点对等的扁平结构;3) 海量数据分布压缩存储:可处理PB级别以上的结构化数据,采用hash分布、random存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少120倍,并相应地提高I/O性能;4) 数据加载高效性:基于策略的数据加载模式,集群整体加载速度可达2TB

5、/h;5) 高扩展、高可靠:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;6) 高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;7) 高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于300用户;8) 行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;9) 标准化:支持SQL92标准,支持C API、ODBC、JDBC、ADO.NET等接口规范。1.3 产品功能简介功 能描 述结构化查询语言符合SQL 92标准,支持CREATE、ALTER、DROP等

6、DDL语法,支持SELECT、INSERT、UPDATE、DELETE、MERGE等DML语法,支持单表,多表联合查询数据类型INT、TINYINT、SMALLINT、BIGINT、DECIMAL、FLOAT、DOUBLE数值数据类型CHAR、VARCHAR、TEXT字符数据类型DATE、TIME、DATETIME、TIMESTAMP日期类型BLOB二进制数据类型数据库对象提供了数据库,表,索引,视图,存储过程,自定义函数等常用数据库对象的创建,修改和删除操作,支持数据库用户的创建,删除操作,以及用户权限的分配与回收行列混合存储基于创建的物理表,可以实现行存列的创建,修改和删除图形化工具提供了

7、企业管理工具和集群监控工具。接口符合并支持C API、ODBC、JDBC、ADO.NET等接口规范外围工具提供数据加载、集群备份/恢复、数据重分布等外围工具杭州华三通信技术有限公司 - 16 -2DataEngine MPP Cluster产品架构图 01 DataEngine MPP Cluster系统架构图3 DataEngine MPP Cluster产品平台和指标3.1 支持的操作系统和平台支持如下的操作系统和平台:64位Linux 系列 (CentOS、Red Hat 、SUSE)3.2 硬件环境1) 支持基于x86_64的标准PC服务器;2) 支持本地存储(SATA、SAS、SSD

8、 etc);3) 支持阵列部署(SAN、NAS);4) 支持SSD、Flash存储介质作为二级I/O缓存;5) 支持千兆、万兆 Ethernet网络;6) 支持InfiniBand网络。3.3 技术指标技术指标描 述集群节点的数据库实例的大小10TB数字精度65表的个数每个数据库 65536每个表中列的个数2000每个表中行的个数247 表中一行的内部长度300000字节一个INTEGER类型列的长度8字节日期类型列中表示年的位数4位用户名包含字符的个数16字符CHAR类型列的长度255字符BLOB列的长度32K字节VARCHAR类型列长度32K字节行存列的长度32KB数据库名长度64字符表名

9、长度56字符列名长度64字符索引名长度64字符别名长度255字符4 DataEngine MPP Cluster核心技术4.1 MPP + Shared Nothing架构DataEngine MPP Cluster采用完全并行的 MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。图 41 Shared Nothing + MPP 架构示意图4.2 核心组件DataEngine MPP Cluster产品总共包含三大核心组件,即GCluster、GCware和GNod

10、e。GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个DataEngine

11、MPP实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。GCMonit:GCMonit用于定期监测DataEngine MPP Cluster服务程序的运行状态, 一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。4.3 高可用DataEngine MPP

12、Cluster通过SafeGroup组内冗余机制来保证集群的高可用特性:1) 每个SafeGroup可提供1个或2个副本数据冗余;2) SafeGroup 内数据副本自动同步;3) 复制引擎自动管理数据同步。图 42 SafeGroup高可用性管理示意图4.4 高性能扩展能力DataEngine MPP Cluster具备高性能扩展能力:1) 通过SafeGroup 动态扩展集群节点;2) 每个节点可以处理10TB有效数据,同时提供计算和存储能力;3) GCware 负责新节点的数据同步。图 43 DataEngine MPP Cluster扩展技术示意图因为DataEngine MPP Cl

13、uster采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。图 44 DataEngine MPP Cluster高性能高扩展示意图4.5 高性能数据加载数据加载功能作为DataEngine MPP Cluster的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载服务接收数据入库并保存到本地

14、磁盘。图 45数据加载示意图 4.6 OLAP函数DataEngine MPP Cluster 提供OLAP函数,用于支持复杂的分析操作,侧重于对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。4.7 行列混合存储DataEngine MPP Cluster采用的行列混合存储的存储结构,改善了当需要物化的列数较多,查询命中的数据记录又非常离散时,会频繁访问I/O的状况,大大缩短了查询耗时,从而提高了查询效率。DataEngine MPP Cluster提供的行列混合存储技术,它通

15、过创建行存列的机制,减少I/O访问的次数,从而有效地提高I/O性能。5 DataEngine MPP Cluster工具5.1 客户端工具5.1.1 企业管理工具图形化的查询和管理工具,提供用于访问、控制和管理GCluster集群环境。使用DataEngine MPP Cluster企业管理器可以完成如下工作:1) 查看管理集群、集群服务器;2) 查看管理数据库、表、索引;3) 查看所有连接到当前集群环境中的用户;4) 在SQL编辑器中创建和执行SQL 语句;5) 其它管理,例如创建和执行存储过程、自定义函数等。5.1.2 监控系统工具DataEngine Cluset提供了图形化的监控系统工

16、具,该工具提供以下功能:1) 实时的集群监控信息;2) 及时的报警功能;3) 直观的趋势展示;4) 可靠的数据分布视图;5) 详尽的审计日志功能;5.2 备份/恢复工具通过集群的gcrcman的命令行工具,可以实现集群的备份/恢复功能:1) 查看备份记录;2) 备份、恢复;3) 删除数据备份;4) 清除无效备份;5.3 gcadmin工具对于数据库集群用户,尤其是系统管理员来说,实时查询、调整集群以及各节点工作状态,尤为重要。DataEngine MPP Cluster为管理员提供了命令行工具gcadmin。该工具能实现SafeGroup的增加、移除,切换集群模式,查看集群状态等管理功能。5.

17、4 数据重分布工具数据库集群,通过扩展集群的SafeGroup来增加存储容量和提升查询性能。扩展集群SafeGroup后,需要将原集群SafeGroup中的数据,根据数据分布策略重新分布。因此DataEngine MPP Cluster提供了一个数据重分布的管理工具,用来进行集群增加节点后的数据重分布的操作,使得数据能够按照重分布策略分布到各节点上。数据重分布的过程是在线进行的,也就是说无需停止DataEngine MPP Cluster的服务即可实现,数据重分布可以与查询操作并发。5.5 数据抽取及加载工具db2tode/oratode工具是杭州华三通信技术有限公司提供的,可以从db2/or

18、acle数据库系统中抽取数据的工具,使用它可以从db2/oracle系统中抽取出用户所需要的数据,并以文件的形式保存下来,该文件可以作为其它数据库(包括DataEngine数据库系统)的数据源文件。数据分发服务程序是集群为用户加载数据提供的一个工具,此工具由数据分发服务端程序(dispserver)和数据分发客户端程序(dispcli)两个可执行文件组成,实现将数据源文件(从oracle系统或db2系统获取的文件)加载到DataEngine数据库系统的功能。数据分发服务程序的工具包是以tar.bz2的压缩形式提供给用户的。5.6 GCMonit监控工具Monit是开源工具,在某些unix或li

19、nux系统中运行会存在一定程度的兼容性问题(suse系统中会出现不能监控进程的问题);另外,被监控进程还需要提供相应的pid文件给Monit;它本身也不支持高可用运行模式。因此我们依照DataEngine的自身需求和Monit工具的基本功能,开发DataEngine GCMonit来满足多unix(或linux)系统的运行需求。GCMonit功能如下:实时监控DataEngine集群服务程序(目前主要包括gbased,gclusterd,gcrecover,gcmetarecover和gc_sync_server)的运行状况,一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执

20、行相应的命令脚本。提供用户指定的配置文件,可配置内容包括:需要监控的服务程序名称,服务进程状态变化时所要执行的方法,检测服务程序的时间间隔,日志文件路径和名称等。记录日志信息。实现DataEngine GCMonit的高可用性具体请参见DataEngine MPP Cluster GCmonit与集群启停工具使用手册。5.7 DB-Link与透明网关DB-Link:DataEngine 集群内部提供的远程数据库链接功能,通过与透明网关服务的协同工作,实现透明访问异地集群中的数据库的数据表或者远程数据库的数据表。透明网关服务:一个独立运行的进程,负责连接DataEngine 集群之外的其他数据库

21、(通过标准JDBC接口,也可以支持DataEngine 集群间的远程访问),并完成数据抽取的工作。通过DB-Link 功能,客户可以实现:1) DataEngine 集群的应用程序可以访问一个外部数据源,外部数据库是DataEngine集群。可以查询外部数据源的数据,也可以将外部数据源的数据与本地集群中的数据进行关联运算。2) 远端数据库是DataEngine集群,并且网络通信没有限制的情况下,可以对这种场景进行定向优化,以提升性能。3) 不支持异构数据源5.8 Hadoop 导入导出工具通过DataEngine MPP Cluster Hadoop导入导出工具,客户可以实现:1) 将Data

22、Engine MPP集群数据导出到指定的hadoop目录上,支持全量和多表导出;2) 从指定的hadoop 目录(DataEngine MPP导出成功的目录)导入数据,支持全量和单表导入;注:集群数据:包括数据库的用户、权限、存储过程、函数、库、表结构、表数据等具体请参见DataEngine MPP Cluster Hadoop导入、导出手册。6 DataEngine MPP Cluster开发接口6.1 DataEngine MPP Cluster ODBCDataEngine MPP Cluster ODBC是DataEngine MPP Cluster的ODBC驱动程序,它提供了访问 D

23、ataEngine MPP Cluster的所有ODBC功能。DataEngine MPP Cluster ODBC支持ODBC 3.5X 一级规范 (全部API + 2级特性)。用户可以通过ODBC数据源管理器调用DataEngine MPP Cluster ODBC驱动访问DataEngine MPP Cluster数据库或者直接调用 DataEngine MPP Cluster ODBC 驱动访问 DataEngine MPP Cluster ,另外通过可视化编程工具如 C+ Builder、 Visual Studio 等也可以利用 DataEngine MPP Cluster ODB

24、C 访问。DataEngine MPP Cluster ODBC支持所有 DataEngine MPP Cluster 支持的 Windows、Linux 、AIX平台。6.2 DataEngine MPP Cluster JDBCDataEngine MPP Cluster JDBC是一种兼容JDBC规范3.0、4.0 (类型4)的驱动,这意味着它是符合JDBC 3.0、4.0版本规范的一种纯Java程序,并能使用DataEngine协议直接和DataEngine服务器通信。DataEngine MPP Cluster JDBC为使用JAVA程序语言的客户端应用提供访问DataEngine

25、MPP Cluster接口。1) DataEngine MPP Cluster JDBC 支持JDBC规范3.0、4.0版本;2) DataEngine MPP Cluster JDBC 使用 DataEngine 协议直接和 DataEngine MPP Cluster 服务器通信;3) DataEngine MPP Cluster JDBC在 Suns JDBC 实验平台上通过率达到95%。6.3 DataEngine MPP Cluster ADO.NETDataEngine MPP Cluster ADO.NET 是一款提供.NET应用程序与DataEngine数据库之间方便、高效、安

26、全交互的接口程序,使用100%纯C#编写,并继承了Microsoft ADO.NET 类。开发人员可以使用任何一种.NET开发语言(C#、VB.NET、F#)通过DataEngine MPP Cluster ADO.NET操作DataEngine数据库。DataEngine MPP Cluster ADO.NET支持以下全部特性:1) 支持集群高可用功能、负载均衡功能;2) 支持DataEngine 数据库全部特性,如:存储过程、视图等;3) 支持协议压缩,允许对客户端和服务器之间交互的数据流进行压缩;4) 支持Windows平台下的TCP/IP套接字连接;5) 支持Linux平台下的TCP/

27、IP套接字或Linux套接字连接;6) 无需安装DataEngine 数据库的客户端,可通过DataEngine MPP Cluster ADO.NET类库实现完整的管理功能。6.4 DataEngine MPP Cluster C APIDataEngine MPP Cluster C API是DataEngine MPP Cluster数据库提供的C语言访问库。应用可以通过调用DataEngine CAPI访问 DataEngine MPP Cluster数据库。DataEngine CAPI提供了如下功能:1) 创建和断开客户端与服务器的连接;2) 直接执行SQL语句;3) 通过预处理模式操作数据库;4) 获取执行SQL的结果集;5) 获取错误信息。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 标准材料 > 建筑材料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁