《数据库行业深度复盘与展望:筚路蓝缕_星火燎原.docx》由会员分享,可在线阅读,更多相关《数据库行业深度复盘与展望:筚路蓝缕_星火燎原.docx(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据库行业深度复盘与展望:筚路蓝缕_星火燎原1 数据库:信息系统承上启下的关键环节1.1 数据库是信息化核心环节数据库作为信息化的核心环节,是底层硬件基础资源与上层应用之间的重要支撑。根据Statista、IDC与Seagate的统计调研, 全球数据量将在2035年达到2142ZB,然而企业运营中的数据仅有32%能被存储利用,海量数据的涌现和分析能力需求提升, 数据库存储量将严重不足,未来对数据库需求迫切性有望显著提升:从信息产业链角度分析:数据库作为信息系统承上启下的关键环节,向下调用硬件基础资源,向上为应用软件提供重要数 据支撑,是信息化中间的核心环节; 从国家政策角度分析:数字经济作为国
2、家“十四五”建设的重中之重,数据作为新型关键生产要素,是推动数字经济发展 的关键一环,同时,国内数据库长期由海外厂商主导,在国内数据库行业快速发展下,国产数据库将迎来重要发展机遇。广义的数据库通常指数据库系统,其包含数据库与数据库管理系统两部分,向上通过数据库管理系统支撑应用引擎,向 下以数据库承接文本、图像、声音等数据源,调动计算、网络、存储等基础资源。 1. 数据库(Database,DB)是按照一定的逻辑结构组织、存储、管理数据的大容量电子文件柜; 2. 数据库管理系统(Database Management System,DBMS)是对数据库进行统一管理和控制的大型软件,主要由内核组
3、件集和驱动组件构成,其中内核组件集按照功能模块划分为管理组件、存储组件、计算组件和网络组件。1.2 七大维度全面梳理数据库发展历程1.2.1 从七大维度对数据库发展历程进行详细梳理回顾数据库70年发展历程,分布式、云计算、人工智能等创新技术和基础设施的发展陆续为演化注入新活力。本章将从数据 模型逻辑、技术架构、需求功能、部署方式、存储介质、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细 阐述,理清行业演化逻辑与发展趋势。1.2.2 数据库发展特点:顺应市场需求,行业持续进化顺应市场需求变化,数据库行业正持续进化: 随着大数据时代的到来,数据规模和逻辑关系复杂度进一步提升,其中非结构
4、化数据的激增使得非关系型数据库迅速发展; 随着5G下的云计算、物联网等快速发展,对于数据分析的需求、响应速度、存储容量扩展、算力提升等均提出更高的要求, 使得分布式数据库得到快速发展; 信息化水平快速提升下,企业业务规模快速扩张,数据库的运维和管理成为新的难题,数据库云部署模式与借助AI自治成为 重要发展方向。1.3 发展特点:顺应市场需求,行业持续进化1.3.1 数据模型分类演化:NewSQL、多模引领新时代数据模型的演化本质由底层数据规模、逻辑关系、类型等驱动,其路径是:层次-网状-关系-关系、非关系并行。在当前关系、非关系并行时代,新型NewSQL与多模数据库快速发展。传统SQL受限于其
5、拓展性,在大数据发展下逐渐面临瓶颈, 而NewSQL提供了与NoSQL相同的可扩展性,而且仍基于关系模型,保留了极其成熟的SQL作为查询语言,从而保证了数据的强一 致性;同时,基于分布式架构,对接多种数据模型引擎,避免搭建多种类数据库的多模数据库快速发展。1.3.2 技术架构分类演化分布式架构逐渐成熟为了应对数据的海量增长并追求更低的扩容成本,数据库由单机、集中式向 分布式架构快速发展。随着信息化水平快速提升,对数据库的存储、读写并 发、扩容要求更高,集中式架构的“Scale Up”纵向扩容机制面临硬件性能 瓶颈,因此“Scale Out”式的横向扩容分布式架构成为新趋势,通过网络将 物理分散
6、的数据库单元连接为逻辑上的统一整体。从集中式到分布式的演进 降低了对硬件性能的要求,使得企业数据库拓展成本大幅降低。分布式架构逐步由分库分表中间件向原生分布式发展,以应对不同应用场景。 分库分表中间件早期主要以电商、社交起家的互联网公司自研为主,但由于其 对复杂查询事务的支持较差,难以应对业务瞬时高峰需求,因此更加便捷、可 靠的原生分布式数据库应运而生。按照具体实现方式可以分为两类:以 Greenplum为代表的主流MPP架构和以Cassandra、HBase为代表的分区分片架构。AI技术赋能分布式架构无共享架构凭借实现高可用、带宽要求低、易横向扩展和远程部署四大优势,逐步成为分布式主流架构。
7、分布式架构由共享磁盘、 共享内存架构,逐步向纯无共享架构发展,在无共享架构中,每个处理器私有内存和磁盘空间,利用网络通信,“Scale Out” 式横向增加处理器和相应的内存、磁盘,从而避免事务对内存访问和网络带宽的竞争,提高处理性能。国产方面,无共享分布式 架构已经趋于成熟,如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南 大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无共享架构。2 国内数据库市场发展趋势分析2.1 行业规模与下游需求结构数据库作为信息
8、化核心环节,在国内大力发展数字经济建设的大背景下,数据库行业规模将保持快速增长。根据信通 院,2020年中国数据库市场规模为35亿美元(约合240.9亿元人民币),占全球总规模的5.2%。预计到2025年,全球 数据库市场规模将达到798亿美元。中国的IT总支出将占全球12.3%。预计中国数据库市场在全球的占比将在2025年接 近中国IT总支出在全球的占比,市场总规模将达到688亿元,CAGR为23.4%。金融、电信、政务、制造、互联网五个行业为数据库行业下游主要需求领域,大数据应用快速发展为数据库提供增长 动力。根据信通院统计,其合计市场份额高达80%以上,2020年整体采购额超过192亿元
9、。此外,根据赛迪顾问,2020 年国内大数据市场结构数据,其中互联网、政府、金融、电信、工业位列前五,占比分别为48%、14%、12%、9%、5%, 合计约88%,大数据应用与数据库需求结构基本吻合,预计随着大数据应用领域拓展与规模持续增长,将为数据库行 业规模增长提供充足动力。2.2 强化数据库建设在“十四五”规划中被多次提及去年各领域“十四五”规划陆续发布,数据库建设与应用在信息技术、金融、交通物流、农业等众多领域被多次提及,其中数 据库标准化攻关的重要性首次被提升到前所未有的高度。我们认为,随着数据库顶层设计不断加码,十四五期间,国产数据库 研发将步入快车道,国产数据库竞争实力将显著增强
10、,行业有望进入加速发展期。2.3 数据库市场增量需求基于对数据库发展趋势与国家政策导向的分析,我们认为,未来数据库市场增量需求主要来自于以下三方面:1. 国产化进程逐步加速;2. 传统集中式数据库向分布式架构升级;3. 非关系型数据库应用场景不断丰富,得到快速发展。2.4 非关系型数据库应用场景不断丰富,快速发展2.4.1 数据库国产化浪潮不可阻挡国产数据库能力不断提升,逐步抢占海外厂商优势领域份额。以Oracle、Microsoft、SAP、IBM为代表的海外厂商,一直以 来,因其产品具有更好的性能、稳定性、安全性、与海外ERP、CRM等更好地兼容性等优势,在企业核心OLTP业务场景一直 占
11、据主导地位。近些年,随着国产数据库产品功能、性能水平不断增强,其产品水平已经逐步趋近于海外厂商,根据IDC, 在传统关系型数据库领域,Oracle、Microsoft、SAP、IBM合计份额从2019年66.8%下降至2021H1的48.5%,首次降至半数以 下,显示出国产数据库技术正趋于成熟,在海外厂商为主导的核心OLTP应用场景,已经逐步具备运营能力,国产化进程持 续加速。2.4.2 集中式数据库向分布式升级随着数据类型、规模的指数级增长,传统的终端计算场景已经难以应对 数据存储处理的工作量与复杂度。云计算通过存算分离、资源弹性动态 分配、边缘节点计算打破了传统计算场景的瓶颈,实现了当前数
12、据处理 的需求,云计算场景的需求推动了分布式数据库的应用发展: 1. 通过资源池化管理实现物理或逻辑层的相互隔离与资源的自由伸缩, 具备弹性扩张、HTAP事务能力、多租户管理能力、高可用性,与云计算 场景需求相匹配。 2. 对多种访问接口和数据类型的兼容,可以实现对存储与不同物理服 务器、不同格式的数据进行结构与算法的优化,突破服务器类型的限制, 为上层不同类型的应用提供多模式的数据服务。分布式架构凭借在经济性、安全自主、灵活性、可伸缩性等方面的优势,逐步实现对集中式架构替代。目前,互联网、金融、电信 等行业分布式升级进展较快,以金融和电信行业为例,其核心业务数据类型均为关系型数据库,此类集中
13、式数据库所面临的业务体 量将呈现爆发性增长。由于单一硬件能力增长有限,所以无法依靠纵向升级硬件扩展存量数据库能力上限。而分布式数据库采用多 种模式实现数据的分散存储,将压力分散到不同服务器上,并不断通过增加存储或计算节点来实现弹性升级,克服了集中式数据库 的诸多缺点,业界已有分布式数据库在股份制银行、城商行、二三线城市运营商等实现了核心业务系统的改造落地,同时,去年12 月,腾讯分布式数据库TDSQL落地东吴证券核心交易系统,也标志着分布式数据库在券商核心系统领域取得突破。2.4.3 非关系型数据库快速发展我国非关系型数据库快速发展,正逐步进入世界前列。我国非关系型数据库主要以基于开源数据库如
14、Redis、InfluxDB、 CouchDB等产品进行二次开发为主,根据DB-Engines 2022年2月排名,国内浙江智臾和阿里云TSDB,分别位列时序数据库第11、 21位;图数据库方面,欧若数网Nebula Graph、百度智能云开源产品HugeGraph、华为云GraphBase分别位列15、26、32位,显 示出国产NoSQL数据库正逐步趋近于世界前列。随着工业互联网、互联网创新型业务、车联网 等应用的快速发展,非关系型数据库应用将加 速落地。3 国产数据库厂商详细梳理3.1 达梦:融合新兴技术,独占鳌头十余年科技创新,夯实信息化安全基石,蝉联国产数据库市占率冠军十余年。武汉达梦
15、数据库股份有限公司(以下简称达梦)成立 于2000年,是中国电子信息产业集团(CEC)旗下基础软件企业,由中国软件与技术服务股份有限公司控股25%。达梦致力于数 据库管理系统的研发、销售和服务,为国内外数十万用户提供全栈数据产品和解决方案,为打破欧美等国的技术封锁,达梦 全自研底层逻辑代码,立足国内客户,深挖用户需求,先后完成了近60项国家及省市级的科研开发项目,取得了近400项研 究成果,获得国家、省部级奖励超过30项。据赛迪顾问统计:2000年以来,达梦在数据库市场的市占率已经蝉联冠军十余年。达梦自研高性能数据库管理系统DM,不断融合分布式、云计算等新兴概念升级系统架构。DM系列自上世纪8
16、0年代开始研发实 验室原型,2000年初商业化,已经更新迭代8个版本,对灵活性、易用性、可靠性、高安全性等方面进行了大规模改进:分 布式架构实现动态分配计算资源、精细化资源利用;行列融合,支持超大规模并发HTAP;技术生态升级,支持多云环境部署。 研发大规模数据处理集群DMMPP,支持TB到PB级别的数据存储与分析。基于完全对等无共享架构,最多可将1024个DM8节点组 织为一个并行计算网络,支持HASH、范围、随机多种数据分布和水平、垂直、多级混合分区,提供高可用性和动态扩展能力。3.2 南大通用:扩大生态领域,全面开花南大通用入选专精特新“小巨人”企业。天津南大通用数据技术股份有限公司(以
17、下简称南大通用)成立于2004年,注册资 金1.4亿元,近7年连续被赛迪顾问评为国产数据库龙头企业,并在2021年成功入选首批国家级重点专精特新“小巨人”企业。GBase系列基于Informix不断创新发展,从OLAP到OLTP,关系型-NoSQL-NewSQL,逐渐扩大生态,提高市占率。南大通用深 耕金融行业,自主研发国内首个基于列存的新型分析型数据库GBase 8a;2014年与IBM签署战略合作,获得Informix的源代 码和技术授权,站在巨人的肩膀上研发复杂事务处理数据库产品GBASE 8s,而后又融合分布式架构研发8c,提高系统可用性。3.3 人大金仓:深耕关系型数据库领域人大金仓
18、产学研一体,快速发展,下沉市场,布局未来。北京人大金仓信息技术股份有限公司(以下简称人大金仓),由中 国人民大学 的 数据 库 专家于1999年发起创立,先后承担了国家“863”、“核高基”等重大专项,是中国电子科技集团有限 公司(CETC)的成员企业,在党政军及各级企业级市场应用广泛,目前已覆盖全国近3000个县市,完成装机部署近100万套, 入围工信部“2021年数字技术融合创新应用典型解决方案”。集中关系型数据库领域发力,市占率持续领跑。据IDC统计,2019年下半年国产数据库市场的市占率中,人大金仓仅次于阿 里和南大通用,位列第三。相比前两名开疆扩土式的全面发展,人大金仓聚焦关系型数据库领域深耕,分别针对OLTP、OLAP、 HTAP场景研发Kingbase ES(KES)、Kingbase AnalyticsDB(KADB)、KSone系列数据库。结合信创改革浪潮,人大金仓积 极适配国产上下游芯片、操作系统、中间件等,与生态伙伴完成近万个产品兼容互认证,力图为用户持续提供稳定服务。 完善的数据迁移工具平滑、高效地解决异构数据库数据迁移难题,助力数据库推广。报告节选: