《大数据产品技术服务产业深度调研及未来发展现状趋势分析.docx》由会员分享,可在线阅读,更多相关《大数据产品技术服务产业深度调研及未来发展现状趋势分析.docx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据产品技术服务产业深度调研及未来发展现状趋势分析一、以利益相关者和社会整体利益为中心的观念从20世纪70年代起,随着经济全球化、相关群体利益多元化、 环境破坏、资源短缺、人口爆炸、通货膨胀和忽视社会服务等问题日 益突出,要求企业顾及消费者和利益相关者的整体与长远利益,即社 会整体利益的呼声越来越高。在西方市场营销学界提出了 一系列新的 观念,如人类观念、理智消费观念、生态准则观念、绩效营销观念等。 其共同点是认为企业生产经营不仅要考虑消费者需要,而且要考虑消 费者、利益相关者和整个社会的长远利益。这类观念可统称为全方位 营销观念或社会营销观念。全方位营销观念认为,所有事物都与营销相关,企业
2、和组织应该 以对营销项目、过程和活动的开发、设计及实施的范围和相关关系的 了解为基础,实施更加整体化、更具一致性的策略,以维护与增进顾 客和社会的福利。全方位营销主要包括关系营销、整合营销、内部营 销和绩效营销四个部分。其中,关系营销要求企业与重要团体一一顾 客、供应商、分销商和其他营销伙伴建立长期、互惠的满意关系,形 成营销网络,以获得并保持长期的业绩和业务。整合营销要求通过设 计营销活动并整合营销项目,使为顾客创造、传播和传递价值的能力 最大化。内部营销要求成功地雇用、培训和激励有能力的员工,使之多样的数据类型指数据种类和来源多样化,包括结构化、半结构 化和非结构化数据,具体表现为关系型数
3、据、日志、音频、视频、文 本、图片、地理位置信息等类型数据,多类型的数据对数据的处理能 力提出了更高的要求。价值密度低指有价值数据所占比例低。随着互联网以及物联网的 广泛应用,信息感知无处不在,信息海量,但价值密度较低,通过结 合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代需 要解决的重要问题之一。快速的数据流转指数据增长速度快,处理速度要求快,时效性要 求高。例如实时监测场景中,企业需要对物联网设备数据进行实时处 理并做出反应;零售电子商务应用类软件将消费者所持的移动设备的 地理位置信息和其个人偏好相结合,推送有针对性的促销信息。这是 大数据区别于传统数据使用的显著特征。随着信息
4、技术以及实际业务需求的快速发展,传统数据管理软件 在处理大数据场景时不能很好适应数据的4V特性,面临较多技术挑战。 因此,传统数据管理软件迫切需要技术革新。(二)传统集中式软件栈向新兴分布式软件栈演进1970-2000年,数据管理软件主要为集中式架构的关系型数据库,其软件产品具备不可分割性(atomicity)、一致性(consistency)、 隔离性(isolation,又称独立性)、持久性(durability)即ACID 功能特性,占据了数据管理软件的主导地位。关系型数据库技术出现 在20世纪70年代,经过二十余年的发展,到90年代已经成熟。市场 上具有代表性的集中式架构关系型数据库产
5、品包括Oracle、IBMDB2以 及微软SQLServer等。2000年以来,随着互联网和计算机技术的快速发展,需要处理的 数据量更大、类型更丰富、速度要求更快,传统集中式计算架构已无 法适应数据海量、异构、多源等特点,在部署的扩展性、容错性、经 济性、灵活性等方面有一定局限性。谷歌于2003年-2006年间的三篇 论文奠定了分布式存储和计算的基础,而后行业从业者基于以上理论 建立了 Hadoop. Spark等大数据分布式系统框架,并交由Apache软件 基金会托管;2009年,在JohanOskarsson开源分布式数据库的讨论中, 来自Rackspace的EricEvans重提NoSQ
6、L概念,用以指代非关系型的 分布式数据存储系统。针对于不同的场景,分别产生了图数据库、搜 索引擎、文档数据库、键值数据库等NoSQL数据库,代表性NoSQL数 据库提供商包括MongoDB、Elastic等。2010年以来,随着数字化转型的逐步深化,快速变化的业务场景呈现了复杂化、多样化的态势。复杂的业务场景往往需要使用多种数据模型,以及数据模型间的融合。这个时期的,行业内大部分数据库都是面向单一数据模型而设计 的,用以解决特定业务场景的特定问题。例如,使用传统的关系型数 据库解决结构化数据的存储和处理问题、使用图数据库解决图相关的 存储和处理问题、使用文档数据库解决文本相关的存储和处理问题。
7、 由于结构化数据和非结构化数据通常以不同的格式和模式存储,单模 型数据库虽然优化了数据存储和处理,却难以满足日趋增长的、多样 的业务场景需求。当同一业务需要用到不同类型数据的时候,受限于 单模型数据库的处理能力,客户往往需要部署多个相互独立的单模型 数据库,在对不同模型数据进行联合处理的时候,需要对数据进行搬 迁或融合,导致架构复杂度高、开发成本高、运维成本高以及数据处 理效率低。由此,催生了从单一数据管理系统到融合型、多模型数据 管理系统的技术需求。此外,随着云计算技术的大规模应用,传统各类软件产品都开始 由独立部署模式向云服务模式转变。其中数据库作为信息系统核心软 件,逐渐附加云化能力形成
8、云原生数据库,以服务的形式对外提供技 术支撑。云原生数据库按照部署方式可以分为公有云部署和私有云部 署。其中,私有云部署模式由企业提供云数据库依赖的底层物理资源, 数据库服务商负责部署云原生数据库软件,后期企业和数据库服务商 约定运维维护工作的具体职责分工等,特点是自有资源池化,数据不外流等。相比公有云部署下的云数据库,私有云模式更加关注信息安 全,能够实现对数据安全性和服务质量最有效控制,仅限于企业员工 和取得授权的合作伙伴使用。多模型数据库云原生相关技术已经成为信息产业的未来发展方向, 促使大数据软件进一步革新,规模呈现快速增长趋势,代表性企业如 Snowflake、AWS等。相较于国内外
9、的现状,私有云在面向国计民生的 相关行业更受客户欢迎,面向私有云模式的云原生数据库预计在未来 将获得快速增长。随着技术不断成熟,分布式架构将逐渐成为主流。自底向上,传 统的集中式资源管理调度逐渐向基于云原生技术的分布式统一资源管 理平台发展;数据管理软件技术架构也会因为计算模式的转变发生重 大变革,传统的集中式数据库逐渐向分布式、多模型数据库发展;传 统数据分析软件逐渐向新型的分布式数据开发和智能分析软件发展。(三)国产基础软件迎来爆发式增长阶段当前,中国大数据软件领域处于发展的历史机遇期,我国高度重 视大数据在经济社会发展中的作用,十八届五中全会提出实施国家大 数据战略,促进大数据发展行动纲
10、要指出,建立安全可信的大数 据技术体系是推进大数据产业基础研究和核心技术攻关的重要目标。 十四五规划和2035年远景目标纲要提出,培育壮大人工智能、大数据等新兴数字产业,充分发挥海量数据和丰富应用场景优势,促进数字 技术与实体经济深度融合,赋能传统行业转型升级,打造数字经济新 优势。全球新一代信息产业处于加速变革期,大数据相关底层技术处 于创新突破期,国内市场需求处于爆发期,为国内基础软件厂商带来 明确的增长机遇。同时,随着国内基础软件人才的不断增加,在应对 新一代场景,不断积累技术经验过程中,国内已形成具备自主研发实 力且能与国外厂商竞争的基础软件厂商,并开始实现规模产业化落地。七、营销调研
11、的含义和作用(一)市场营销调研的含义市场营销调研就是运用科学的方法,有目的、有计划地收集、整 理和分析研究有关市场营销方面的信息,获得符合客观事物发展规律 的见解,提出解决问题的建议,供营销管理人员了解营销环境,发现 机会与问题,从而作为市场预测和营销决策的依据。菲利普科特勒 认为:营销调研是通过信息将消费者、顾客和大众与营销人员相互连 接的过程。(二)市场营销调研的作用市场营销调研是企业营销活动的出发点,其作用十分重要。1、有利于制定科学的营销规划。营销调研可以帮助营销者评估市场潜力和市场份额,根据市场需 求及其变化、市场规模和竞争格局、消费者意见与购买行为以及营销 环境的基本特征,从而科学
12、地制定和调整企业营销规划。2、有利于优化营销组合企业根据营销调研的结果,度量定价、产品、分销和促销行为的 效果,分析研究产品的生命周期,开发新产品,制定产品生命周期各 阶段的营销策略组合。如根据消费者对现有产品的接受程度,以及对 产品及包装的偏好,改进现有产品,开发新用途,研究新产品的创意、 开发和设计;测量消费者对产品价格变动的反应,分析竞争者的价格 策略,确定合适的定价;综合运用各种营销手段,加强促销活动、广 告宣传和售后服务,增进产品知名度和顾客满意度;尽量减少不必要 的中间环节,节约储运费用,降低销售成本,提高竞争力。3、有利于开拓新的市场通过市场调研,企业可发现消费者尚未满足的需求,
13、测量市场上 现有产品及营销策略满足消费者需求的程度,从而不断开拓新的市场。 营销环境的变化,往往会影响和改变消费者的购买动机和购买行为, 给企业带来新的机会和挑战,企业可据以确定和调整发展方向。八、竞争战略选择竞争者的反应模式、实力等特征决定了本公司竞争战略选择。1、竞争者反应模式与竞争战略选择竞争者反应模式指本公司对竞争者的攻击战略实施之后竞争者的 回应方式。竞争者常见的反应模式有以下四种。(1)从容型竞争者。从容型竞争者指竞争者对某些特定的攻击行 为没有迅速反应或强,烈反应。这类竞争者“从容不迫”的原因是多 种多样的。一是认为自己的顾客忠诚度高,不会转换购买。这类竞争 者通常实力强大,市场
14、份额高,品牌知名度高,市场掌控能力强。对 于其他同类企业可能不放在眼里,认为小泥瞅掀不起大风浪。企业选 择此类竞争者作为攻击对象,应当进行投入产出分析,测定所投入的 竞争资金能否收到预期效果,能否吸引竞争者顾客转换购买。如果竞 争者的顾客果真不会转换购买,则本公司的竞争战略和策略就是无效 或低效的,竞争资金投入就是不值得的。二是竞争者正在对该业务进 行收割榨取。竞争者或者认为该产品已经处于衰退期,没有大力发展 的价值,没有必要费力地争夺市场扩大份额;或者正在进行战略转移, 减少甚至放弃该业务。因此,不打算继续投入资金应对竞争,能销多 少就销多少,能得多少利润就得多少利润。企业选择这类竞争者作为
15、 攻击对象,首先要分析该业务是否已经进入衰退期,如果已经进入衰 退期,本公司是否有必要投入资金争夺市场扩大份额?如果竞争者是 因为战略转移而不作反应,则可以成为本公司乘虚而入抢占市场的有利时机,攻击战略就易于收到显著效果。三是竞争者反应迟钝,举棋 不定,对于受到攻击之后的可能效果缺乏认识,同时也缺乏做出迅速 反应或强烈反应的条件,比如资金不足,等等。这类竞争者的一般实 力不强,市场开拓能力不强。选择这类竞争者作为攻击对象易于取得 显著效果。(2)选择型竞争者。选择型竞争者指竞争者只对某些类型的攻击 做出反应,而对其他类型的攻击无动于衷。企业如果尚不具备与竞争 者正面决战的实力,就应当分析竞争者
16、在哪些方面反应敏感,在哪些 方面反应不敏感,以制定最为可行的攻击战略,避免引起竞争者强烈 反应。(3)凶狠型竞争者。凶狠型竞争者指竞争者对所有的攻击行为都 做出迅速而强烈的反应。这类竞争者意在警告其他企业最好停止任何 攻击。选择这类竞争者作为攻击对象必须慎之又慎,除非本公司的实 力远在竞争者之上,有把握一举击溃而不畏惧它的凶猛反扑。否则, 就会损失惨重或者两败俱伤。(4)随机型竞争者。指对竞争攻击的反应具有随机性,有无反应 和反应强弱无法根据其以往的情况加以预测。此类竞争者大多是实力 弱小的企业。本公司在具备一定实力的条件下,选择此类竞争者作为 进攻对象易于取胜并实现预期效果。2、竞争者的其他
17、特征与竞争战略选择企业要攻击的竞争者不外乎下列三类之一。(1)强竞争者与弱竞争者。攻击弱竞争者在提高市场占有率的每 个百分点方面所耗费的资金和时间较少,但能力提高和利润增加也较 少。在自身实力强大的条件下,攻击强竞争者可以提高自己的生产、 管理和促销能力,更大幅度地扩大市场占有率和利润水平。(2)近竞争者和远竞争者。多数公司重视同近竞争者对抗并力图 摧毁对方,但是竞争胜利可能招来更难对付的竞争者。美国的战略研 究专家波特举了两个毫无意义的“胜利”的例子:鲍希和隆巴公司曾 积极同其他软镜头生产商对抗并且取得了很大的成功,导致失败者纷 纷把资产卖给露华浓、强生和谢林一普洛夫等较大的公司,使自己面
18、对更强大的竞争者。一家橡胶特种用品生产商把另一家橡胶特种用品 生产商当作不共戴天的仇敌来攻击并抽走股份,给这家公司造成很大 损失,结果几家大型轮胎公司的特种用品部门乘虚而入,很快打入了 特种橡胶制品市场,倾销产品。(3) “良性”竞争者与“恶性”竞争者。“良性”竞争者的特点 是:遵守行业规则;对行业增长潜力提出切合实际的设想;按照成本 合理定价;喜爱健全的行业,把自己限制在行业的某一部分或某一细 分市场中;推动他人降低成本,提高差异化;接受为他们的市场份额 和利润规定的大致界限。“恶性”竞争者的特点是:违反行业规则; 企图靠花钱而不,是靠努力去扩大市场份额;敢于冒大风险;生产能 力过剩仍然继续
19、投资。总之,他们打破了行业平衡。公司应支持良性 竞争者,攻击恶性竞争者。更重要的是,竞争者的存在会给公司带来一些战略利益,如增加 总需求,导致产品更多的差别,为效率较低的生产者提供了成本保护 伞,分摊市场开发成本,服务于吸引力不大的细分市场,减少了违背 反托拉斯法的风险等。九、发展营销组合根据目标市场和定位的要求,企业需要考虑和选择相应的营销组 合。“营销组合”是指一整套能影响市场需求的企业可控制因素,包 括产品、价格、地点(分销或渠道)和促销等,是开展营销、影响和 满足顾客的工具与手段。它们需要整合到营销计划中并使用于营销过 程,以争取目标市场的预期反应。企业对营销工具和手段的具体运用,会形
20、成不同的营销战略、方 法和行动。这些工具、手段或因素相互依存、相互影响和相互制约, 通常不应割裂开来孤立地考虑。必须从目标市场的需求状态、定位和 营销环境等出发,统一、配套和协调使用。营销组合具有以下特性: 更好地为顾客服务。绩效营销要求审视营销获得的商业回报,并更广 泛地关注营销对法律、伦理、社会和环境的影响和效应。全方位营销观念是对市场营销观念的深化与发展。市场营销观念 的中心是满足消费者的需求,进而实现企业的利润目标。但往往出现 这样的现象,即在满足个人需求时,与社会公众的利益发生矛盾,企 业的营销努力可能不自觉地造成社会的损失。市场营销观念虽也强调 消费者的利益,不过它认为谋求消费者的
21、利益必须符合企业的利润目 标,当两者发生冲突时,保障企业的利润要放在第一位。全方位营销 观念则强调,要以实现消费者满意以及企业内外经营者和社会公众的 长期福利作为企业的根本目的与责任。理想的市场营销决策应同时考 虑到:消费者的需求与愿望;消费者和社会的长远利益;企业及其营 销伙伴的营销效益。树立并全面贯彻适应现代市场环境要求的新观念,包括营销观念 和全方位营销观念,建立真正面向市场的企业,是企业成功经营的关 键。二、大数据全生命周期管理大数据生命周期进一步细分为大数据集成、存储和处理、治理、建模、挖掘和流通等阶段。(一)大数据集成(1)可控性。由企业可控制和运用的有关营销手段、因素等构成。 比
22、如,企业可根据目标市场决定生产什么,制订什么样的价格,选择 什么渠道,并采用什么促销方式。(2)动态性。它不是固定不变的静态搭配,而是变化无穷的动态 组合。比如同样的产品、价格和渠道,可根据需要改变促销方式;或 其他因素不变,企业提高或降低价格等,都会形成新的、效果不同的 营销组合。(3)复合性。构成营销组合的四大类因素或手段,各自又包含多 个次一级或更次一级的因素或手段组合。以产品为例,它由质量、外 观、品牌、包装、服务等因素构成,每种因素分别又由若干更次一级 的因素构成,如品牌便有多种使用方式。又如促销手段,包括人员促 销、广告、公共关系和营业推广等;其中,广告依据传播媒体的不同, 又有电
23、视广告、广播(电台)广告、报纸广告、杂志广告和网络广告 等,每一种还可进一步细分。(4)整体性。构成营销组合的各种手段及各个层次的因素,不是 简单地相加或拼凑,必须成为一个有机整体。在统一的目标指导下相 互配合、优势互补,追求大于局部功能之和的整体效应。十、扩大总需求市场领导者占有的市场份额最大,在市场总需求扩大时受益也最 多。扩大总需求的途径有开发产品的新用户、寻找产品的新用途和增 加顾客使用量等。(一)开发新用户1、转变未使用者转变未使用者,即说服那些尚未使用本行业产品的人开始使用, 把潜在顾客转变为现实顾客。比如,有人担心电淋浴器使用不安全而 不愿购买,企业可大力宣传它装有多重,安全保护
24、装置,绝对不会发 生意外,将这部分潜在购买者转变为现实购买者。有人认为纯水中不 含有益矿物质而不愿安装家用纯水机。纯水机制造公司可大力宣传人 们所需的矿物质主要从日常食物中获取,从饮水中获取的比例可以忽 略不计,饮用纯水不会影响身体健康。而自来水中虽然含有矿物质但 是也可能含有许多污染物质,危害身体健康。安装家用纯水机直接饮 用纯水更加有益身体健康。2、进入新的细分市场“新的细分市场”指该细分市场的顾客使用本行业产品,但是不 使用其他细分市场的同类产品和品牌。例如,服装市场可以根据性别 分为男性和女性两个细分市场,根据年龄不同分为老年、中年、青少 年和儿童等不同细分市场,一般而言,女性不会购买
25、男性服装,男性 也不会购买女性服装;老年人不会购买青少年时装,青少年也不会购 买老年人服装。企业在原细分市场的需求饱和后可设法进入新的细分市场,扩大 原有产品的适用范围,说服新细分市场的顾客使用本产品。例如,青 年时装制造公司可通过营销宣传说服中老年人购买年轻人的时装,实 现心理上的年轻。3、地理扩展地理扩展指寻找尚未使用本产品的地区,开发新的地理市场。例 如,空调、摩托车等产品在城市市场已经趋于饱和,可着重开发农村 市场。轿车在发达国家已经趋于饱和,可向发展中国家和不发达国家 转移。(二)寻找新用途寻找新用途指在产品原有用途之外找出新用途或新使用方法以增 加销售量。比如,食品生产者常常在包装
26、上印制多种食用或烹制方法, 有冷食、热食、浸泡、炸炒、干食等。自行车最初是作为交通工具而 走向市场的,在摩托车、汽车普及的条件下,许多人购买自行车是作 为健身工具。产品的许多新用途往往是顾客在使用中发现的,企业应 及时了解和推广这些发现。烘焙苏打粉生产企业发现美国一些家庭将该产品作为冰箱除臭剂使用,就通过多种途径广泛宣传这一用途,成 功地推动一半的美国家庭采用这一方法。(三)增加使用量1、提高使用频率企业应设法促使顾客更频繁地使用产品。例如,果汁营销人员应 说服人们不仅在待客时才饮用果汁,平时也要饮用果汁以增加维生素。2、增加每次使用量企业可以设法促使顾客增加每次使用量以扩大产品销售。洗发剂
27、生产企业可提示顾客,每次洗发时,洗发剂涂抹两次、冲洗两次比只 用一次效果更好。洗衣粉包装袋上可说明增加洗衣粉用量则衣服更洁 净。有的调味品制造商将调味品瓶盖上的小孔略微扩大,销售量就明 显增加。3、增加使用场所电视机生产企业可以宣传在卧室和客厅等不同房间分别摆放电视 机的好处,如观看方便、避免家庭成员选择频道的冲突等。宣传这是 美好生活的需要而不是奢侈或浪费,打破原先只买一台的习惯和“节 俭”思想,使有条件的家庭乐于购买两台以上的电视机。4、提醒顾客及时更换超过保质期或使用期的产品有的顾客由于节约或者疏忽而继续使用超过保质期或使用期的产 品,不仅影响健康或者使用效果,也减少了企业的产品销售。企
28、业可 以通过及时提醒顾客更换产品而扩大市场需求,包括:提醒顾客注意 产品的首次使用时间和应当更换的时间;提醒顾客注意产品当前的性 能状况。轮胎经营企业在售出轮胎之后的适当时间可以提醒顾客注意 轮胎的行驶里程并检查轮胎是否需要更换以保证行车安全。吉列剃须 刀在反复使用之后,上面的彩条会逐渐褪色,提醒消费者更换以保证 荆须的舒适性。十一、营销活动与营销环境市场营销环境通过其内容的不断扩大及其自身各因素的不断变化, 对企业营销活动产生影响。市场营销环境的内容随着市场经济的发展 而不断变化。20世纪初,西方企业仅将销售市场视为营销环境;30年 代后,将政府、工会、竞争者等与企业有利害关系者也看作是环境
29、因 素;进入60年代,又把自然生态、科学技术、社会文化等作为重要的 环境因素;20世纪90年代以来,随着政府对经济干预力度的加强,愈 加重视对政治、法律环境的研究。环境因素由内向外的扩展,国外营 销学者称之为“环境外界化”。营销环境是企业营销活动的制约因素,营销活动依赖于这些环境才得以正常进行。这表现在:营销管理者虽可控制企业的大部分营销 活动,但必须注意环境对营销决策的影响,不得超越环境的限制;营 销管理者虽能分析、认识营销环境提供的机会,但无法控制所有有利 因素的变化,更无法有效地控制竞争对手;由于营销决策与环境之间 的关系复杂多变,营销管理者无法直接把握企业营销决策实施的最终 结果。此外
30、,企业营销活动所需的各种资源,需要在环境许可的条件 下取得,企业生产与经营的各种产品,也需要获得消费者或用户的认 可与接纳。虽然企业营销活动必须与其所处的外部环境相适应,但营销活动 绝非只能被动地接受环境的影响,营销管理者应采取积极、主动的态 度能动地去适应营销环境。就宏观环境而言,企业可以通过不同的方 式增强适应环境的能力,避免来自环境的威胁,有效地把握市场机会。 在一定条件下,也可运用自身的资源,积极影响和改变环境因素,创 造更有利于企业营销活动的空间。良好的企业营销行为会造就良好的 营销环境,从而进一步形成良好的企业营销行为,反之亦然。营销环 境与企业的循环互动作用,使营销环境与企业成为
31、一个整体的系统。 菲利普科特勒的“大市场营销”理论认为:企业为成功地进入特定 的市场,在策略上应协调地使用经济的、心理的、政治的和公共关系 的手段,以博得外国的或地方的各有关方面的合作与支持,消除壁垒 很高的封闭型或保护型市场存在的障碍,为企业从事营销活动创造一 个宽松的外部环境。就微观环境而言,直接影响企业营销能力的各种 参与者,事实上都是企业的利益共同体。按市场营销的双赢原则,企 业营销活动的成功,应为顾客、供应商和营销中间商带来利益,并造 福于社会公众。即使是竞争者,也存在互相学习、互相促进的因素, 在竞争中,有时也会采取联合行动,甚至成为合作者。大数据集成包括大数据采集和大数据整合。大
32、数据采集主要是通 过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行 为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感 器数据、监控数据)等从业务系统中收集出来。由于大数据本身具有 分散、海量、高速、异质的特征,采集难度较大,因此保证数据采集 的稳定性、可靠性、高效性、可用性和可扩展性等是主要的技术目标, 越来越多的企业开始选用专业的数据采集服务。大数据整合的目标是 将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最 后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础; 这个过程常常也被称为ETL (Extract/抽取,Transform/转换,Loa
33、d/ 加载),通常ETL占到整个数据仓库开发时间的60%80%。大数据时代, 数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技 术问题,一是独立的ETL应用服务器的计算能力普遍不足,二是无法 处理半结构化和非结构化数据。经过几年的技术发展,ETL过程逐步演 进为ELT,即数据抽取后直接加载(Load)到大数据平台中,再基于大 数据平台的计算能力来实现数据转换(Transform),不再依赖ETL应 用服务器做抽取和转化工作,这样可以解决ETL应用服务器的处理能 力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的 效率和稳定性。(二)大数据存储和处理大数据存储与处理要用用服
34、务器及相关设备把采集到的数据存储起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长, 尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单 纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合 适的存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和 性能出现瓶颈,业务的深度和广度受到限制。因此,过去十年间,计 算机系统逐步从集中式向分布式架构发展。分布式架构及相关技术通 过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独 立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式 系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具 有明显优
35、势。(三)数据治理根据国际数据管理协会的定义,数据治理是对数据资产管理形式 权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、 流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐 增加,牵扯的关联方也越来越多,因此需要一套适合企业的方法论来 开展工作。业界逐渐形成了 DAMA、DCMM等较完整的数据治理体系框架, 一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来 实现高效持续的数据治理的执行流程。具体到数据治理的内容,一般 包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据 标准管理(包括标
36、准定义、查询与发布等)、数据质量管理(包括质 量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资 产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权 限管理、数据脱敏、数据加密等)、数据生命周期管理(包括数据归 档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等) 这几个主要的部分。(四)数据建模数据建模是构建企业数据仓库、数据湖和数据集市的重要过程, 其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据 集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重 新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、 数据挖掘等提供可用的数据。
37、面向业务主题(如客户主题、账户主题 等)的数据组织管理方式便于业务人员对数据的理解和综合使用。具 体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设 计、数据库SQL开发与测试、业务集成上线等几个阶段,架构设计是 整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据模型。在数据建模过程中使用的工具主要包括:数据模型设计与管理 工具、SQL开发工具、任务调度工具等。(五)数据分析和挖掘大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、 展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐 含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从 而帮助决策者做
38、出正确的预测和决策。围绕这个目标,大数据分析和 挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分 析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目 标。现阶段在面对大数据4V问题时,大数据分析和数据挖掘工具对传 统数据分析和挖掘工具做进一步自动化和智能化;与此同时,近年来 深度学习的兴起又为大数据分析提供了新的手段,其做为当前计算机 行业的热点研究方向之一,其本质的目标是从大量数据中提取模式和 知识,其要处理的对象包括结构化数据、半结构化数据和非结构化数 据在内的所有类型数据,例如近年来在视频、语音等非结构化数据的 分析需求快速增加,相应的深度学习技术也取得了飞速发展。
39、(六)数据流通数据流通是按照一定规则,将存储的数据或者数据分析、挖掘得到的信息作为流通对象,从供应方传递到需求方的过程。数据流通的 具体内容包括可视化的分析报告、面向运营人员的数据标签、面向应 用可以直接调用的数据指标API、面向数据分析人员的数据集、面向数 据挖掘人员的数据特征、和面向业务建模人员的单方或多方的建模模 型等。基于数据水印、数据加密和脱敏、隐私计算、联邦学习的数据 流通安全技术,可以提高数据流通的完整性和保密性。三、全球大数据市场发展情况全球大数据市场规模由2015年231亿美元增长至2019年的496 亿美元,年复合增长率约为21. 1%,全球整体市场规模有望在2024年 超
40、过800亿美元,2019至2024年复合增长率约为11. 8%o在2015年, 大数据服务仍然是全球大数据市场最大的收入来源,约为91亿美元, 而硬件和软件收入分别达到73亿美元和67亿美元。随着硬件成本的 下降以及软件附加值的提升,预计未来全球大数据市场中硬件及服务 收入贡献占比将逐渐减少,软件将超过服务和硬件,成为全球大数据 市场最主要的收入来源。全球大数据软件市场规模由2015年的67亿美元增长至2019年的 170亿美元,年复合增长率为26. 2%,超过硬件和服务收入增速,并 且预计软件市场规模将在2024年达到377亿美元,年复合增长率约为 17. 3%o在大数据软件中,随着大数据管
41、理平台和数据应用中间件产 品的成熟,未来将贡献更多的收入占比。四、内大数据市场发展情况中国大数据市场在过去五年间经历快速增长,整体市场规模增长速度快于全球整体市场。2019年,中国大数据市场规模达到627亿元,20152019年复合增长率达到31. 9%o其中,大数据硬件为市场主要 的收入来源,2019年大数据市场硬件收入达到247亿元。中国大数据软件市场由2015年的52亿元增长至2019年的146亿 元,年复合增长率为29. 5%o伴随着中国对数据运用重视程度日益提 高,用户对于大数据软件采购预算增加趋势明确,中国大数据软件市 场将在未来五年继续保持高速增长,整体软件市场规模将在2024年
42、达 到492亿元,2019-2024年复合增长率为27. 5%o虽然现阶段大数据 软件收入占比较小,但得益于较高的细分市场规模增速,未来大数据 软件将占据更多的市场份额。五、大数据市场构成大数据行业主要解决大数据的存储、处理、分析和价值发现等问 题,实现大数据的业务价值。从产品和服务来看,大数据市场产品和 服务包括三个主要部分,即大数据硬件、大数据软件、大数据专业服 务。其中,大数据软件部分按照产品功能的不同可以被分为:大数据 管理平台、数据应用中间件、数据智能分析工具、大数据应用四个部 分。六、大数据行业发展背景(一)大数据时代下传统数据管理软件面临多种挑战近年来随着互联网、移动互联网、物联
43、网、5G等信息通信技术及 产业的不断发展,全球数据量呈爆发式增长态势。数据作为和土地、 资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过 程中,地位愈发凸显。我国是数据资源大国,IDC研究报告指出,到 2020年,中国数据量约12. 6ZB,较2015年增长7倍,年复合增长率 为 124%O2025年中国的数据量预计达到48. 6ZB,约占全球数据总量的30%。 数据资源总体呈现出4V的特点,即海量的数据规模(Volume),多样 的数据类型(Variety),价值密度低(Value)、快速的数据流转(Velocity)。海量的数据规模指数据量大,包括采集、存储和计算过程中所涉及数据量都非常大。大数据的起始计量单位通常是PB (约1, 000TB).EB (约 100 万 TB)或 ZB (约 10 亿 TB)