《大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述.docx》由会员分享,可在线阅读,更多相关《大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据分析与应用技术创新平台摘要:针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高 等问题,系统地介绍了大数据分析与应用技术创新平台的总体技术框架,详细分 析了我国大数据分析与应用五大共性技术存在的不足和解决思路,并阐述了创新 平台中四大支撑平台的设计思路与应用方向,最后对大数据分析与应用技术国家 工程实验室未来的发展方向和重点工作进行了介绍。关键词:大数据;数据处理;质量控制;数据挖掘;可视分析;智能数据管 理;国家工程实验室1引言目前,我国在大数据发展和应用方面已具备一定基础,拥有一定的市场优势 和发展潜力,但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和 统筹规划、
2、法律法规建设滞后、创新应用领域不广等问题,这些问题亟待解决。 国务院关于印发促进大数据发展行动纲要的通知提出“加大大数据关键技术 研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行 业创新应用,促进大数据产业健康发展”,强调推进基础研究和核心技术攻关。针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问 题,急需开展关键技术的攻关研发与突破工作。为践行国家大数据战略,北京大 学牵头,联合中国科学院数学与系统科学研究院、中山大学、北京奇虎科技有限 公司、北京嘀嘀无限科技发展有限公司、中国信息安全研究院有限公司等多家单 位,共同申请建设大数据分析与应用技术国家工程实
3、验室,并于2017年初获得 了国家发展和改革委员会的正式批复。其目标是围绕数据科学理论体系、大数据 计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和 鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索;加强数据清洗、 大数据分析发掘、大数据可视化等领域关键技术攻关;围绕多源异构数据分析, 针对视频、文本等多种数据类型,研究大规模机器学习的基础和创新方法,依托 合作支撑单位开展面向大数据分析的全流程框架和工业标准的设定、大规模数据 分析系统平台的搭建;针对多项代表性应用的大数据分析应用平台进行设计和优 化,注重大数据分析理论和系统的源头创新,提升数据分析处理能力、知识
4、发现 能力和辅助决策能力;切实和有效地突破目前我国在大数据分析和应用方面的技 术瓶颈,形成一整套具有国际影响力的大数据分析系统软件,推动我国大数据产 业的发展。本文将系统地分析我国大数据分析与应用的五大共性技术的瓶颈和解 决思路,介绍大数据分析系统开发平台、大数据系统测试评估平台、大数据分析 可视化展示平台、重大应用示范与系统集成平台四大支撑平台的设计与应用,并 对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行展望。2五大共性技术如图1所示,在一个典型的大数据分析与应用流程中,数据经过预处理后, 采用以大数据统计为代表的共性模型和算法与大数据挖掘技术进行计算分析,再 结合高度智
5、能灵活的可视分析,最后支持复杂场景下的智能决策。分析的结果将 进一步反馈到数据处理,并再次进入分析过程,进一步提供基于数据的洞见能力 和决策支持。可见,在大数据分析与应用中,大数据预处理与质量控制技术、大 数据分析支撑理论与算法、大数据挖掘技术、大数据可视分析技术、大数据智能 知识管理与决策支持技术构成了大数据分析与应用的五大共性技术。这五大共性 技术也是构建大数据分析与应用技术创新平台的关键环节。智能决策图1大数据分析与应用技术创新平台的总体框架2.1大数据预处理与质量控制技术(1)数据中的可信度建模问题在对复杂结构数据的可信度进行建模时,需要采用“不确定性”和“数据溯 源”两个维度。对于不
6、确定性而言,可以采用概率图模型对所研究的复杂结构数 据进行数据建模,其中根据应用的需要考虑图模式中的点、边的不确定性以及它 们之间的互相依赖关系。除此以外,还考虑到复杂结构数据的多源特性,不同的 数据源提供的数据的可信度是不同的。在对数据的不确定性建模的基础上,还要 考虑数据的“溯源”问题。大数据分析与应用技术创新平台将数据的不确定性和 溯源作为一种统一的元数据,为描述关联数据的可信度提供建模。(2)数据中的数据质量检测和评估数据质量决定了数据的可用性。传统的数据质量检测方法中,最经典的方法 是挖掘数据之间的函数依赖关系以及带有约束的函数依赖等。然而这些方法只考 虑了关系数据库表中各个列之间的
7、函数依赖关系。数据质量的检测需要研究复杂 数据的数据质量问题。例如知识图谱数据的数据质量问题需要考虑两个方面的特 征:图结构特点以及知识图谱数据中的本体语义。(3)大数据抽样大数据分析中有很多问题,其中一个很重要的问题是计算精度和计算复杂度 的平衡。一个好的计算方法一方面要误差小,另一方面要计算速度快。大数据分 析中这两方面目标几乎不能同时达到。当前应发展更普适的、更稳健的再抽样方 法,其普适性将表现在适合于广义线性模型以及一般凸优化问题,其稳健性将表 现在统计推断结果的精确性,即均方误差的减小。2.2 大数据分析支撑理论与算法数据分析算法大致可以分为计算数学算法、统计算法、计算机算法、优化算
8、 法等。由于这些算法来源于不同领域,其侧重点和使用的主要工具都有所不同, 然而它们之间又有着千丝万缕的关系,相互关联。(1)大数据分析的计算数学理论与算法计算数学包括数值分析、数值代数和最优化等,为大数据分析提供了坚实的 理论和算法基础,也拓展了大数据分析的应用领域与范围。在大数据的研究中, 要推动变分法、偏微分方程、低秩和稀疏优化的结合,为图像科学和医疗影像提 供新的数学模型和数值方法;推动计算数学与机器学习的结合;推动偏微分方程 与机器学习的结合,发展高维数据分类、聚类和降维的新方法和理论。针对数据 模型,可以推广基于多尺度的降维方法在物理模型中的应用,例如图像表示的小 波方法就可以看成一
9、个多尺度方法。深度学习网络的训练也和多重网格算法有很 多相似之处,可以系统地研究多尺度方法在非结构数据分析中的应用。基于多层 次神经网络的深度学习方法可以看成一种自适应、多尺度、多层次的表示方法, 加深了对深度学习的理解,有助于找出其基本原理并推广。神经网络也可以看成 一种特殊的图模型,从图模型的角度来看,神经网络有希望发展出更一般的多尺 度、多层次模型。多年来,在计算数学领域发展出了一系列行之有效的并行算法、 随机分析方法和张量分析方法,这为大数据分析提供了有效的途径。优化算法是 计算数学和大数据分析的主要课题之一,实验室将研究在大数据中如何发展有效 的优化算法。(2)大数据统计分析方法在分
10、析大数据时,比较大的一个挑战是如何处理大数据的复杂性和不确定 性,需要运用统计学原理及方法、机器学习方法来处理这两方面分析中的技术问 题。数据的不确定性会带来预测结果的不确定,在统计中可以用随机变量的分布 来描述数据的不确定性,然后用置信区间或置信带来量化预测结果的不确定性。随着计算机硬件的发展与大数据时代的来临,深度学习作为一种通用的人工 智能算法,在近些年取得了巨大的成功。对比传统的模式识别方法,深度学习不 再需要人工进行特征设计,而是采用端到端的方式进行训练,并在计算机视觉、 语音识别和自然语言处理等很多领域都取得了突破性的进展。目前的深度学习算 法主要面临模型复杂度较高、速度慢以及需要
11、大量训练数据等问题。为了进一步 推动深度学习的发展和广泛应用,仍需要突破以下关键技术:深度神经网络模型 的预测加速和模型压缩、类人的深度学习过程以及新型的深度学习优化方法等。 随着深度学习的不断发展,各种复杂的网络结构,特别是深层神经网络,由于灵 活性较高,具有良好的表达能力,引起了越来越多的关注。但由于缺乏理论上的 指导和支撑,目前深层神经网络的大量自由参数大多数情况下仍需依赖经验来调 节与优化,离理论上的最优性能仍有较大差距。此外,如此复杂的模型很容易在 特定的数据集上得到近乎理想的拟合效果,然而在推广泛化性能上却往往很难得 到保障。为了推动深度学习的发展,继续提高模型的性能,需要对复杂神
12、经网络 的优化算法进行进一步的研究。深度学习在许多领域都有广泛的应用。在实际应用中,根据计算平台资源等 方面的限制,往往需要设计出不同计算复杂度的模型。由于缺乏系统性方法的指 导,很多神经网络的超参数(如卷积神经网络的层数、每层卷积神经网络卷积核 的类型与数量等)都需要依赖经验来设定,然后通过大量的实验来验证模型的性 能。因此,将深度学习算法在特定问题上进行应用的关键是如何在学习的过程中 简单有效地完成超参数的自动选择。深度学习在监督学习领域已经取得了巨大的成功。基于监督学习的深度学习 方法通常需要海量的标注数据进行训练,从而保证模型的推广性能。但在很多应 用中,标注数据往往很难获得或者获得成
13、本过高,而没有标注的原始数据往往很 容易获得。相对地,人脑可以在没有监督信息时主动地从周围环境中学习。因此, 要实现更加高级的智能行为,现有深度学习算法需要突破传统的监督学习模式, 从监督学习向半监督学习乃至无监督学习转变,借鉴人与环境之间的交互过程, 主动且自动地完成增强学习,以摆脱对监督信息的依赖,在更严苛的环境下完成 学习任务。2.3 大数据挖掘技术在大数据挖掘技术方面,该实验室主要关注文本、视频、时空等典型数据类 型,同时大力开展大规模并行数据挖掘技术的研发。(1)文本大数据分析技术深度语义分析、跨领域跨语言情感分析、大规模高精度文本知识挖掘、智能 文本对话、语义搜索引擎等是实现大规模
14、文本数据挖掘和自然语言理解的基础技 术。设计制造自动人机对话平台(即智能问答机器助理)被认为是现代人工智能 的一项充满挑战也极具困难性的任务。能主动引领新话题的对话模式(即主动式 智能问答机器助理)对于现有的被动式人机对话模式而言是全新的突破。语义搜 索引擎的应用可以大规模定制化采集任意多个网址、网页和文档信息,利用语义 搜索引擎分析相关内容,筛选有价值的信息,构建语义索引,自动汇聚。该平台 用于大规模文本的信息筛查和收集,可有效实现基于语义的信息与知识汇聚,有 利于基于文本大数据技术的应用,实现科学决策。基于该平台,可以开发行业知 识服务与决策支持系统(如智能辅助诊疗、智能新闻报道)、智库信
15、息服务(智 能产品服务、智库系统)、通用个人知识助理等行业、专业及通用的知识服务应 用。(2)面向海量视频图像数据的语义分析技术基于语义的图像视频分析是计算机视觉和多媒体领域的一个基本问题,与人 工智能、机器学习、人机交互等领域紧密相关。其中,图像数据相关的主要任务 有图像分类、物体检测等,视频相关的任务包括多媒体语义事件检测、视频语义 标注等。由于视觉数据的特征表达与真实的语义之间存在“语义鸿沟”的问题, 尽管现有的研究工作提出了大量理论与算法,上述问题仍然面临着巨大的挑战。 特别地,在图像、视频数量爆炸式增长的今天,如何充分挖掘海量视觉数据及其 语义标注信息成为新的技术难题。传统的机器学习
16、模型往往无法充分表达海量视 频图像数据的语义复杂度,并进而构建高效的用于预测的模型。因此,需要针对 海量视频图像数据的特性进一步扩展与增强现有的模型、理论和算法,并在公开 的数据集上评测其性能。面向海量视频图像数据的语义分析技术研究需要突破的 关键问题有图像快速索引、多媒体事件检测、视频语义标注等。(3)时空数据分析技术时空数据挖掘主要分为以下儿类:时空模式挖掘、时空聚类、时空分类、时 空异常检测等。在应用层面,可以以社会经济现象感知为目标,以时空大数据为 基础,并以时空数据挖掘算法为支撑,发展一系列分析方法,包括个体移动行为 模式分析、活动时间变化特征分析、场所情感语义分析等。移动是个体层次
17、空间 行为最宜接的外在表现,个体移动行为模式分析是利用时空大数据中的移动轨迹 信息研究个体移动模式或模型的方法;活动时间变化特征分析是指基于城市不同 区域对应的活动日变化曲线,研究其用地特征和在城市运行中所承载的功能;同 时,社交媒体(如推特、微博等)中包含了大量文本数据,这些数据成为语义信 息获取的重要来源,其中带有位置的社交媒体数据通常占3%,可以利用这部分 数据揭示与地理位置有关的语义信息,即进行面向场所的情感语义分析。(4)大规模并行数据挖掘技术考虑到当前开放互联环境中海量数据挖掘和应用的需求,该实验室将充分考 虑分布式数据的特点,结合不断发展的、多样的存储和计算环境,研究海量分布 式
18、数据挖掘的理论、方法和技术、规范体系,力争使我国在相关领域的研究成果 进入国际领先行列,重点突破海量数据挖掘系统体系结构、基于云计算的数据模 型、分布式数据挖掘算法(包括分类算法、关联规则算法、主成分分析算法)等 关键技术。2.4 大数据可视分析技术可视分析是对大数据进行分析的一种有效手段,日益受到重视。在中国计算 机学会大数据专家委员会发布的2014-2016年大数据发展十大趋势中,可视分 析技术连续3年被列入其中。可视分析技术的目标是使数据分析过程透明化。它 结合了可视化、人机交互和自动分析技术。在一个典型的可视分析流程中,自动 分析的结果通过可视化展示给用户,用户通过人机交互技术评价、修
19、改和改进自 动分析模型,从而得到新的自动分析结果。通过这种方式,可视分析技术将人的 经验智慧与机器的运算能力紧密地结合在一起。这其中,由人来定义分析任务的 模式,由机器来存储和分析大量的数据。分析结果的可视化则成为人与机器合作 的桥梁。大数据原位可视分析技术。最初的面向科学的原位可视化技术将数据处理与 可视化代码、数值模拟代码进行耦合,在数值模拟程序运行的过程中进行若干处 理与可视化工作,即时对相关特征进行提取并存储,从而能在后续处理中得到完 整、精确和可靠的数据分析和可视化结果,用以支持用户的探索与分析。原位处 理能在保证数据精度的同时,大幅减少所需数据存储、数据传输以及后续处理的 代价。同
20、时,原位处理的过程中,也能即时产生相关的可视化内容,用户可以基 于内容对模型模拟过程进行监测、调整和操控。同样的思路可以被推广到一般意 义上的复杂大数据分析中,在大数据产生和运输过程中,同步开展有效的可视化 工作,可解决大数据可视化的瓶颈问题。多尺度时空可视分析技术。面对多种不同来源、不同粒度的数据,如何在时 空内进行融合是分析时空数据的巨大挑战。在统一空间内,将多源数据进行可视 化处理并提供有效的可视分析手段是目前的研究热点之一。多尺度时空可视分析 技术是探索应对大规模、异构的时空数据时较为通用的交互式分析和探索方法。支持态势感知的大数据可视分析技术。传统的数据分析任务主要是针对单个 或者一
21、类数据进行的分析,随着大数据的出现,各式各样具有隐性相关关系的数 据涌现出来。在一些复杂任务中,往往需要同时对不同类别的数据进行采集、监 控、分析以及响应。支持用户对这类分析过程进行实时感知把握是今后可视分析 需要具备的重要功能。2.5 大数据智能知识管理与决策支持技术面向大数据的知识发现、管理和决策支持服务平台是大数据分析流程中关键 的一环。其中包括4个方面的主要内容:一是面向多源异构数据源的知识图谱构 建和融合,将不同的数据源的数据进行有效的整合,形成面向一个领域或者开放 领域的完备的知识图谱;二是海量知识数据的存储和查询等数据管理问题,一个 面向海量知识数据的高效的知识图谱数据管理系统是
22、提供知识服务和支撑上层 决策的基础;三是智能知识检索和分析,笔者希望为用户提供一种基于可视化技 术的、交互式的知识数据访问和分析的平台接口,方便普通用户使用知识图谱; 四是在上述知识图谱的构建和分析的基础上,针对复杂的问题提出定性定量综合 集成建模体系,从而有效支持相关决策。3大数据支撑平台针对上述技术,大数据分析与应用技术创新平台将搭建相应的支撑平台,支 持方法和系统的研发与落地。(1)大数据分析系统开发平台大数据分析系统开发平台建设专门面向大数据分析技术的支撑平台与系统, 实现大数据机器学习算法的高效并行化,为各种机器学习算法提供统一的、用户 透明的调度过程。构建两个面向大数据分析的算法库
23、:面向大数据统计与机器学 习分析处理基础算法的并行算法库、面向大数据挖掘技术核心算法的并行算法 库。依托天河二号超级计算机,设计面向大数据分析与处理的软件支撑平台,包 括基于天河二号的大数据可视化分析系统、支撑大数据可视化的基础并行算法 库、实现知识图谱的基础并行算法库与软件系统支撑平台。重点突破大数据背景 下深度学习、数据挖掘等各类应用的共性问题,研究解决这些问题的基础算法的 并行性,研究并行编程框架及其支撑系统,创建基于天河二号的大数据分析软件 支撑平台与系统。(2)大数据分析系统测试评估平台大数据分析系统测试评估平台是一个综合性试验测试平台,能够实现各种大 数据分析方法和系统在多种数据对
24、象、应用场景下的主客观质量测试和应用验 证。大数据分析系统测试评估平台将建立标准测试方法和手段,并建立综合性的 测试数据集合,能够提供多种情况下的测试评估能力,对其他平台的结果具有良 好的支撑作用。(3)大数据分析可视化展示平台大数据分析可视化展示平台将提供先进的可视化显示环境,提供对目标数据 分析效果的高效可视化,提供高度沉浸式、高像素分辨率的大规模可视化设施。 大数据分析的可视化通常需要同时展示大量、高精度、多角度的复杂图形信息、, 以便使用者进行观察与分析。(4)重大应用示范与系统集成平台重大应用示范与系统集成平台主要通过与共建单位合作,在安全、交通等方 面建设包括多种应用在内的大数据重
25、大应用示范与系统集成。4未来发展方向大数据分析与应用技术国家工程实验室瞄准国家的重大需求进行发力和突 破,同时,还将以企业和市场的需求为导向,以提高产业自主创新能力为目标, 力争在我国大数据分析与应用领域形成一批重大的标志性成果。在科研与人才的体制机制上,积极进行探索和创新,与北京大学大数据科学 研究中心、北京大数据研究院等院校机构和科研单位进行深度协作,整合各方资 源,发挥各方优势,努力实现机构共建、人才联聘、成果共享的“三位一体”运 行新机制。在大数据人才培养上,将以往的分学科、分阶段的“串联式”培养方式升级 为多学科交叉、理论与实践并行的“并联式”培养方式,联合北京大学数学科学 学院、信
26、息科学学院等院系,聚合数学、计算机、工程应用等多方面的资深专家, 为大数据领域的优秀人才营造良好的成长环境。在提高人才培养效率的同时,使 其具备利用大数据相关理论与实践经验解决具体问题的实战能力。大数据分析与应用技术国家工程实验室依托北京大学建立研究环境与核心 团队,构建创新生态。针对大数据分析技术,建立研究开发和试验平台,开展针 对大数据的预处理和质量控制、大数据的计算数学理论与算法、大数据的统计方 法及理论、大规模机器学习方法、面向异构多源大数据的挖掘和分析、大数据的 可视化以及知识计算和决策支持等方面的研究;针对重点行业应用和数据产业的 发展需要,建立大数据分析系统和数据产业工业化应用的
27、全流程开发框架和系统 标准;并以支撑平台为基础,加强与支持单位以及优势单位和地区开展的合作研 究,突破现有大数据分析的技术瓶颈,引领国内外大数据分析产业的发展,涌现 一批具有自主知识产权、形成国际影响力的大数据分析系统平台,为我国大数据 分析产业的发展以及基于大数据的政府决策、企业创新等提供基础支撑。5结束语本文从我国大数据分析与应用的共性技术、大数据支撑平台和应用的现状和 存在的问题出发,介绍了大数据分析与应用技术国家工程实验室建设的大数据分 析与应用技术创新平台技术架构。创新平台围绕数据科学理论体系、大数据计算 系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和鼓励 在大数
28、据分析的理论、方法及关键应用技术等方面展开探索。创新平台将引领大 数据分析技术和国际标准发展,为我国大数据分析产业健康发展提供技术支撑、 实验中心和人才基地。在产学研结合方面,该平台将成为支撑产业健康发展的核 心试验支撑平台和充满活力的开放式研究开发环境。大数据分析平台建设与应用综述摘要:本文针对大数据在战略思维层面、技术创新发展层面、社会创新发展 层面的核心价值展开分析,结合大数据分析平台建设思路,包括平台建设目标、 建设内容分析、关键技术分析等,通过研究大数据分析平台在制造领域、零售领 域、电力运输领域、运输领域、银行服务领域中的具体应用,其目的在于加快大 数据分析平台建设速度,提升大数据
29、分析平台的应用效果。关键词:战略思维层面;平台建设目标;制造领域;平台层;功能层1大数据的核心应用价值1.1 战略思维层面从目前发展情况来看,数据已经成为推动社会经济稳定发展的重要影响因 素,大数据的发展可以追溯到2011年,麦肯锡公司发布了大数据:下一个竞 争、创新和生产力的前沿领域的研究报告,这也意味着“大数据”正式进入到了 战略发展阶段。许多国家开始着手进行大数据发展战略的研究,我国与2012年 加入到了推动大数据发展的行列当中,大数据的重要性也在得到人们的认可。尤 其是在2015年,国务院出台了促进大数据发展行动纲要,明确了大数据在国 家发展中的地位,同时还在纲要中提出了一些有关大数据
30、发展的重要策略, 这也进一步凸显出我国对于发展大数据的重视,也使得大数据发展进入到了战略 推进阶段。1.2 技术创新发展层面大数据相比其他类型的数据信息,在发展应用过程中,具备了发展类型多元 化、总体量巨大、相互间关系复杂程度高等应用特点。为了更好的完成价值数据 信息提取,需要匹配相应的科学技术,这也加快了技术创新速度,进而促进了社 会经济的快速发展。在技术创新过程中,其前提条件便是需要有足够的数据信息 进行支持,而大数据所能够提供的信息基数数量非常大,这也便于后续将与大数 据相关的理论、已有的技术成果与创新框架结构进行融合,同时还可以依托于互 联网技术,开始推动智能化体系的发展,这也会进一步
31、加快问题的处理速度,为 技术创新发展创造良好的应用环境。1.3 社会创新发展层面社会经济的飞速发展,社会也开始沿着智慧城市的建设方向推进,所谓智慧 城市是指可以对城市各方面发展情况进行统筹性规划,并且将城市管辖区域的信 息网并联在一起,采用以点及面的方式来推进城市经济的稳定发展。建立该网络 平台的基础便是海量数据的支持,即大数据便是实现智慧城市战略目标的基础内 容。现阶段,我国的很多城市已经着手进行智慧城市的建设,而大数据在该环节 中,充分发挥着业务协同与信息整合的作用,并且所搭建的数据平台还可以为社 会发展提供可靠的基础设施支持,同时还降低了技术应用门槛,加快了一站式服 务的普及速度。这也意
32、味着社会创新发展进入到了多元化推进阶段,提高了社会 经济结构稳固性。2大数据分析平台建设思路分析2.1 平台建设目标进行大数据分析平台的建设,其主要的应用目标便是构建统一的数据资源 库,同时还可以对数据进行准确筛选,提高数据内容的精准度。而且在应用过程 中,还可以对数据安全管理能力进行提升,在确保数据信息应用价值的基础上, 提高结构运行过程的可靠性。在实际应用中,一般都会对数据信息的共享模式进 行调整,将虚拟数据沿着实体数据信息存储的方式进行调整,以此为基础来搭建 完善的数据管理框架,对于采集到的数据信息进行预处理、数据清洗或数据分析 等,此时的数据已经开始沿着“资产”的方向进行发展,这也提升
33、了数据信息提供 的针对性,为行业经济发展提供了可靠的数据信息支持。2.2 建设内容分析2.2.1 数据采集系统这也是大数据平台的基础内容,在实际应用中,可以将现有业务系统中涉及 到数据信息,集中汇集到大数据平台结构中,同时对于系统提供数据的格式进行 统一,这也为后续数据信息的顺利提取奠定基础。同时还会建立基础算子,对于 平台中数据之间的关系进行梳理,而且还会对数据信息潜在价值进行研究,同时 对于数据信息潜在价值进行汇总整理,以此为依据对原有数据库进行重建,为一 站式管理奠定基础。另外,在实际应用中,数据采集系统还需要具备较强的兼容 性,可以对许多数据格式进行兼容,以此来提高系统运行本身的可靠性
34、。2.2.2 数据处理系统在大数据时代,数据每天都处于不断更新的状态,部分数据信息在经过一段 时间后,会丧失原有的时效性,需要对其进行更新,从而确保数据供给的可靠性。 在数据处理系统建立过程中,需要对数据信息管理规范进行确定,以此为基础来 进行元数据信息的血缘分析,对其进行精细化分类,以此来确保数据资源供给的 可靠性。在数据处理环节,主要应包括数据细化分类、数据深度挖掘、数据纠错、 数据存储等多方面应用内容,这也是提高系统应用价值的基础环节,以此为后续 指令的下达奠定基础。2.2.3 数据安全管理系统对于采集、处理后的数据信息进行加密处理,同时在数据传输过程中也需要 做好数据的加密工作,确保所
35、有采集数据信息的可靠性。同时用户在数据访问环 节中,也需要对访问者的身份进行认证,根据等级划分制度,对于访问者的身份 进行确定,而且还需要做好相关的记录审查工作,确保数据审查的可靠性。另外, 对于一些敏感性数据信息,还需要对其进行脱敏处理,确保数据信息传递结果的 完整性。2.3 关键技术分析2.3.1 平台层该结构在大数据平台建设中,属于非常核心的系统结构,在实际建设中,该 系统主要由以下几部分内容组成:第一,数据存储系统,大数据的信息总量庞大, 在实际应用中,需要构建PB级存储能力的系统,以此来满足数据存储要求。第 二,数据挖掘系统,大数据在传输一般都会以数据包的方式进行传递,其中蕴含 了非
36、常多的数据信息,对此,平台层在传递数据信息时,也需要做好兼容性调整, 并且在传递过程中,应打破传统M叩Reduce技术的框架限制,对数据潜在价值 进行挖掘,从而提高系统运行的可靠性。2.3.2 功能层在功能层结构的建设过程中,主要由以下几部分内容构成:(1)挖掘算法的确定,与平台中数据挖掘系统相对应,其主要的工作内容 便是对数据信息进行深入挖掘,以此来提高TB建模的稳定性。(2)隐私保护技术,所有采集到的数据信息需要进行安全保护,同时还需 要一些数据信息进行脱敏处理,使其能够和其他普通信息内容一样,可以顺利地 进行传递,减少了其他不确定因素带来的干扰性,从而提高信息传递的可靠性。(3)可视化分
37、析技术,该技术主要用于辅助挖掘系统工作的顺利开展,从 而提高了数据信息交互过程的稳定性口。2.3.3 服务层服务层作为和用户进行直接对接的系统,在该系统建立过程中,需要注意以 下几点内容:第一,数据匹配技术,在用户提出请求之后,可以快速将指令传递 到指定区域,从中筛选出和请求相匹配的数据内容,数据的细化程度会根据用户 提供关键词的细化程度不断提高,以此来为用户提供可靠的数据信息2。第二, 显示技术,不同格式数据信息的显示方式也存在着较大的不同,因此需要对数据 格式进行兼容性转化,从而提高数据显示后的可利用性。3结语大数据分析与应用平台,是大数据时代必备的基础设施,也是突破当前技术 瓶颈的有效突破口。开发和建设大数据分析与应用平台将带来三个方面的价值: 第一,有助于不断汇集大数据技术创新成果,并用最先进的技术为用户提供一站 式的应用服务;第二,有助于降低用户技术门槛,为应用开发提供共性基础设施 与服务,从而加快应用创新;第三,有助于形成大数据技术产品和行业解决方案, 促进我国大数据产业加快形成。参考文献:1陈越,侯常敏,基于大数据分析的公立医院运营信息化平台建设及应用J. 中国卫生经济,2020, 39 (03): 80-82.葛飞飞,大数据分析平台建设与应用综述J.科技风,2019 (25): 54+59.