《高能物理科研大数据平台现状、需求及关键技术,核物理论文.docx》由会员分享,可在线阅读,更多相关《高能物理科研大数据平台现状、需求及关键技术,核物理论文.docx(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高能物理科研大数据平台现在状况、需求及关键技术,核物理论文当下,人类正在迈入一个史无前例的大规模生产、消费和应用大数据的时代。大规模科学研究,以及最近几年互联网、物联网的快速发展,把人类带入了 大数据时代 。根据数据的来源,大数据能够粗略地分成两大类:一类来自物理世界,另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关系,十分是与互联网有关。欧洲核子中心的大型强子对撞机LHCLarge Hadron Collider上的探测器每年产生的数据量到达 25 PB。用电子显微镜重建大脑中的突触网络,1 mm3大脑的图像数据就超过 1PB。同时,人们的日常生活与网络关联得越来越严
2、密,海量的数据在网络中产生、传输、存储、处理。据 IDCInternet Data Center公司统计,2018 年全球来自于个人的数据主要是图片、视频和音乐,远远超过人类有史以来所有印刷材料的数据总量200 PB。根据 2020 年 IDC 的数字宇宙研究报告,人类在 2018 年步入 ZB1ZB=1 106PB时代后,到 2020 年数据量将增长50 倍图 1。 无论科学实验数据还是人类社会产生的数据,最终只要在大数据计算平台上进行分析处理,才能将数据转换成知识和信息,发挥出大数据的价值。 本文首先介绍科研形式的转变以及科研大数据的需求和现在状况。然后,针对科研大数据平台中的关键技术,包
3、括数据采集、数据存储、数据传输、数据处理以及分享和安全进行分析。最后,结合高能物理领域的数据处理对科研大数据平台的一些实践进行介绍。 1 科研大数据及其计算平台现在状况 1.1 科研形式的转变 人类探寻求索世界的脚步永无止境,而科学研究的方式也在不断发展。远古时期,人们依靠观察和思辨来认识和探寻求索世界。17 世纪以来,随着牛顿经典力学基本运动定律的发表,科学家们逐步把实验与理论作为科学研究的基本手段。然而,随着人类探寻求索世界的不断深切进入,很多科学问题的实验研究和理论研究变得越来越复杂,甚至难以给出明确的结论。近半个世纪以来,随着电子计算机的诞生与快速发展,计算机仿真模拟变成第三种不可或缺
4、的科学研究手段,以帮助科学家们去探寻求索实验与理论难以解决的问题,如宇宙的起源、汽车碰撞、天气预报等。而在当下社会,各个学科领域的研究不断向纵深发展,不管是实验装置还是计算机仿真模拟的规模都变得越来越大,产生了越来越多的数据,进而催生了围绕海量数据获取、存储、分享和分析的科学研究手段。 来自大科学装置或者计算机仿真模拟的实验数据被收集和存储起来,并通过先进高速的网络与处于不同国家或机构的合作者共享。依靠分布式计算技术及协同工作环境,科学家们不仅分享数据,还分享软件、模型、计算、专家知识甚至人力等资源,进而加快科学成果的产出。当代科学研究,十分是粒子物理、生命科学、能源环境、先进材料与纳米科学等
5、新兴或穿插领域的发展要进行跨国家、跨地域的协作与沟通,而大数据技术的发展正在对其产生深远的影响。 下面以高能物理为例来讲明科研大数据的需求及计算平台现在状况。新一代高能物理实验,如 LHC实验、北京正负电子对撞机 BESIII 实验、大亚湾中微子实验、宇宙线观测实验等产生了海量的数据。到 2020 年,世界高能物理的实验数据超过200 PB,并将在以后几年中超过 1 000 PB。全球近万名物理学家利用这些数据进行物理研究。 1.2 大型强子对撞机 LHC 实验 大型强子对撞机LHC是欧洲粒子物理研究中心European Organization for Nuclear Research,CE
6、RN的一个大型高能物理实验装置。来自全世界包括中国的研究机构和大学的近万名科学家参加 LHC 上的四个主要实验。这四个实验包括 ALICEA Large Ion Collider Experiment,大型离子对撞实验、ATLASA Toroidal LHC Appa-ratuS,超环面仪器、CMSCompact Muon So-lenoid ,紧凑 m 子线圈、 LHCb Large HadronCollider beauty experiment,大型强子对撞机底夸克实验图 2。LHC 实验将探寻求索物理学最前沿的课题,包括寻找物质质量起源的希格斯粒子、反物质、暗物质、暗能量及超对称粒子等
7、。 LHC 对撞机的四个实验于 2018 年投入运行,每年产生约数十 PB 的原始数据。到 2020 年底为止,已经积累了超过 200 PB 的数据。LHC 实验将运行 20 年以上。累积的实验数据需要进行分析处理,对计算系统是一个宏大的挑战。LHC 采用了分级式计算平台,将实验数据复制到各地区的数据分析中心。这个解决方案叫做 LHC 网格,即WLCGWorldwide LHC Computing Grid图3。LHC 网格由不同规模和任务的计算中心组成。 这些计算中心包括 CERN 的零级站点Tier0、地区的一级站点Tier1、大型机构的二级站点Tier2、实验室或研究团队的三级站点Tie
8、r3等组成。一级站点往往由参加 LHC 实验的成员国建立,二级站点则由规模较大的研究机构建立。 LHC 网格使 LHC 的每个实验能够利用该系统的存储和计算资源,确保了实验数据和计算任务智能化地分发到世界各地的网格站点上进行数据分析处理,并使所有的科研人员能够透明地访问这些数据和计算结果。当前 WLCG 由世界上约 200个网格站点组成,总共装备了 25 万余个 CPU 的计算资源,每年完成超大规模的计算任务,为 LHC实验的数据分析处理提供了不可或缺的支撑。1.3 北京谱仪 BESIII 实验新一代北京正负电子对撞机BEPCII是运行在 2.04.6 GeV 质心能量区间的大型高能物理实验装
9、置。BEPCII 的实验探测器叫做北京谱仪BESIII。BESIII 的物理目的包括轻强子谱测量、粲素研究、粲介子的电弱作用物理、量子色动力学和强子物理、t-物理研究以及新物理探寻求索。 BESIII 实验的原始数据将到达 3.6 PB。对原始数据进行处理还将产生约 1.8 PB 的物理重建数据。 除了实验数据外,BESIII 的物理模拟经过将产生规模相当的模拟数据,因而将来几年中,BESIII的数据规模将到达 10 PB 以上。BESIII 实验的数据分析并不会随着数据采集的结束而结束,实验数据的生命期至少达 15 年以上。BESIII 合作组共有近 400 名来自世界各国的科学家介入,因而
10、需要建立一个国际化分布式的计算环境为数据处理提供支撑。 数据存储是 BESIII 实验的重大挑战之一。最小代价的高效数据存储解决方案是支撑 BESIII 数据处理和物理分析的基础。BESIII 数据存储包括分级存储系统和并行文件系统两部分。BESIII 分级存储系统由磁带库和磁盘池,以及自主研发的GRASSGrid-enabled Advanced Storage System存储管理系统等三部分组成。分级存储系统提供大规模海量数据的在线和近线存储访问服务。 并行文件系统为根据中国科学院高能物理研究所简称高能所的数据访问特点进行优化的 Lustre文件系统。该系统还对稳定性及并发访问性能等进行
11、了改良。到 2020 年底,并行文件系统的容量达 3 PB,并发访问性能到达 25 GB/s 以上。为大批量计算作业提供无阻塞的高吞吐率数据并行访问服务。 BESIII 实验数据处理的另一个重大挑战是数据分享和分布式处理。因而 BESIII 采用网格技术建立了一个网格平台,该平台由高能所的一个网格中心站点和国内外的若干个卫星网格站点组成。 网格平台采用 EMIElectromagnetic Interference为中间件,同时可以以与 GOSGrid OperatingSystem中间件实现互操作。计算任务可在网格站点之间全局调度。网格平台的数据传输管理采用 Dirac 系统,可高效智能地实
12、现站点间的数据传输。网格平台将 BESIII 实验的数据处理任务分发到世界各地的合作单位,使各合作单位的计算及存储资源得以分享,大大提高了数据处理的效率,为近年来获得重要物理成果的研究提供了不可替代的支撑。 1.4 科研大数据平台需求 从以上高能物理领域的数据处理的例子能够看出,当下以数据为中心的科学研究,产生了越来越多的数据,迫切需要用大数据的技术和工具进行数据分析和处理。科研大数据平台用于海量数据的存储和处理,很多技术仍然不能知足应用的需求。比方,现有存储能力的增长远远赶不上数据的增长,设计最合理的存储架构成为关键。 除此之外,数据的移动已成为信息系统最大的开销之一,需要高速稳定的数据传输
13、系统。 2 科研大数据平台关键技术 2.1 科研大数据平台典型架构 科研大数据平台的典型架构如此图 4 所示。科研大数据平台的底层是 IT 基础设施,包括存储设备、计算设备、网络设备等,以及对这些设备进行的虚拟化构成的虚拟资源,属于基础设施层。 海量的数据通过科研设备、传感器或者网络爬虫聚集到数据存储系统中。同时,大数据平台还具有并行数据处理能力。在海量存储和超级计算能力之上,根据应用来部署不同的数据分析和挖掘工具,如高能物理领域的 Geant4 和 Gaudi 软件、流体力学 FLUENT 软件、机器学习经典算法实现软件 Mahout。平台的最上层面向不同的应用需求提供服务,包括物理、天文、
14、生物及社交网络分析等。标准规范、制度建设、运行维护等支撑体系保障整个大数据平台正常施行与运作,是不可或缺的重要内容。 2.2 数据采集与清洗 数据采集是指从数据源中获取数据。数据清洗指发现并纠正数据文件中可辨别的错误,包括检查数据一致性,处理残缺数据、重复数据和错误数据等。在整个大数据的处理流程中,数据清洗是保证数据质量的重要程序。数据源不同,数据清洗的要求也不同。 在科研大数据平台中,数据源主要包括科研设备、各类传感器和互联网。科研设备,十分是大型科研设备,产生了大量的数据。比方,大型强子对撞机 LHC 上的 ATLASA Toroidal LHCApparatuS,超环面仪器探测器,以 4
15、0 MHz的事例率来采集数据,原始数据可到达惊人的1 PB/s。显然,这样大的数据量无法直接保存。因而,ATLAS 采用了强大的在线事例判选系统,也称为触发系统trigger system,实时将物理学家不感兴趣的事例过滤掉。过滤后,ATLAS 记录的原始数据仍然到达 320 MB/s图 5。 LHC 上还有其他三个类似的探测器,再加上模拟数据等,LHC 每年产生的数据到达 25 PB。科学设备的构造固然各不一样,但是详细到某一设备都是固定的,因而其产生的数据格式往往是确定的,有统一的规范。这对于数据分析者来讲,无论数据是以文件还是数据库存储的,数据都能够被以为是构造化的。因而,一般无需数据清
16、洗经过。 除了大型科研设备,温度、湿度、空气质量、辐射量、摄像头、相机等各类传感器也产生了大量数据,成为开展气候变化、生物迁移、交通、环境、医学等科学研究的必备数据。这类数据往往以半构造化或非构造化形式存储。十分是视频和图片是典型的非构造化数据,必需要进行有效的数据提取和表示。所以,各类传感器数据在采集后,要根据应用进行数据清洗。 第三类数据来源主要是互联网,一般通过网络爬虫来采集。互联网数据包括简单的 web 页面,完全对外公开,通过网页访问和正则表示出式匹配即可获取数据,相对简单。还有一类称为深度网络资源deep web,通常隐藏在后台数据库,有时也称为 暗网 ,传统搜索引擎无法查找和索引
17、,如社交网络、论坛、电子商务等,而这类数据占网络全部信息数据的 90%以上。深度网络资源固然能够通过网络爬虫抓取一定的数据,但是要进行全面的分析,还是需要数据拥有者的合作。 需要十分讲明的是,不管哪种方式获得,互联网的数据是最杂乱无章的,各种类型的不确定数据可能会大量引入系统,造成数据中含有各种各样的错误和误差,表现为数据不正确、不精到准确、不完全、过时陈旧或者重复冗余。据高德纳公司Gartner统计,在全球财富 1 000 强公司中有超过 25%的公司关键数据不正确或不精到准确。在美国企业中有1%30%的公司数据存在各类错误和误差,仅就医疗数据而言,有 13.6%81%的关键数据遗缺或陈旧。
18、因而,数据清洗对于互联网数据非常重要,要保证数据的质量,实现数据的可表示和可靠性。 2.3 数据存储 数据存储系统不仅要保存海量数据,同时还要考虑与数据处理系统的配合,提高数据分析效率。当前,常用的数据存储系统包括集群文件系统、应用层存储系统和分级存储系统等。这三者都采用分布式存储技术,本身并没有非常严格的区分,只是关注的侧重点有所不同。 集群文件系统一般以传统文件系统的方式来访问,客户端实现内核模块,完全兼容 POSIX 语义,因而上层的数据处理软件无需任何修改即可使用海量的存储空间,能够很好地兼容原有应用。 常见的集群文件系统包括 Lustre、Gluster、GPFS、ISILON 等,
19、华而不实全世界最快的超级计算机中 70%以上的都在使用 Lustre 系统。 应用层存储系统一般不实现文件系统内核模块,不完全兼容 POSIX 语义,针对特定的应用场景进行优化,因而往往表现出更好的可扩展性和性能,但是上层应用程序必需要调用特定的API 才能访问。现有的分布式存储系统有谷歌文件系统google file system,GFS和 HDFShadoop distributed file system等,华而不实 HDFS是一套开源软件,在互联网的大数据存储中应用尤为广泛。 科研大数据的存储量往往到达 PB 级甚至更高层次,因而存储的成本和性价比也是重要的考虑因素。分级存储系统是指根
20、据文件的访问频率、热度等因素,将不同的文件分配到不同的存储设备上存放。基于磁盘 磁带的分级存储系统比拟成熟,比方 CASTOR、dCache等系统广泛应用于高能物理领域。当下,基于 SSD 硬盘、SATA硬盘做分级存储是研究热门,如开源项目 flash-cache和扩展项目 flashcachegroup等。 2.4 数据处理 由于海量数据的数据量及分布性等特点,必需要采用并行处理技术才能快速处理。根据数据的特点,数据处理系统主要分成批处理计算系统和实时计算系统。批处理计算系统用于离线数据分析,包括高吞吐量计算high throughputcomputing,HTC、MPIMessage Pa
21、ssing Interface并行计算、MapReduce等。实时计算系统主要用于在线系统,使得系统和应用程序能够从庞大且多样的连续数据流中提取有效的知识和信息,常用的系统包括开源open source的 Storm、S4及商业软件 StreamBase等。 高吞吐量计算和MPI并行计算主要用于高能物理、天文等传统科学技术领域,常用的资源管理器包括 IBM 的 Platform LSF、开源的 Condor、Torque/PBS等。 MapReduce 是 2004 年由谷歌公司提出的一个用来进行并行处理和生成大数据集的模型。Hadoop是 MapReduce 的开源实现,是企业界、学术界共同
22、关注的大数据处理技术。针对并行编程模型易用性,出现了多种大数据处理高级查询语言,如 Hive、Pig、Sawzall等。这些高层查询语言通过解析器将查询语句解析为一系列 MapReduce 作业,在分布式文件系统上执行。与基本的 MapReduce 系统相比,高层查询语言更适于用户进行大规模数据的并行处理。由于 Hadoop 的生态系统不断完善,当前已经成为大数据分析的首选平台。 2.5 数据传输 面向大科学工程领域的科研大数据与其他领域大数据之间的另一个明显区别是需要进行跨地域的海量数据搬迁。假如用千兆互联网接入的高速专线,需要近 80 年才能传输完成。因而,需要更高层次的网络带宽和更高层次
23、效的数据传输管理工具,包括 FTSFile Transfer Service、Phedex等。同时,软件定义网络Software DefinedNetwork,SDN能够有效提高带宽利用率,当前正在全球高能物理网络LHC Open Network En-vironment,LHCONE中推广应用。 2.6 数据分享和安全 在大数据时代,数据只要开放和融合才能发挥数据的最大价值。但是,数据开放会带来安全问题,主要具体表现出在三个方面:文件安全性、动态数据安全性、数据隐私。文件安全性需要保证文件完好性,并保证文件不被非受权用户访问、不被非法篡改等。当前文件安全性主要由操作系统来保证,包括访问控制列
24、表、访问权限、加密保存和传输等方式方法。动态数据安全性指保证数据处理平台中动态数据内存数据、进程等的安全。 当前虚拟机广泛采用,怎样进行细粒度的安全监测与数据保卫,对于大数据平台来讲是一个重要的需求,当前这方面的研究比拟活泼踊跃。 数据隐私主要是指保卫数据中用户的敏感信息,在数据挖掘中愈加强调在不暴露用户敏感信息的前提下进行数据分析。数据匿名性、关联性一直作为数据隐私分析的重要概念,用于对数据隐私度进行度量,如 k-匿名性k-anonymity、l-多样性l-Diversity、t-Closeness 和 FF-Anonymity等概念和方式方法针对不同需求相继出现。2006 年,Dwork
25、针 对 概 率 攻 击 原 理 提 出 了 差 分 隐 私Differential Privacy,能够较准确地度量数据发布前后信息量的变化,得到广泛认可,后来有较多学者对其改良。当前,关于数据隐私的问题和研究仍在不断发展。 3 科研大数据开放平台实践 借鉴高能物理海量数据处理的技术与经历体验,依托大规模的数据密集型计算平台,高能所正在建设一个面向领域的科研大数据开放平台和应用中心,其基本框架如此图 6 所示。 如此图 6 所示,整个系统由分布式数据获取与整合、数据管理、数据处理环境、应用等几个部分组成。数据来源包括大型科学仪器、物联网传感器、模拟计算以及互联网,同时还能够通过开放接口与第三方
26、数据提供方进行数据交换。系统在数据采集、数据管理、数据挖掘、应用等多个层次进行开放,提供 IaaS基础设施即服务、DaaS数据即服务、PaaS平台即服务、SaaS软件即服务等多种服务。科研大数据开放平台的特点首先表如今数据开放性上。系统集分布式数据获取和整合、存储、分享、传输、处理与展现于一体,通过将平台和应用的分工细化,在各个不同的层次进行开放,提供 DaaS、PaaS、SaaS 等不同级别的大数据基础支撑服务。大数据应用的研究者、开发者只需要利用平台开放的数据获取能力,获取需要的数据,或整合平台已有数据,并调用已有的存储、计算以及数据挖掘工具进行工作,即能够最高的效率、最低的成本到达研究及
27、应用的目的。高能物理领域一直是根据这个形式在工作,当前尝试将这种形式从高能物理扩大到其他大数据领域。 科研大数据开放平台的特点还表如今数据融合能力上。科研大数据开放平台上的数据是流动的且不断更新的。一方面,高能所基于本身科研需求,能够聚合海量的高能物理、天体物理、化学、生物工程、生命科学、材料科学等多个科学应用的海量数据。另一方面,基于志愿计算的分布式数据采集技术能够实现对互联网海量数据的有效采集,具有时效性、广泛性与精准性的显着特征。当前,面向互联网数据的采集系统已经向公众开放。最后,通过数据合作、交换,能够整合更多领域的科研数据、物联网数据、互联网数据等海量数据。这些来源不同的数据依托科研
28、大数据开放平台,实现高效、便捷、可控的共享、交换、融合,最终促进跨学科穿插创新,实现数据价值的最大化。 科研大数据开放平台的特点还表如今数据跨地域的传输与分享方面。科研大数据与其他大数据的一个明显区别就是需要进行跨地域的海量数据搬迁。为了解决这一难题,高能所正在建设高能物理数据传输虚拟专用网Chinese High EnergyPhysics Data Transfer Network,CHEPDTN,采用新型软件定义网络技术和网络架构SDN,充分利用已有的网络基础设施设备和资源IPv4和 IPv6 带宽,知足跨地域的高能物理实验合作单位之间的高速、稳定、安全的高能物理数据传输需求。 4 小结
29、 大数据作为将来的发展方向,其重要性已经获得了科研界、企业界和的认可。而围绕数据和数据分析为核心的数据密集型科研从第三范式计算机模拟中分离出来单独作为一种新的科研范式第四范式,遭到越来越多的重视。 但是在大数据发展的经过中,还面临技术和管理等多方面的挑战,包括数据开放性不够,数据融合度不高,支撑能力缺乏等问题。假如让每一个大数据的 掘金者 都要完成 找矿 、 购买工具 、 冶炼 、 贩卖 的全部工作,无疑存在大量重复劳动和浪费,同时效率低下,创新门槛也极高,大数据的真正价值不能完全发挥,不利于创新。实际上,早在 大数据 理念提出之前,高能物理研究领域已经很好地解决了海量数据开放融合、高效处理的问题。高能物理研究是一个完全开放的计算形式,海量基础数据、计算能力、存储能力、传输能力对于全球合作组成员都是开放分享的。高能物理研究是科研大数据的主要来源,也是科研大数据的典型案例。因而,高能所正在尝试借鉴高能物理领域的技术和经历体验来设计和建设一个科研大数据开放平台,面向科学研究和大数据产业发展需求,提供统一的数据采集、数据存储、并行计算和数据分析等服务,实现数据开放和融合,为大数据应用的开发开创建立安全、可靠、高效的基础平台,进而降低应用门槛,推动大数据产业健康快速发展。【图略】