《大数据对天文学研究的影响分析,天文学论文.docx》由会员分享,可在线阅读,更多相关《大数据对天文学研究的影响分析,天文学论文.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据对天文学研究的影响分析,天文学论文2020年7月21日, 中国科学院云南天文台2.4 m光学天文望远镜2020年下半年观测时间正式面向国内外天文学家开放申请。 与以往通过发送电子邮件来提交申请材料不同, 此次观测时间的申请只要一个入口, 即 中国虚拟天文台 . 这个看似微小的变化却意味着我们国家天文学研究领域一个现代的到来, 即从传统的工作形式走向泛在融合的信息化时代。1 数据密集型时代天文学, 与很多学科类似, 正在信息与计算技术ICT等新兴科技的驱动下发生着根本性的变革。 地基和空基的望远镜等观测设施的工作波段已经覆盖了整个电磁波谱从射电一直到g射线以及多个非电磁窗口比方宇宙线、中微
2、子、引力波等, 收集的数据经过规范处理后进入数据库, 为下一步的科学分析做好准备。 天文学数据正在以史无前例的速度从数据量、增长量和复杂性等各方面快速发展。 这些丰富的数据资源大大加深了人类对宇宙的认识。2022年将正式投入运行的LAMOST光谱巡天望远镜每晚拍摄数万条天体的光谱, 产生20 GB的光谱数据。 地面广角相机阵GWAC天天的观测数据量可达7.4 TB1 TB=1024 GB。 天籁计划 大型射电干预仪阵列一期96面天线的数据流量为4.8 GB/s, 二期1000面天线的数据流量为3.2 TB/s. 国际上, 大口径全天巡视望远镜LSST2021年投入运行后估计每晚可产生15 TB
3、的原始观测数据, 低频射电阵LOFAR每秒产生上百千兆字节的科学数据, 一平方千米天线阵SKA 整体运行后每秒钟收集的原始观测数据更是高达千万亿字节。 海量而复杂的图像、光谱、星表、时序等数据就像一个深邃的数字宇宙, 为天文学家提供了广阔的挖掘空间。 例如, 通过对收录着数十上百亿天体的多波段巡天数据库的融合来深切进入研究宇宙的大尺度构造和银河系的精细构造, 在海量数据中借助高级的数据挖掘手段发现稀有和新的天体类型, 在宇宙时标尺度上揭示类星体、星系和星系团的演化, 将大规模数值模拟结果与精细的观测数据进行比对分析等。天文数据是难得珍贵的科研资料, 是人类了解和研究宇宙奥秘的第一手素材。 在人
4、类探寻求索宇宙奥秘和本身起源强烈的好奇心驱使下, 随着科学和技术的不断进步, 十分是望远镜设计与制造技术、探测器设计与制造技术、信息与计算技术等的发展, 天文学已经进入海量数据时代, 或者讲 大数据 时代。 天文学研究成为一项以数据为中心, 为数据所驱动的科研活动。驱动这场变革的背后推手除了有不断丰富的数据, 还有互联网带来的便捷的数据访问和资源分享。当代天文数据库中蕴含的信息内容特别丰富, 档案研究和数据挖掘不仅仅是必要的而且是必需的。 大多数情况下, 数据的拥有者开掘的信息只是这些数据库科学价值的很小一部分。与此同时, 数值模拟不再仅仅仅是理论分析的一种辅助手段, 而变成研究很多复杂现象比
5、方宇宙大尺度构造的构成与演化、星系间的互相作用、恒星系统的构成主要乃至唯一的途径, 这些数值模拟程序也产生大量的数据。 换句话讲, 理论家不再仅仅是用公式来表示出自个的思想, 还有大量的数据。 实验观测和理论都在用大量的数据来推动人类知识的发展。 当代科学与传统科学无论是从量上还是从质上都发生了根本的变化, 成为一门数据驱动的科学, 这就是 第四范式 1. 基于数据的科学发现已成为继实验观测、理论分析、科学计算之后, 科学发展的另一个重要支柱。天文学是数据密集型科学的领头羊, 这主要归因于下面3个因素2. 首先, 天文学最早采用某种程度上是发展了当代数字探测器, 例如CCD和数字相干器, 并把
6、科学计算作为数据处理的手段, 把数值模拟作为一种科研工具。 国际天文学领域中e-Science的文化理念早在20世纪80年代, 在英特网WWW和商业数据库诞生之前, 就被培育起来。 天文数据集的体量从最初的千字节到兆字节, 20世纪80年代末发展到千兆字节, 90年代中期到万亿字节, 如今则是千万亿字节。 天文学家早在20世纪80年代初就设计了领域内通用的数据交换标准, 即FITS3.第二个重要的因素是美国宇航局NASA等空间机构为其空间科学计划建立起一批数据中心, 在一定的保卫期后把科学数据向全社会开放分享。 天文学家的这种做法不但推动了数据库和数据管理工具的发展, 也逐步培育出科学数据开放
7、分享和重复利用的科学文化。 这些数据中心成为今天虚拟天文台的发祥地和重要基础。第三个重要因素是大型数字巡天计划的出现并成为天文数据的主要来源。 利用照相底片做巡天观测, 通过扫描实现数字化, 这样的传统巡天工作在20世纪90年代便寿终正寝。 传统巡天计划造就了第一个万亿字节量级的天文数据集, 即数字化帕洛玛巡天DPOSS4. 这个记录很快便被斯隆数字巡天SDSS等纯数字的巡天计划打破5. 除了获得瞩目的科学成果, 当代数字巡天计划还改变了天文学的研究形式和天文学家的思维形式。 基于当代巡天数据库, 科研人员不依靠于望远镜也能做出漂亮的研究成果。 数字巡天时代的天文学发展不但需要天文学家的个人智
8、慧, 更需要大型科研团队的协同创新。数据密集型时代的天文学研究给天文学家和技术专家带来众多机遇的同时也带来非常多的挑战。数据密集型环境下, 天文学研究所需的资源不但包括数据和文献, 更是需要数据库、分布式存储、高性能计算、数据挖掘和知识发现工具、创新的可视化环境等。 不同波段、时刻、空间尺度的数据融合把这些挑战又提升到一个新的高度。 针对数据的采集、归档、管理、访问、处理、挖掘、展现, 这些科研活动环节, 在数据量不断增大、数据构造越来越复杂的大数据时代, 传统的方式和手段已不再适用和知足天文学研究的需求。2 虚拟天文台虚拟天文台就是要把天文学从老的数据贫乏的研究体制变革到新的数据极大丰富的研
9、究体制, 充分利用信息技术来解决新的、数据密集型天文学时代的挑战。虚拟天文台virtual observatory, VO6,7是通过先进的信息技术将全球范围内的天文研究资源无缝透明连结在一起构成的数据密集型网络化天文学研究和科普教育环境。 其将全球的天文数据库连接起来构成一个多波段的数字星空, 一个全球性的天文数据网格, 让科学家和普通用户能够基于数据发现、高效数据访问和互操作, 以各种创新的方式进行检索、展现和分析, 打造创新型的科学研究和资源使用环境。由各国虚拟天文台项目组成的国际虚拟天文台联盟简称IVOA致力于为实现数据的互操作制订有关的标准和规范, 使数据产品生成、管理和使用的各个环
10、节都在标准的框架下进行。 虚拟天文台的诞生消除了各个数据库系统访问标准不统一的问题, 使得星表数据穿插证认、异构图像和光谱数据的分析处理、多波段数据的可视化等以往棘手的工作可由程序和软件来完成。传统研究形式为人类留下了千兆字节量级的数据遗产, 巡天形式为人类留下了万亿字节量级的数据遗产, 虚拟天文台形式则把人类带入千万亿字节量级的数据密集型时代。 这3种形式并不是一种取代另一种, 而是同时存在于当代天文学研究活动中。中国虚拟天文台旨在完成国际虚拟天文台宏伟设想中的中国部分, 正在以国内核心天文观测设备的时间申请、审批, 数据汇交、分享、使用, 课题设计、开展为线索, 融合天文观测和科研活动所需
11、的科学数据、科技文献、高性能计算、软件和实用工具等资源, 打造一个物理上分散、逻辑上统一的网络化科学研究平台; 基于虚拟天文台技术和云计算技术实现一个全生命周期数据管理与开放分享平台8,9. 中国虚拟天文台是一个数据驱动的科研信息化环境,基于标准、完好、有质量保障的元数据和科学数据系统, 通过具备互操作能力的软件、工具和服务, 为天文学家等科学用户打造一个泛在融合的信息化科研新形式。 同时, 这是一个开放的平台, 通过标准的接口和协议与国际上的资源和服务实现无缝融合。3 天文信息学通过虚拟天文台连通起来的全球天文数据网格让天文数据的发现和访问变得空前便捷, 从理论上讲这至少能够适应下一代巡天和
12、空间计划的需求。但这只是万里长征迈出的第一步, 华而不实缺少的一个关键环节便是使用方便、适应性强、能够从海量数据集中提取信息和知识的工具库, 十分是那些能够在万亿字节量级数据集上开展数据挖掘和分析的工具。当前这方面的工作主要靠个别的研究小组以及一些天文台和巡天计划来开展。要全面应对海量科学数据时代天文学研究的挑战, 天文学家们需要更宽广的视野和长久的策略, 需要一个重要的新学科, 即天文信息学Astroinformatics。 天文信息学旨在为天文学和信息技术以及计算机应用科学搭建桥梁, 以基于VO框架建立起来的数据网格为基础, 为数据密集型天文学的研究者们提供一个更广阔的社区。虚拟天文台的核
13、心目的是制订一套完好的标准来实现对全球天文信息资源的发现、访问和互操作,这是天文信息学的基础和出发点。 为了应对数据密集型的天文学研究, 还需要更多系统性的研究和开发, 把计算和分析的科学工具应用到天文学领域, 从海量的数据中甄别出新的形式和新的发现。 天文信息学代表了数据密集型天文科学研究的一种新形式。它涵盖一系列内在互相关联的领域, 包括数据组织、数据描绘叙述、天文分类学、天文概念语义、数据挖掘、机器学习、可视化、天文统计学等。 研究的内容包括:数据模型、数据转换和归一化方式方法、索引技术、信息提取和整合方式方法、知识发现方式方法、基于内容和基于语境的信息呈现、一致化的语义描绘叙述、分类学
14、、天文本体论等。4 数据挖掘和知识发现随着数据密集型时代的到来, 天文学研究的形式正在从以往的小样本向着大数据形式转变, 从个人研究到团队协作转变。 海量的天文数据给天文学家带来宏大的机遇和挑战, 天文学研究越来越离不开大数据集的统计分析, 即数据挖掘和知识发现。大多数传统的数据分析方式方法都无法适应万亿字节量级或者高维度的数据, 必须开发和采用当代的数据挖掘和数据库知识发现技术10. 人工审查海量数据已无可能, 必须采用机器学习技术来自动化的完成这项工作。 当下大多数的数据挖掘工具固然能够应对较大的数据量但无法应对很高的数据维度,需要研究能适应当代海量复杂数据集的数据挖掘工具和方式方法。以新
15、一代概要巡天观测为代表的新兴观测手段让时域天文学获得长足发展, 同时带来很多新的需求和挑战11. 新一代概要式巡天能够实现对大面积天区的快速、屡次扫描, 进而产生很多倍于传统数字巡天的数据量。 新一代概要式巡天计划的施行把数据处理和分析的对象从海量数据集变为海量数据流,研究工作的复杂度进一步提升。 很多物理经过和事件持续的时间很短, 要求近乎实时地完成目的证认、特征提取、天体分类、随动观测优先级确定等工作。这与传统的数据处理和分析要求很不一样。 受限于可调动的观测资源, 概要式巡天计划探测到的暂现事件中只能有很小一部分能够得到随动观测。 现有的分类方式方法会被用来为这些暂现事件自动断定随动观测
16、优先级。 事件分类和可用资源都在动态地发生着变化。 前者归因于新的测量结果, 后者则遭到资源分配、天气、昼夜交替等多种因素的限制。 为能应对这些棘手的挑战, 必须通过创新的手段实现对海量数据流的鲁棒、灵敏、实时处理和挖掘。有效的可视化是数据探究、分析和理解的重要环节, 也是数据挖掘不可分割的一部分。 能够讲, 可视化是科学数据所蕴含的定量内容和对其直观理解的桥梁。 对不同波段、不同天区的精彩图片进行展现是天文学独特的优势, 但对高维参数空间的海量当代天文数据进行可视化仍然需要很多创新的手段和方式方法。 这是现代 大数据 科学所面临的一个共同挑战。人类的视觉感悟和形式辨别能力是很有限的。 把几个维度的数据通过一些技巧来呈如今一个伪3D的图像上还是能够接受的, 但当代科学数据集已经具有数百上千的维度。 可视化是制约数据密集型科学研究的关键瓶颈之一12.5 结论这是一个令人兴奋的时代。 新技术、新方式方法层出不穷, 天文学家随时都有可能从海量数据中获得新的发现。 探测器、传感器、高性能计算集群等快速积累着各种数据, 对网络、存储、计算等信息化基础设施提出几乎无穷尽的需求。 数据挖掘、知识发现、数据可视化专家需要不停地考虑怎样让研究工具愈加强壮。