《元数据与科学数据信息的组织及管理ehss.pptx》由会员分享,可在线阅读,更多相关《元数据与科学数据信息的组织及管理ehss.pptx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、元数据与科学数据信息的元数据与科学数据信息的 组织和管理组织和管理秦健美国雪城大学信息研究学院2004年数字图书馆前沿问题高级研讨班2023/5/231ADL2004 深圳提要科学数据信息资源的范围美国政府和民间利用元数据管理利用科学数据信息的做法科学数据信息元数据的标准下一步的计划2023/5/232ADL2004 深圳背景(1)伴随计算技术的发展产生了大量的科学观察和模拟数据专门学科领域的数据量以tens of terabytes 计,许多学科正在计划建造更大的数据库用于组织这些数据的概念及相关关系复杂性增加从这些数据库中抽取知识无异于一个巨大的挑战,必须动用最强的系统来应付这样的挑战20
2、23/5/233ADL2004 深圳本资料来源2023/5/234ADL2004 深圳背景(2)数字化图书馆、数据网格(data grids),及永久性档案一体化的发展国会图书馆国家数字化信息基础和保护计划(Library of Congress National Digital Information Infrastructure and Preservation Program)国家档案纪录管理局以数据格为基础的永久性档案样品 利用数据网格建立国家科学基金会科学数字化图书馆知识之间相互关系的产生、管理、及检索是信息技术面临的主要挑战2023/5/235ADL2004 深圳本资料来源2023
3、/5/236ADL2004 深圳The BIRN data grid2023/5/237ADL2004 深圳科学数据信息资源的范围观察模拟数据 Observation and simulation data分类术语表 Taxonomies数学表达式 Mathematical expressions分子、化学、基因表达式 Molecular,chemical,and genomic expressions结构、物理、计算模型 Structural,physical and computational models表格、图形、图表、地图、图片 Tables,graphs,charts,maps a
4、nd images实地与试验笔记 Field and laboratory notebooks图书及其它学术文献 Monographs and other scholarly documents述评 Critical reviews and discourse实用分类系统 Ontologies学术文献参考目录 Bibliographic references to scholarly literature2023/5/238ADL2004 深圳美国政府和民间利用元数据管理利用科学数据信息的做法(1)酝酿(1992-1994):政府机构牵头制定标准开发(1995-1998):研究实施对策将标准草
5、案推出,发动公众对标准草案提修改意见标准定稿,编制标准使用指南整合服务(1999-现在)通过建立元数据通道,整合分散的科学数据信息利用新的信息技术研究深层次组织科学数据信息提供服务的方法2023/5/239ADL2004 深圳美国政府和民间利用元数据管理利用科学数据信息的做法(2)2023/5/2310ADL2004 深圳美联邦科学联盟成员农业部商业部国防部教育部能源部公共卫生部内务部环境保护局国家航空航天部国家科学基金会 由CENDI支持协调2023/5/2311ADL2004 深圳目标为从事科学工作的公民,包括专业科学人员、学生、教师、工商业人士、及任何对科学有兴趣的公众,提供跨部门的检索
6、通道来查找和使用经过选取的权威性的美国政府有关科学技术的信息资源。2023/5/2312ADL2004 深圳美联邦科学联盟元数据通道(1)该元数据整合中心集结了各个学科领域的数据库,用户发一个检索指令,可以同时检索分布于全美国的科学数据信息2023/5/2313ADL2004 深圳美联邦科学联盟元数据通道(2)检索过程的界面:2023/5/2314ADL2004 深圳美联邦科学联盟的信息资源最主要的特点是信息的来源和权威性所收集的信息是有各部门的信息管理人员或图书馆员选取,而不是像商业网站的自动收集信息内容都产生于政府资助的研究开发项目或类似的有美国政府投入的活动 各部门负责对联邦科学联盟中属
7、于本部门的信息内容进行更新2023/5/2315ADL2004 深圳科学数据信息元数据的标准(1)2023/5/2316ADL2004 深圳科学数据信息元数据的标准(2)Biological Data Profile所有元素分成七大类:标识(Identification)数据质量(Data quality)空间数据组织(Spatial data organization)空间参照(Spatial reference)实体和特性信息(Entity and attribute information)发行(Distribution)元数据参考信息(Metadata reference)2023/5
8、/2317ADL2004 深圳科学数据信息元数据的标准(3)1.1引用文献信息1.2描述(文摘、目的、补充信息)1.3内容所涉及的时间1.4状态(进展、维护及更新1.5空间地理数据1.6关键词(主题、地点、层次、时间)1.7检索限制1.8使用限制1.9联系信息1.10 图片浏览1.11 数据集制作单位或人员1.12 安全信息1.13 原始数据集环境1.14 交叉参照1.15 分析工具(分析工具描述、工具检索信息、工具联系信息、工具有关文献)标识(Identification)类下的主要子类:2023/5/2318ADL2004 深圳科学数据信息元数据的标准(4)关键词是标识类的一个子类,共分主
9、题、地点、层次、时间四大块。主题时间层次地点2023/5/2319ADL2004 深圳科学数据信息元数据的标准(5)2.1特性准确性(特性准确性报告、计量特性准确性评估)2.2逻辑一致性报告2.3完整性报告2.4位置精确性(横向位置精确性报告、纵向位置精确性报告)2.5数据获取方法及有关文献(方法、来源、过程步骤)数据质量信息(Data quality)2023/5/2320ADL2004 深圳科学数据信息元数据的标准(6)5.1详细描述(特性名称、定义、定义来源,特性允许值范围、特性允许值的起始日期和终止日期、特性值的精确性信息)5.2综述性的描述(实体和特性综述、实体和特性细节的相关文献)
10、实体和特性信息(Entity and attribute information)2023/5/2321ADL2004 深圳科学数据信息元数据的标准(7)6.1发行者6.2资源描述6.3发行责任6.4标准订购过程(电子传送信息、电子传送方法、收费、定购须知、所需时间)6.5特别订购过程6.6技术要求6.7可订购时间信息发行信息(Distribution information)2023/5/2322ADL2004 深圳科学数据信息元数据的标准(8)7.1元数据日期7.2元数据复核日期7.3元数据未来复核日期7.4元数据联系信息7.5元数据标准名7.6元数据标准版本7.7元数据时间转换7.8元数
11、据检索限制7.9元数据使用限制7.10 元数据安全信息7.11 元数据扩展元数据参照信息(Metadata Reference Information)2023/5/2323ADL2004 深圳部分Biological Data Profile元素2023/5/2324ADL2004 深圳科学数据信息元数据的标准(8)小结:元数据标准的庞大和复杂性:对具体系统实施是一个巨大的挑战对元数据制作人员有较高的技能要求需要进行大量的培训工作检索:联邦科学联盟网站提供按学科的跨数据库检索,分散的站点提供精细专业浏览和检索2023/5/2325ADL2004 深圳科学联盟的下一步发展计划继续加入内容完善规范内容选择和编目指南审查评估目前的分类表开展与政府其它门户网站的连接接纳新的联盟成员开发支持性和能持久的资源2023/5/2326ADL2004 深圳经验与教训建立科学数据信息的元数据标准是一个复杂的过程,需要有一个核心工作委员会来主持、协调,制定政策、设计、及实施计划元数据标准的模式:线性元素结构不适合规模发展缺乏灵活性、可扩展性需要大量培训工作人员需要开发专用软件和程序来实施元数据规范词表的开发得到重视,并在元数据的可互操作性方面发挥作用(跨数据库检索)强调资源的有选择性权威性而忽略了跟踪新技术并利用新技术来解决现有标准和系统的问题2023/5/2327ADL2004 深圳