第四讲元数据课件.ppt

上传人:飞****2 文档编号:69344175 上传时间:2023-01-02 格式:PPT 页数:136 大小:10.11MB
返回 下载 相关 举报
第四讲元数据课件.ppt_第1页
第1页 / 共136页
第四讲元数据课件.ppt_第2页
第2页 / 共136页
点击查看更多>>
资源描述

《第四讲元数据课件.ppt》由会员分享,可在线阅读,更多相关《第四讲元数据课件.ppt(136页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四讲 元数据1/1/20231信息管理系 元数据(MetaData),就是“描述数据的数据”或“关于数据的结构化数据”。哈佛大学数字图书馆项目定义:元数据是帮助查找、存取、使用和管理信息资源的信息。一、元数据概念1/1/20232信息管理系具体:元数据是用来描述数据本身的内容特征和其它特征的数据,目地是加强对网络信息资源的发现、识别、开发、组织和评价,而且对相关的信息资源进行选择、定位、调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。1/1/20233信息管理系例如:文献信息资源,元数据可以是目录、索引、摘要及主题等文献特征和属性。从元数据的提供者角度来看,元数据能

2、改进针对文档的检索能力,特别是搜索的精确度、以及对资源的控制和管理问题。对于电子文档所存在的格式和控制方法多样性问题,元数据能支持用户决策过程。1/1/20234信息管理系DL信息体系结构1/1/20235信息管理系元数据是关于数据的数据(data about data),此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。元数据是关于数据的结构化的数据(structured data about data)。1/1/20236信息管理系元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。元数据是对信息包(Information package)的

3、编码描述,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择而无需检索大量不相关的全文文本。1/1/20237信息管理系元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检索。1/1/20238信息管理系应用于不同领域的应用于不同领域的Metadata格式格式 网络资源网络资源:DublicCore、ROADSTemplate、CDF(ChannelDefinitionFormat)、WebCollections文献资料文献资料文献资料文献资料:MARC(with856Field),DublicCore人文

4、科学人文科学人文科学人文科学:TEIHeader(TextEncodingInitiativeHeader)社会科学数据集社会科学数据集社会科学数据集社会科学数据集:ICPSRSGMLCodebook(Inter-universityConsortiumforPoliticalandSocialResearch)博物馆与艺术作品博物馆与艺术作品博物馆与艺术作品博物馆与艺术作品:CIMI(ComputerInterchangeofMuseumInformation)、CDWA(CategoriesfortheDescriptionofWorksofArts)、RLG REACH Element

5、Set.1/1/20239信息管理系n n视觉资料视觉资料:VRA(Visual Resources Association)Core Categories for Visual Resourcesn n音乐资料音乐资料:SMDL(Standard Music Description Language)n n政府信息政府信息:GILS(Government Information Locator Service)n n地理空间信息:地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital

6、Geospatial Metadata)1/1/202310信息管理系n n数字图像:数字图像:MOA2metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Imagesn n档案库与资源集合档案库与资源集合:EAD(Encoding Archival Description)n n技术报告技术报告:RFC1807:A format for Bibliographic Recordsn nFTP文件和文件和FTP文件库文件库:IAFA Templates(Internet

7、 Anonymous FTP Archives Templates)n n连续图像连续图像:MPEG-71/1/202311信息管理系二、元数据的目的1/1/202312信息管理系1/1/202313信息管理系1/1/202314信息管理系1/1/202315信息管理系三、元数据结构1/1/202316信息管理系1/1/202317信息管理系1/1/202318信息管理系1/1/202319信息管理系1/1/202320信息管理系3 语义结构:1/1/202321信息管理系1/1/202322信息管理系1/1/202323信息管理系1/1/202324信息管理系1/1/202325信息管理系1

8、/1/202326信息管理系1/1/202327信息管理系1/1/202328信息管理系1/1/202329信息管理系资源描述框架资源描述框架(Resource Description Framework)数据描述模式而且采用基于数据描述模式而且采用基于 XML的句法的句法提供语义、结构、句法三个层次的互操作能力提供语义、结构、句法三个层次的互操作能力模块化的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用。对集成这些元数据非常有用。四、元数据描述框架四、元数据描述框架RDF1/1/202330信息管理系RDF是

9、一个与任何特定语法无关的抽象的资是一个与任何特定语法无关的抽象的资源源表达模表达模式,用来反映资源(式,用来反映资源(Resource)、)、属性(属性(Property)与属与属性值(性值(Value)资源资源resource属性属性property属性值属性值value语句语句statement1/1/202331信息管理系换言之换言之“张三是由以下网址所标识的资源的作者:张三是由以下网址所标识的资源的作者:http:/ 作者作者author张三张三1/1/202332信息管理系http:/ 作者作者author张三张三 张三张三 RDF基于XML的描述实例:RDF描述实例1/1/2023

10、33信息管理系http:/ Core基于基于RDF的描述:的描述:张三张三 基于RDF的DC描述实例1/1/202334信息管理系1)http:/www.w3.org/1999/02/22-rdf-syntax-ns#RDF标准申明2)dc=http:/purl.org/dc/elements/1.0/DC标准申明Notes:1/1/202335信息管理系五、元数据种类 由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不一样,因此现在有多种描述网络数字资源的元数据格式,到目前为止还没有出现成熟的统一格式。两种:Marc、D

11、C1/1/202336信息管理系1 MARC(Machine-Readable Catalogue)元数据元数据 机读目录格式MARC 是图书情报领域广泛应用的标准格式,国际通用的MARC 标准为USMARC和UNIMARC标准。我国的MARC 标准(CNMARC)是在UNIMARC 标准的基础上加以补充规定形成的。由于多语种图书文献的存在,目前我国的机读书目数据实际上是以CNMARC 和US-MARC为主,其他MARC格式为辅的现状。1/1/202337信息管理系MARC 格式可由四个部分组成,其中记录头标区固定为24 个字符长,为记录处理提供基本参数。地址目次区由若干目次项组成,每个目次项

12、为定长12 个字符,标识某MARC 字段在整个MARC 流中的位置。数据字段区由一些可变长的数据字段组成,除了001 字段和005 字段由数据和一个字段分隔符组成外,其余每个字段都有两个指示符,后接若干子字段。1/1/202338信息管理系整个MARC 数据流经检测有效才能成为书目数据库的正式书目数据。MARC 元数据格式主要用于描述图书文献资源。1/1/202339信息管理系MARC 局限性:(1)MARC 描述手段往往只适用于图书馆;(2)MARC 需要在专门的软件系统中使用,而且不太适应互联网的环境;(3)修订程序相当复杂,而且非常缓慢;(4)适用于完整的、静止的信息内容的处理,不易处理

13、动态的多媒体信息;(5)编制一条机读目录不仅需要经过严格的专门训练,而且需要花一定的时间。1/1/202340信息管理系 2、DC 元数据简介元数据简介 1995 年3 月,在美国俄亥俄州的都柏林召开的第一届元数据研讨会上,52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。经过与会代表的商讨和辩论,产生了一个精简的元数据集都柏林核心元素集(Dublin Core Elem ent Set),简称都柏林核心(DC)。

14、1/1/202341信息管理系 DC由15 个基本元素构成。由于它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能,能较好地解决网络资源的发现、控制和管理问题,使它成为一个较好的网络资源描述元数据集,已经成为美国国家标准,并正在逐步成为世界公认的标准。1/1/202342信息管理系DC产生与发展届次举办时间主办国举办地主办组织DC11995.3美国美国Dublin,OhioOCLC、NCSADC21996.4英国英国WarwickOCLC、UKOLNDC31996.9美国美国Dublin,OhioOCLC、CNIDC41997.3澳大利亚澳大利亚CanberraOCLC、DSTC、

15、NLADC51997.10芬兰芬兰HelsinkiOCLC、NLFDC61998.11美国美国Washington D.C.OCLC、TLCDC71999.10德国德国FrankfurtOCLCDC82000.10加拿大加拿大OttawaOCLC、CNI、IFLADC92001.10日本日本TokyoOCLC、NII、JSTDC20022002.10意大利意大利FlorenceOCLCDC20032003.9美国美国西雅图西雅图OCLC1/1/202343信息管理系1)、DC元数据的类型1/1/202344信息管理系2)详细描述1/1/202345信息管理系1/1/202346信息管理系1/1

16、/202347信息管理系1/1/202348信息管理系1/1/202349信息管理系1/1/202350信息管理系1/1/202351信息管理系1/1/202352信息管理系3)DC 修饰词(分为两类):(1)元素的进一步限制 该类修饰词使元素的含义更为狭窄或专指,进一步限定的元素继承了未限定元素的外延,便具有更为严格的内涵。如果使用者不明白经过进一步限定的术语的特指含义,可以忽略修饰词,直接将它作为未修饰的元数据元素来理解。用于修饰元素的进一步限定的定义应该可以方便的得到。1/1/202353信息管理系元素 限定属性 说明Title Alternative 替代标题Creater 暂无限制属

17、性1/1/202354信息管理系1/1/202355信息管理系元素 限定属性 说明Subject LCSH 国会图书馆主题词表*MeSH 国家医学图书馆主题词表*DDC 杜威十进分类表*LCC 国会图书馆分类表*UDC 国际十进分类表*1/1/202356信息管理系1/1/202357信息管理系元素 限定属性 说明Description tableOfContents 目次 Abstract 文摘Publisher 暂无限制属性1/1/202358信息管理系1/1/202359信息管理系1/1/202360信息管理系1/1/202361信息管理系1/1/202362信息管理系元素 限定属性 说

18、明Contributor 暂无限制词Date Created 制作日期 Valid 有效日期 Available 可获得日期 Issued 发表日期 Modified 修改日期 DCMI Period DCMI日期编码*W3C-DTF W3C-DTF日期编码*1/1/202363信息管理系1/1/202364信息管理系元素 限定属性 说明Type DCMIType DCMI资源类别编码*1/1/202365信息管理系1/1/202366信息管理系元素 限定属性 说明Format Extent 资源范围 Medium 物理载体 IMT internet 资源格式*1/1/202367信息管理系1

19、/1/202368信息管理系1/1/202369信息管理系1/1/202370信息管理系1/1/202371信息管理系1/1/202372信息管理系1/1/202373信息管理系1/1/202374信息管理系元素 限定属性 说明Identifier URI 资源唯一标识符号*1/1/202375信息管理系1/1/202376信息管理系1/1/202377信息管理系元素 限定属性 说明Source 暂无限制词Language ISO 639-2 ISO 639-2 语种代码*RFC 1766 RFC 1766语种代码*1/1/202378信息管理系1/1/202379信息管理系1/1/20238

20、0信息管理系元素 限定属性 说明Relation IsVersionOf 是另一种资源的一个版本 HasVersion 有其他资源作为其他版本 IsreplacedBy 被另一资源取代 RePlaces 取代另一资源 IsRequiredBy 被另一资源所需要 Requires 需要一资源 IsPartOf 是另一资源的一部分 HasPart 有另一资源作为一部分 IsReferencedBy 被另一资源所参见1/1/202381信息管理系元素 限定属性 说明Relation References 参见另一资源 IsFormatOf 是另一资源的另一格式 HasFormat 有另外格式 URI

21、 使用URI描述关联资源*1/1/202382信息管理系1/1/202383信息管理系1/1/202384信息管理系1/1/202385信息管理系1/1/202386信息管理系1/1/202387信息管理系1/1/202388信息管理系1/1/202389信息管理系1/1/202390信息管理系1/1/202391信息管理系1/1/202392信息管理系1/1/202393信息管理系1/1/202394信息管理系1/1/202395信息管理系1/1/202396信息管理系1/1/202397信息管理系1/1/202398信息管理系1/1/202399信息管理系1/1/2023100信息管理系1

22、/1/2023101信息管理系1/1/2023102信息管理系1/1/2023103信息管理系1/1/2023104信息管理系1/1/2023105信息管理系1/1/2023106信息管理系元素 限定属性 说明Rights 暂无限制词1/1/2023107信息管理系元素 限定属性 说明Coverage Spatial 空间范围 DCMI Point DCMI空间坐标系统*ISO 3166 ISO3166国家名称代码*DCMI Box DCMI 地理区限描述体系*TGN Getty地理名称叙词表*temporal 时间范围 DCMI Period DCMI时期体系*W3C-DTF W3C-DTF

23、 时间编码体系*1/1/2023108信息管理系1/1/2023109信息管理系1/1/2023110信息管理系1/1/2023111信息管理系1/1/2023112信息管理系1/1/2023113信息管理系(2)编码体系 该类修饰词说明元素值所属的编码体系,以帮助理解值的含义。采用来自控制词表的表征符号(例如分类法主题词标中的术语)具有特定意义,或以一定形式组成的字符串表示正规的符号。如果一种编码体系无法被客户机或代理所理解,它的值仍能被人类所理解。用于修饰的编码体系必须有清晰明确的说明,并能够方便的得到.1/1/2023114信息管理系DCMI自己的编码规则:1/1/2023115信息管理

24、系1/1/2023116信息管理系1/1/2023117信息管理系1/1/2023118信息管理系1/1/2023119信息管理系4)、DC 的作用是:(1)支持简单而含有信息量的元数据,以满足广大用户和群体的需要。(2)提供一个共享语义学标准,使得用各种不同规则编目的元数据可以直接交换。1/1/2023120信息管理系1)简单性。)简单性。DC 是非专业层面提出来的是非专业层面提出来的,其目的是为网页制其目的是为网页制作者提供一种网络信息的著录格式作者提供一种网络信息的著录格式,以供用户查找以供用户查找与定位所需信息。与传统的目录卡片及与定位所需信息。与传统的目录卡片及MARC格式格式相比相

25、比,DC 简单。简单。2)灵活性。)灵活性。DC 的每一著录项目都是可以选择的的每一著录项目都是可以选择的,也是可以也是可以重复的。网络制作人员可以根据网页的内容与特征重复的。网络制作人员可以根据网页的内容与特征选择需要项目选择需要项目,允许不同专业团体根据专业要求对允许不同专业团体根据专业要求对其进行调整。其进行调整。5)DC特点:1/1/2023121信息管理系3)扩展性。)扩展性。DC 的整个框架是可以扩展的的整个框架是可以扩展的,每个标记每个标记元素均可重复使用或有选择地使用。允许在元素均可重复使用或有选择地使用。允许在原有的基础上原有的基础上,加上更精确的语义及结构加上更精确的语义及

26、结构,对对信息资源进行更详细的描述。因此信息资源进行更详细的描述。因此,既能兼既能兼容其它元数据容其它元数据,又能不断修正和发展。又能不断修正和发展。4)国际通用性。)国际通用性。DC 已有英语、德语、日语、葡语、西已有英语、德语、日语、葡语、西语等到语等到10 余种不同语种的版本。余种不同语种的版本。1/1/2023122信息管理系5)互操作性。)互操作性。通过对通过对DC 的应用的应用,明确使用中的修饰元明确使用中的修饰元素素,并明确特定环境中的一系列修饰的值并明确特定环境中的一系列修饰的值,有有助于提高元数据的互操作性助于提高元数据的互操作性,便于交换与检便于交换与检索。索。1/1/20

27、23123信息管理系DC标记实例标记实例1、基于、基于HTML的的DC元元数据标记数据标记1/1/2023124信息管理系1/1/2023125信息管理系2、XML标记1/1/2023126信息管理系1/1/2023127信息管理系1/1/2023128信息管理系1/1/2023129信息管理系Notes:1/1/2023130信息管理系DC与MARC比较1/1/2023131信息管理系MARC与DC比较1/1/2023132信息管理系DC与图书馆编目数据的区别与图书馆编目数据的区别 创建者不同创建者不同元元元元数数数数据据据据的的制制作作者者的的范范围围比比较较广广泛泛,包包括括内内容容提提

28、供供者者,即即作作者者、出出版版发发行行者者等等,而而且且这这些些人人员员不不需需要要经过专业培训。经过专业培训。编编编编目目目目数数数数据据据据的的制制作作者者则则是是经经过过专专门门培培训训的的图图书书馆馆编编目目人员。人员。可靠程度不同可靠程度不同编编编编目目目目数数数数据据据据使使用用受受控控词词表表和和规规范范控控制制来来增增强强用用户户发发现现资源的能力,对原始数据进行了增值处理。资源的能力,对原始数据进行了增值处理。DCDC元元元元数数数数据据据据没没有有建建立立规规则则和和过过程程来来控控制制数数据据元元素素的的内容内容,且所有元素都是可选的。且所有元素都是可选的。元数据的可靠

29、性低于编目数据。元数据的可靠性低于编目数据。1/1/2023133信息管理系知识检索有效度不同知识检索有效度不同元元元元数数数数据据据据整整体体框框架架简简洁洁明明了了,主主要要由由15个个核核心心元元素素构成,只能大略反映资源状况。构成,只能大略反映资源状况。编编编编目目目目数数数数据据据据一一直直追追求求著著录录完完整整、详详尽尽,对对著著录录源源的的描描述述更更为丰富。为丰富。编目数据的知识检索有效度比元数据高。编目数据的知识检索有效度比元数据高。适应对象不同适应对象不同元元元元数数数数据据据据是是用用来来描描述述网网络络信信息息资资源源的的,是是分分布布式式的的,具有严格的格式化特征。具有严格的格式化特征。编目数据编目数据编目数据编目数据则是基于传统的印刷型文献的。则是基于传统的印刷型文献的。标准化程度不同标准化程度不同元数据元数据元数据元数据标准目前仍处在不断发展研究之中标准目前仍处在不断发展研究之中编编编编目目目目数数数数据据据据的的标标准准化化发发展展已已相相对对成成熟熟,它它遵遵循循已已被被接接受受的的规则和国家标准。规则和国家标准。1/1/2023134信息管理系参考资料 网上资源:中国数字图书馆标准与规范建设1/1/2023135信息管理系END1/1/2023136信息管理系

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁