《欧美国家图书馆书目数据关联化案例研究_邹美辰.docx》由会员分享,可在线阅读,更多相关《欧美国家图书馆书目数据关联化案例研究_邹美辰.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信 息管理与信息学 61 欧美国家图书馆书目数据关联化案例研究 邹美辰 1,2,胡 瀛 2 ( 1 中国科学院大学; 2 中国科学院文献情报中心) 摘 要:针对当前我国图书馆对书目关联化的研究不够深入、广泛的问题,剖析欧美国家图书馆书目数据关联 化的 9 个典型案例,总结其特点与不足,以期提高我国图书馆对书目数据关联化的关注度,促进我国图书馆的 书目数据关联化进程。采用网站调研法、案例分析法和对比分析法,详细分析欧美国家图书馆书目数据关联化 的数据来源、数据规模、数据模型、发布格式和许可协议等内容。 总结欧美国家图书馆书目数据关联化的成效 与不足之处,并针对我国图书馆的书目数据关联化提供可行性
2、建议。 关键词:书目数据;关联数据;数据发布;数据模型 中图分类号: G254.3 文献标志码: A 文章编号: 1005 8214( 2016) 11 0061 06 Research on Bibliographic Data Association of National Libraries in Europe and America Zou Mei- chen, Hu Ying Abstract: In viewof solving existing problems of domestic research on bibliographic data association in d
3、omestic libraries such as not in- depth and broad, this article analyzes 9 typical cases of national libraries in Europe and America to improve the attention degree and promote the process of bibliographic data association in domestic libraries. Applying the methods of website research, case analysi
4、s and comparative analysis, this article makes a detailed analysis on some issues of bibliographic data association of national libraries in Europe and America. Meanwhile, it summarizes their achievements and deficiencies to provide feasible sug- gestions for domestic libraries. Keywords: Bibliograp
5、hic Data; Linked Data; Data Dissemination; Data Model 1 引言 书目数据是图书馆领域最具价值的信息资源之 一,是图书馆服务的基础和核心,也是连接用户和图 书馆的桥梁 。 传统的书目数据一直是图书馆的内部独 立资源,大部分采用面向数值的机器可读目录 ( Ma- chine Readable Cataloguing, MARC) 格 式 进 行 编 目 , 即将所有的对象和属性值当作文字看待 。 随着网络环 境的变化,用户对于书目数据的需求开始发生转变, 用户希望通过书目数据获取更加丰富的信息,也希望 通过搜索引擎发现和获取书目数据 。 201
6、0 年联机计算 机图书馆中 心 ( Online Computer Library Center, O- CLC) 的研究报告显示,在数字化网络环境中,信息 消费者的检索起点大部分为搜索引擎,图书馆网站的 占比很低 。 1 因此,书目数据急需打破自身的资源壁 垒,摆脱信息孤岛的束缚,融入更加广阔的网络环境 中,更多的被搜索引擎索引,提升资源的利用率 。 针 对上述情况 , 图书馆 界 开 始寻求新的技术手段 和 解 决 方 案 。 2006 年 , “ 万 维 网 之 父 ” Tim Bern- ers- Lee 提出关联数据的概念,即构建数据之间的关 联,形成一个能被计算机理解的数据网络,从
7、而将现 存的信息孤岛整合成一个巨大数据库 。 2 这一概念的 提出为书目数据的发展提供了新的契机,将书目数据 发布为关联数据,实现书目数据关联化已经成为各个 图书馆打破资源壁垒的共识 。 书目数据关联化之所以 能够实现与其他资源的关联,其根本在于从面向数值 到面向对象的思想转变,即将所有的对象和属性值当 作实体看待,构建实体之间的关联 。 本文选取了欧美 国家图书馆书目数据关联化的若干案例进行研究与分 析,并阐述其对我国图书馆书目数据关联化的启示 。 2 欧美国家图书馆书目数据关联化的现状 欧美国家图书馆一直关注书目数据关联化的相关 研究 。 2008 年,瑞典国家图书馆首次将书目数据发布 为
8、关联数据,是世界上第一个被整体发布为关联数据 的联合目录,并且建立了与 DBpedia 和美国国会图书 馆 主 题 词 表 ( Library of Congress Subject Headings, LCSH) 之间的连接,标志着书目数据开始真正融入网 信 息管理与信息学 622 络环境中 。 3 2010 年 5 月, W3C 成立了图书馆关联数 据孵化小组,推动了关联数据在图书馆领域的发展, 提升了数据的互操作性 。 4 2010 年后,书目数据关联 化达到高潮,欧美各国的国家图书馆纷纷开始进行书 目数据关联化实践 。 笔者以 datahub 5 数据中心为主 要调查对象,结合最新的检
9、索结果和欧美国家图书馆 网站调研结果可知,欧美共有 8 个国家图书馆实现了 书目数据关联化 (分别为瑞典 、 匈牙利 、 西班牙 、 英 国 、 法国 、 意大利 、 德国和俄罗斯) 。 本文选取了 9 个典型案例进行剖析,其书目数据关联化情况统计如 表 1 所示 。 OCLC 和欧盟数字图书馆虽然不是国家图 书馆,但属于欧美十分重要的图书情报机构,其书目 数据关联化具有一定的代表性 。 表 1 典型案例的书目数据关联化情况统计 机构名称 关联书目数据集 发布时间 瑞典国家图书馆 LIBRIS3 2008 年 匈牙利国家图书馆 Hungarian National Library (NSZL)
10、 catalog 6 2010 年 4 月 西班牙国家图书馆 datos.bne.es 7 2011 年 4 月 大英图书馆 British National Bibliography(BNB) 8 2011 年 7 月 法国国家图书馆 data.bnf.fr 9 2011 年 7 月 意大利众议院图书馆 Bibliography of the Italian Parliament and Electoral Studies(BPR)102011 年 德国国家图书馆 Deutsche Nationalbibliografie(DNB) 11 2012 年 1 月 欧盟数字图书馆 data.eu
11、ropeana.eu 12 2012 年 2 月 OCLC WorldCat 13 2012 年 6 月 3 欧美国家图书馆书目数据关联化的分析 3.1 数据来源与规模 实现书目数据关联化,首先需要考虑的就是书目 数据的来源,图书馆在选择数据来源时需要思考两个 问题:一是要进行关联化的数据类型,二是要进行关 联化的数据比例 。 数据类型决定了后续实体及实体属 性的构建,当前的书目数据类型除了书籍 、 期刊等传 统类型外,还包括地图 、 乐谱 、 音频和视频等新兴类 型 。 数据比例则关系着该机构进行书目数据关联化的 目的,是实施一项实验性工作,还是提供实质性的用 户服务 。 经过调研,欧美国家
12、图书馆的书目数据来源 与规模如表 2 所示 。 由表 2 看出,欧美国家图书馆在书目数据关联化 过程中,其数据类型是十分多元的,大部分都同时涵 盖传统和新兴类型 。 在数据比例上,除欧盟数字图书 馆外,其他机构都选择将其内部的全部书目数据进行 关联化,表明其目的大多着眼于提供实质性的用户服 务,在其网站上都有相应的用户服务界面 。 欧盟数字 图书馆只选择一部分数据进行关联化的原因在于有一 些数据提供者不愿意将数据公开,因此只能进行部分 关联化 。 12 此外,有些国家在书目数据关联化过程 中,还将自身的主题词表和规范文档也一同进行了关 联 数 据 化 。 例 如 , 法 国 国 家 图书馆的主
13、题词表 RAMEAU,德国国家图书馆的人名 、 机构和主题规范 文档 GND,以及 OCLC 的虚拟国际规范文档 VIAF 等 。 其次要考虑的就是数据规模,它关系着存储技术 方案的选择 。 原先一般采用书目记录的条数作为图书 馆数据规模的定量指标,但由于现在转换为 RDF 形 式,因此大多采用 Triple 的条数来反映数据规模 。 一 条 Triple 代表书目数据的一条描述,书目数据的数量 越多,描述得越详尽,产生的 Triple 越多 。 由表 2 可 以看出,各机构的数据规模基本都在千万级以上 。 表 2 欧美国家图书馆的书目数据来源与规模 关联书目数据集 数据来源 数据规模 ( T
14、riple) LIBRIS 瑞典联合目录 175 个成员馆的全部 600 万条书目数 据。 14 5000 万 NSZL catalog 匈 牙 利 国 家 图 书 馆 的 整 个 联 机 公 共 检 索 目 录 ( OPAC) 和数字图书馆。 151930 万 datos.bne.es 西班牙国家图书馆的全部超过 400 万条书目资源 包括现代和古代的书籍、电子资源、手稿、期刊 地图、蚀刻画、照片、印刷乐谱以及音频和视听材 料。 16 , 、 5805 万 BNB 大英图书馆的整个英国国家书目,大概 300 万条记 录,包括 1950 年至今的全部出版物。 179648 万 data.bnf
15、.fr 法国国家图书馆的出版物总目录、档案手稿目录以 及 Gallica 数字图书馆,包括几个世纪以来收集到 的 3000 万条记录。出版物总目录中的资源包括音 乐作品、连续出版物和表演等。 18 14377 万 BPR 有关意大利议会和选举历史的期刊文章、书籍及相 应参考书目所在的整个数据库。 1037 万 DNB 德国国家图书馆主要馆藏的全部书目数据 (除印刷 乐谱) 以及德国联合期刊目录中的连续出版物 (杂 志、报纸和期刊)。 11 20142 万 data.europeana.eu 欧盟数字图书馆愿意进行公开的数据集,包括有关 文本、图像、视频和音频的 2000 万条记录。 19117
16、00 万 WorldCat WoldCat 的全部书目数据 (书籍、期刊和其他书目 资源),共 1.97 亿条记录。 20无统计信息 3.2 关联数据模型 3.2.1 实体抽取 书目数据的原始格式大多为一维线性的 MARC 格 式,包含标识项 、 题名与责任者项 、 主题信息项和附 注项等,采用面向数值的思想,信息对象为一条记录 。 但随着网络环境的变化,信息对象越来越细小,从记 录逐步发展为数据,需要更具结构化的组织方式 。 实 体抽取的本质就是从面向数值到面向对象的思想转变, 即根据书目数据的特点从 MARC 记录中抽取不同类型 的实体,将对象和属性值当做实体看待 。 欧美国家图 书馆的书
17、目数据实体类型如表 3 所示 。 由表 3 看出,欧美国家图书馆的书目数据实体抽 取可以分为三大类 。 第一类是根据已有模型进行实体 抽取 。 例如瑞典 、 匈牙利 、 西班牙和法国都是根据 信 息管理与信息学 63 表 3 欧美国家图书馆的书目数据实体类型 、 , FRBR 模型,而 OCLC 则以 Schema.org 为基础模型 。 这 些国家采用已有模型的原因有两点:一是这些模型由 权威机构发布,并且经过实践验证具有可行性;二是 这些模型与其书目数据的特点相契合,符合自身需求 。 下面笔者将以法国国家图书馆为例进行具体分 析 。 法国国家图书馆于 2010 年 11 月正式启动 dat
18、a. bnf.fr 项目,其目标是提升其内部数据在网络上的影 响力, 并发布到关联开放数据 ( Linked Open Data, LOD) 云图中供大家获取和使用 。 该项目根据 FRBR 模型进行实体抽取,实体类型共分为三大类,分别为 作 品 ( frbr:Work、 frbr:Expression、 frbr:Manifestation) 、 责任者 ( foaf:person、 foaf:Organization) 和主题 ( skos: 的最新报告中明确指出要重新建立一个基于 FRBR 的 实体模型 。 意大利没有采用已有模型的原因则是其数 据类型比较特殊,重新设计可以更好地定义实体
19、间的 关系 。 而欧盟则是由于其目标是将全欧洲的图书馆馆 藏聚合起来,涉及的问题比较复杂,已有模型无法满 足其需求 。 以大英图书馆为例进行具体分析 。 2011 年 7 月, 大英图书馆提出要将英国国家书目 ( British National Bibliography, BNB) 发布为关联数据,并开放到 LOD 云图中 。 大英图书馆之所以作出这样的决定,有两点 原因:首先,从 2009 年起英国政府就承诺开放公共 数据,以达到广泛使用的目的, BNB 的关联数据化正 好可以作为大英图书馆对于此项承诺的回应;其次, 大英图书馆希望在关联数据化的过程中受益,成为关 联数据浪潮中的一部分 。
20、 17 大英图书馆针对图书和连 续出版物抽取了不同的实体类型,以图书为例其实体 类型可以划分为四大部分,分别为出版事件 、 主题 、 责任者和其他 。 出版事件包括出版事件类以及与其相 关的主体类 、 空间类和时间类,其中出版事件类是事 件类的子类,出版开始事件类和出版结束事件类是出 版事件类的子类 。 主题包括七大类,概念类 、 LCSH 主题类 、 人名概念类 、 家族概念类 、 机构概念类 、 DDC 主题类和地点概念类,其中概念类是其他六类的 父类 。 责任者包括人名类 、 机构类 、 出生日期类和死 亡日期类 。 其他则包含标识符 、 题名 、 语言和附注类 等 。 虽然大英图书馆根
21、据实体类型构建了相应的模 型,但只是将现有的 MARC 书目记录直接转化为 RDF 格式,其本质的内容描述规则没有改变 。 第三类则是直接在 MARC 格式的基础上进行转 化 。 例如, 德国国家图书馆就是直接进行 MARC21 Concep) t , 并 通 过 dc:contributor、 foaf:focus、 rdarela- 字段到词表属性的映射,没有改变其本质的内容描 tionships:expressionOfWork 等 属性实现了实体间的 关 联 。 为了扩展书目数据的内容,法国国家图书馆还建 立了与外部数据集的连接,包括法国研究图书馆联合 目录 SUDOC、 法国联合目录
22、 CCFR、 OCLC 的在线编 目联合目录 WorldCat、 欧盟数字图书馆 data.europeana. eu 和 DBpedia 等 。 该项目于 2011 年 7 月正式开通网 上服务,并获得了斯坦福图书馆研究创新奖 ( Stanford Prize for Innovation in Research Libraries, SPIRL)。 18 第二类是机构自行抽取 。 例如英国 、 意大利和欧 盟都是根据书目数据特点自行抽取,并构建了相应的 模型 。 英国没有采用 FRBR 模型的原因是当时的设计 者认为 FRBR 是一个过于复杂的模型 , 17 但在其网站 述规则 。 MAR
23、C21 字段可以被划分为题名信息 、 责 任者信息 、 出版信息 、 标识信息 、 丛书系列信息和 语言信息等 。 以题名信息为例,其映射情况见表 4。 表 4 德国国家图书馆题名信息映射表 27 MARC21 字段 MARC21 子字段 RDF 245 题名与责任说明 $a dc:title 245 题名与责任说明 $b、 $n、 $p rdau:P60493 130 主 要 款 目 统 一 题名 $a dcterms:alternative 240 统一题名 $a dcterms:alternative 210 缩略题名 $a bibo:shortTitle 246 变异题名 第二指示符为
24、 1 $a dcterms:alternative 3.2.2 实体命名 实体命名就是为每个实体赋予一个永久标识符, 关联书目数据集 实体类型 LIBRIS 根 据 FRBR 模 型 , 包 括 作 品 ( Work) 、 人 ( Person) 、 概 念 ( Concep)t 和机构 ( Organization) 四大类。 14NSZL catalog 参照 LIBRIS 的实体类型 。 15 datos.bne.es 根据 FRBR 模型,包括人 ( Person) 、团 体 ( Corporate Entity) 、作 品 ( Work) 和主题 ( Subjec)t 四大类 。 2
25、1BNB 自行抽取,并针对图书和连续出版物构建了不同的模 型,包含主 题 ( Subjects) 、出版事 件 ( Publication Events) 、责 任 者 ( Autho)r 、 题 名 ( Title) 、 标 识 符 ( Identifiers) 、 各 种 类 型 值 ( Miscellaneous literals) 和丛 编 ( Series) / 书目关 系 ( Bibliographic Relationships) 七大类。 22,23 data.bnf.fr 根 据 FRBR 模 型 , 包 括 作 品 ( Work) : Work、 Expression Ma
26、nifestation;责任 者 ( Autho)r : Author、 Person、 Organization; 主 题 ( Subjec)t : Concept 三大类。 24 BPR 自行抽取,并构 建了意大利众议院本 体 ( Ontology of the Chamber of Deputies, OCD) 。 25DNB 直接 将 MARC 格式的书目数据转化 为 RDF 格式,只有一个作品实 体。 data.europeana.eu 自行抽取,并构 建了欧洲数据模 型 ( Europeana Data Model, EDM) 包 括 edm:ProvidedCHO、 edm:We
27、bResource 和 ore:Aggregation 三个 核 心类,分别代表被描述的对象本身、被描述对象的数 字表现形式 和 提供商所提供资源的集合。 26 WorldCat 根 据 Schema.org 模型,包括作 品 ( Work) 、地 点 ( Place) 、 概 念 ( Concep)t 、 人 ( Person) 、机 构 ( Organization) 和事 件 ( Even)t 六 大类。 20 信 息管理与信息学 6644 即 URI。 URI 比较通用的结构为: /,欧美国家图书馆的书目数据 URI 格式如表 5 所示,基地址用粗体标出 。 表 5 欧美国家图书馆的书
28、目数据 URI 格式 关联书目数据集 URI 格式 LIBRIS http:/libris.kb.se/resource/bib/ NSZL catalog http:/nektar.oszk.hu/resource/manifesitation/ http:/nektar.oszk.hu/resource/DRJ/ datos.bne.es http:/datos.bne.es/resource/ BNB http:/bnb.data.bl.uk/id/resource/ http:/bnb.data.bl.uk/id/person/ data.bnf.fr http:/data.bnf.f
29、r/ark:/12148/ BPR http:/dati.camera.it/ocd/bpr/monografia.rdf/ DNB http:/d- nb.info/ data.europeana.eu http:/data.europeana. eu/item/BibliographicResource_ WorldCat http:/www.worldcat.org/entity/work/id/ http:/www.worldcat.org/entity/place/id/ 由 表 5 可以看出 , URI 的 基地址 一 般采用各机 构 的网站 首 页地址 , 实体类型名称 则 根据
30、数据特点来命 名 。 标识符 是 URI 唯一性的重 要 保证 , 其命名方式 主 要 有 两 种 。 第一种是依赖于 外 部资源 , 例如人名可 以 采 用 VIAF 和 ORCID 进行描述 , 作 品可以 采 用 DOI 和 ISBN 进行唯一标 识 。 法 国 国家图书馆采用了面向 数 字 资 源长期保存的资 源永 久 标识符系 统 存档 资 源 键 ( ARK)。 28 第二种是由机构自己命名,例如大英图书 馆内部的 BNB ID,此外有时候为了让 URI 可读性更 好,有些机构还使用了人名 、 地名或者机构名作为 URI 的一部分 。 3.2.3 实体属性描述 在确定实体类型之后,
31、下一步就是对各种不同类 型的实体进行属性描述 。 实体属性绝大多数来自原有 的 MARC 格式,还有一部分是通过与其他数据集关联 获得 。 在描述实体属性的过程中,十分重要的一点就 是根据实体属性选择或设计特定的词表 。 书目数据的 词表来源大致可以分为两类:一类是已经发布的成熟 词表,另一类是自己创建的独特词表 。 欧美国家图书 馆的书目数据词表来源如表 6 所示 。 由表 6 可以看出,书目数据的词表来源大部分为 已经发布的成熟词表,只有小部分属性采用了自己创 建的独特词表,例如瑞典国家图书馆和大英图书馆的 LIBRIS 和 British Library Terms。 对于作品的属性描
32、述,出现频率较高的词表有都柏林核心元数据词表 DC 和描述书目信息的书目本体 BIBO;对于作者的属 性描述,大部分都采用描述人物信息的词表 FOAF; 对于主题的属性描述,出现频率较高的为描述受控词 表概念信息的词表 SKOS。 欧美国家图书馆基本上都 表 6 欧美国家图书馆的书目数据词表来源 、 同时采用了这四个词表,它们在书目数据关联化的过 程中占有十分重要的地位 。 复用已有词表能够减少机 构的工作量,提升数据的互操作性,保证开放关联书 目数据在框架上的基本一致性,以及书目数据的统一 管理 、 共享和利用的便利性 。 3.2.4 实体关联 建立实体关联就是选择合适的内外部资源,丰富 书
33、目数据的关联性 。 这一部分是书目数据关联化的核 心价值所在,能够打破图书馆的资源壁垒,建立书目 数据与图书馆资源和外界资源的连接 。 欧美国家图书 馆的书目数据实体关联情况如表 7 所示 。 表 7 欧美国家图书馆的书目数据实体关联情况 由表 7 可以看出,书目数据在选择图书馆资源的 过程中,偏向于两类 。 第一类是各个图书馆发布的关 联书目数据集,即书目数据之间的资源互联 。 例如, 西班牙国家图书馆 、 德国国家图书馆 、 法国国家图书 馆和瑞典国家图书馆的书目数据集都有相互之间的关 联 。第二类是权威机构发布的主题词表和规范文档, 构建关联最多的主题词表是美国国会图书馆的 LCSH,
34、规范文档则大多集中于 VIAF。 VIAF 由 OCLC 发布, 集合了各个图书馆有关人名和机构的规范文档,是图 书馆界资源互联的首选 。 外界资源的选择则偏向于公 关联书目数据集 图书馆资源 外界资源 LIBRIS LCSH、 VIAF Wikipedia、 DBpedia NSZL catalog VIAF DBpedia datos.bne.es LCSH、 VIAF、 SUDOC、 DNB、 data. bnf.fr、 LIBRIS DBpedia、 Lexvo、 ISNI BNB LCSH、 VIAF、 MARC Country、 MARC Language Codes、 Dewey
35、.info DBpedia、 Geonames、 RDF Book Mashup、 Lexvo、 ISNI data.bnf.fr LCSH、 VIAF、 SUDOC、 WorldCat DNB、 Stitch、 Idref、 datos.bne.es Dewey.info、 Agrovoc 、 、 Wikipedia、 DBpedia、 Geon- ames、 ISNI BPR VIAF Geonames DNB LCSH、 VIAF、 RAMEAU、 Dewey.info DOI、 ZDB 、 Wikipedia、 Dbpedia、 Geon- ames data.europeana.eu
36、 VIAF、 GEMET、 AAT、 DNB DBpedia、 Geonames、 Icon- class WorldCat VIAF、 FAST、 LCSH、 Dewey.info DOI 、 DBpedia 关联书目数据集 词表来源 LIBRIS DC、 BIBO、 FOAF、 SKOS、 LIBRIS NSZL catalog DC、 BIBO、 FOAF、 SKOS datos.bne.es DC、 BIBO、 RDA BNB DC、 BIBO、 Bio、 FOAF、 SKOS、 RDA、 British Library Terms、 Event Ontology、 ISBD、 Org
37、、 OWL、 RDF Schema、 WGS84 Geo Positioning data.bnf.fr DC、 BIBO、 Bio、 FOAF、 SKOS、 RDA、 OWL、 RDF Schema Schema.org BPR DC、 FOAF、 Bio DNB DC、 BIBO、 FOAF、 RDA、 ISBD、 RDF Schema、 Umbel、 Schema. org data.europeana.eu DC、 FOAF、 SKOS、 OWL、 RDF、 OAI- ORE、 EDM、 CIDOC- CRM、 WGS84 Geo Positioning、 CC、 RDAU World
38、Cat Schema.org 信 息管理与信息学 665 共领域,例如 DBpedia 和 Geonames 等重要开放数据 集 。 在实体互联的过程中,实现关联较多的数据项为 作品名 、 人名 、 机构名 、 地名和主题名 。 此外,还需要考虑的一个关键问题就是关联发 现算法的设计 。 在关联数据的权威教程中,关联发 现算法可以分为三种:人工创建 、 基于模式的算法 和基于属性的算法 。 29 除 此之外,人们还开发了一 系列的关联发现框架 。 例如,基于规则的关联发现 框 架 SILK, 30 基于三 角形不等式的关联发现 框架 LIMES 31 和完全针对关系型数据的语义连接发现框架 L
39、inQuer 等 。 32 根据资料显示,英国 、 德国 、 法国 、 意大利 、 西班牙等国的国家图书馆都选择人工与自动 相结合的方式实现实体的关联化 。 33 3.3 数据发布格式与许可协议 在书目数据关联化过程中,需要考虑的问题还包 括数据发布格式和许可协议 。 关联数据可以采用不同 的关联序列化方法,从而以不同的格式呈现 。 当前的 关联数据发布格 式 可 以分 为 四 类 : HTML 类 型 : HTML、 RDFa、 Microdata; XML 类 型 : RDF/XML、 RDF/XML- ABBREV; N3 类 型 : N3、 Turtle、 N- Triple、 N-
40、Quads、 TriG、 TriX; JSON 类 型 : RDF/JSON、 JSON- LD。 HTML 类型可以在网站上为用 户提供数据服务, 是为人们理解和使用而设计的 。 XML 类型是 W3C 的推荐标准格式,但复杂度高,可 读性低 。 N3 类型简化了 XML 类型的复杂度,提升了 互动性和可读性 。 JSON 类型是互联网最流行的数据 交换格式,适合于现代网络,解析效率较高但难以书 写和阅读 。 欧美国家图书馆的书目数据发布格式和许 可协议如表 8 所示 。 由表 8 可以看出,书目数据的发 布格式一般都包括多种类型,这样可以同时满足机器 和用户的需求,并兼顾标准化和可读性 。
41、 在关联书目数据的发布 、 消费和再创造过程中, 一定会涉及参与者的利益问题 。 因此最好明确声明其 许可协议,避免不必要的法律纠纷,为书目数据的发 展提供法律基础和保障 。 目前,欧美国家图书馆对关 联书目数据进行授权和声明的许可协议可以大致分为 两类: 开放数据共用 ( Open Data Commons, ODC) 家族,其中 ODC- BY 是一种数据库的许可协议,需要 署名数据库; 知识共享 ( Creative Commons, CC) 家族,其中 CC0 是对自己所拥有作品版权和其他权利 放弃的一种声明协议,即任何人可以以任何方式和任 何目的使用该作品 。 34 由表 8 可以看
42、出,大部分书目 数据集的许可协议为 CC0,这一点保证了书目数据的 普遍性和开放性 。 表 8 欧美国家图书馆的书目数据发布格式和许可协议 关联书目数据集 发布格式 许可协议 LIBRIS HTML、 RDF/XML、 N3 CC0 NSZL catalog HTML、 RDF/XML 未明确指定 datos.bne.es HTML、 Turtle、 N- Triple CC0 BNB HTML、 RDF/XML、 Turtle、 JSON CC0 data.bnf.fr HTML、 RDFa、 Microdata、 RDF/XML、 N- Triple 未明确指定 BPR HTML、 RDF
43、/XML、 Turtle、 N- Triple、 RDF/JSON CC BY- SA DNB HTML、 RDF/XML、 Turtle CC0 data.europeana.eu HTML、 N- Triple、 RDFJSON CC0 WorldCat HTML、 RDFa、 Microdata、 RDF/XML、 Turtle N- triple、 JSON- LD 、 ODC- BY 4 欧美国家图书馆书目数据关联化的特点与不足及 对我国图书馆的启示 4.1 特点与不足 4.1.1 欧美国家图书馆书目数据关联化的特点 ( 1) 欧美国家图书馆书目数据关联化的步骤基本 相同,并且都逐步
44、将各类资源有条不紊地纳入了关联 化序列,建立了各个资源实体之间的关联 。 ( 2) 欧美国 家图书馆都在书目数据关联化的基础上推出了各种用户 服务 。 例如在网站上提供关联书目数据的浏览和检索 、 提供以 RDF 文件的格式下载书目数据或通过 SPARQL 端点进行书目数据的检索,力图深层次挖掘关联数据 的潜力与优势,提升其服务方式和服务深度 。 4.1.2 欧美国家图书馆书目数据关联化的不足 ( 1) 没有与外界资源广泛建立关联 。 欧美国家图 书馆在丰富书目数据关联性的过程中,选择的资源类 型大部分为图书馆内部资源,包括书目数据 、 主题词 表和规范文档等 。 对于外界资源的选择有较大的局
45、限 性, 主要为公共领域的重要开放数据集 DBpedia 和 Geonames。 ( 2) 有些机构在实体建模的过程中,没有 从本质上改变书目数据的内容描述规则 。 它们只是将 现有的 MARC 记录直接转化为 RDF 格式,其本质仍 然是面向数值的思想,不符合时代发展的潮流,很容 易被逐步淘汰以致消失 。 4.2 对我国图书馆的启示 ( 1) 提高对书目数据关联化的关注度 。 目前,我 国图书馆对书目数据关联化的关注度较低,这个问题 应该引起重视 。 近年来,书目数据关联化发展迅速, 得到了欧美各国国家图书馆的广泛支持,其资源内 容 、 服务方式和服务深度较之前都有了很大提升 。 建 议我国
46、图书馆也积极投身于书目数据关联化的浪潮当 中,关注书目数据关联化的发展 。 ( 2) 尽量在已有模型的基础上进行实体建模 。 首 信 息管理与信息学 066 先,拥有明确的实体模型是十分必要的,可以提升书 目数据关联化的灵活性和扩展性,便于复杂关系的表 达和知识发现的进行 。 其次,在已有模型的基础上进 行扩展能够转变书目数据的传统内容描述规则,符合 时代发展的潮流 。 最后,已有模型是由权威机构发布 的,经受过实践的考验,比较全面和完善 。 ( 3) 优先复用已有的成熟词表 。 书目数据关联化 的词表来源包括已有的成熟词表和自己创建的独特词 表,建议我国图书馆优先复用已有的成熟词表,这样 能够减少机构的工作量,提升数据的互操作性,保证 开放关联书目数据在框架上的基本一致性,以及书目 数据的统一管理 、 共享和利用的便利性 。 ( 4) 广泛建立与外界资源关联 。 当前图书馆在进 行书目数据关联化过程中,对于外界资源的选择有较 大的局限性,资源领域比较单一 。 今后,我国图书馆 可以扩大选择范围,将书目数据不断渗透到其他领 域,丰富书目数据的关