《现代文献检索与利用2.ppt》由会员分享,可在线阅读,更多相关《现代文献检索与利用2.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现代文献检索与利用现代文献检索与利用 第二章第二章第二章第二章 数字图书馆数字图书馆 主讲:主讲:主讲:主讲:王一平王一平王一平王一平第二章数字图书馆第二章数字图书馆本章内容框架本章内容框架学习目的学习目的 了解数字图书馆的概念,图书数字化过程了解数字图书馆的概念,图书数字化过程 了解数字资源类型了解数字资源类型 知道数字图书、数字期刊、数字特种文献在知道数字图书、数字期刊、数字特种文献在哪里查找?哪里查找?2.1 2.1 2.1 2.1 数字图书馆概述数字图书馆概述数字图书馆概述数字图书馆概述2.1.12.1.1数字图书馆概念数字图书馆概念数字图书馆概念数字图书馆概念 数字图书馆数字图书馆(
2、Digital Library DL):凡是应用计算机技术和网络技术,解决数字资源的采集、存储、凡是应用计算机技术和网络技术,解决数字资源的采集、存储、凡是应用计算机技术和网络技术,解决数字资源的采集、存储、凡是应用计算机技术和网络技术,解决数字资源的采集、存储、管理、发布和服务的图书馆,都可以称为数字图书馆。管理、发布和服务的图书馆,都可以称为数字图书馆。管理、发布和服务的图书馆,都可以称为数字图书馆。管理、发布和服务的图书馆,都可以称为数字图书馆。它涉及它涉及数字文献资源的数字文献资源的加工、存储、检索、传输和利用加工、存储、检索、传输和利用的全过的全过程程。DL是虚拟的、没有围墙的图书馆
3、,是基于网络环境下共建共是虚拟的、没有围墙的图书馆,是基于网络环境下共建共享的知识网络系统,是超大规模的、分布式的、便于使用的、享的知识网络系统,是超大规模的、分布式的、便于使用的、没有时空限制的、可以实现没有时空限制的、可以实现跨库无缝链接与智能检索跨库无缝链接与智能检索的知识中的知识中心。心。是是是是分布式、面向对象分布式、面向对象分布式、面向对象分布式、面向对象的信息查询系统。的信息查询系统。的信息查询系统。的信息查询系统。分布式分布式分布式分布式是指跨图书馆(跨地域)和跨物理形态的查询;是指跨图书馆(跨地域)和跨物理形态的查询;面向对象面向对象面向对象面向对象是指不仅要查到线索,还要获
4、得是指不仅要查到线索,还要获得原文(对象)原文(对象)原文(对象)原文(对象)数字图书馆的内容数字图书馆的内容数字图书馆的内容数字图书馆的内容1.1.1.1.数字图书馆数字图书馆数字图书馆数字图书馆是海量的知识中心是海量的知识中心是海量的知识中心是海量的知识中心人们需要的知识都可以在这里找到、得到。人们需要的知识都可以在这里找到、得到。DL是以是以数字资源数字资源建设为核心,便于读者使用和检索的知识中心建设为核心,便于读者使用和检索的知识中心。2.2.2.2.数字图书馆数字图书馆数字图书馆数字图书馆是优质资源门户网站是优质资源门户网站是优质资源门户网站是优质资源门户网站 如同一个人自由使用数字
5、图书馆的所有资源,而面对分布式如同一个人自由使用数字图书馆的所有资源,而面对分布式的海量索取,就如同在一个网站中自由查询。的海量索取,就如同在一个网站中自由查询。是互联网上,用资源共建共享机制建立的超大规模的、高质是互联网上,用资源共建共享机制建立的超大规模的、高质量的中文数字资源库群(集中与分布)。量的中文数字资源库群(集中与分布)。3.3.数字图书馆的数字图书馆的建设内容和目标建设内容和目标 DLDL建设建设的主要内容:的主要内容:的主要内容:的主要内容:将将纸质文献纸质文献转化为数字形式转化为数字形式在在全球全球范围内传输。范围内传输。建设目标:建设目标:建设目标:建设目标:用户通过互联
6、网,登录数字图书馆网站,可在任用户通过互联网,登录数字图书馆网站,可在任何时间、任何地点,十分方便快捷地使用世界上任何一个图何时间、任何地点,十分方便快捷地使用世界上任何一个图书馆的数字文献资源书馆的数字文献资源。4.4.数字图书馆的数字图书馆的拓展服务拓展服务 用户在用户在查找到所需图书之后可以直接阅读数字图书和期刊;查找到所需图书之后可以直接阅读数字图书和期刊;查找到电影、音乐查找到电影、音乐等多媒体资料之后等多媒体资料之后可以即时播放;可以即时播放;个人数字图书馆个人数字图书馆为用户收集、整理所需的各种类型的资为用户收集、整理所需的各种类型的资源。源。收藏和收藏和订制个性化信息资源;订制
7、个性化信息资源;(如(如CNKI)系统系统自动推送新文献到你的邮箱、或者自动推送新文献到你的邮箱、或者个人数字图书馆。个人数字图书馆。数字图书馆的内容数字图书馆的内容5.5.数字图书馆数字图书馆是学习中心是学习中心数字图书馆有丰富文献资源,给学习者提供一个完善的学数字图书馆有丰富文献资源,给学习者提供一个完善的学习中心。习中心。数字图书馆将不再是传统意义上的图书馆,人们可以使数字图书馆将不再是传统意义上的图书馆,人们可以使用任何与因特网连接的数字设备搜寻到人类知识。用任何与因特网连接的数字设备搜寻到人类知识。6.6.图书馆发展趋势:图书馆发展趋势:文献中心文献中心文献中心文献中心 转变成转变成
8、学习中心。学习中心。学习中心。学习中心。终身教育反映了对高质量学习机会的需求,数字图书提终身教育反映了对高质量学习机会的需求,数字图书提供最新的技术和支持。供最新的技术和支持。(高校用(高校用ipad教学)教学)2.1.22.1.2数字图书馆的特征数字图书馆的特征数字图书馆的特征数字图书馆的特征1.1.1.1.数字化资源:数字化资源:数字化资源:数字化资源:文献资源数字化:图书、期刊、特种文献、视频、声文献资源数字化:图书、期刊、特种文献、视频、声文献资源数字化:图书、期刊、特种文献、视频、声文献资源数字化:图书、期刊、特种文献、视频、声频资料等;频资料等;频资料等;频资料等;2.2.网络化存
9、取网络化存取网络化存取网络化存取:网络是的传输工具;网络是的传输工具;网络是的传输工具;网络是的传输工具;依附于网络而存在,的各种服务是在网络环依附于网络而存在,的各种服务是在网络环依附于网络而存在,的各种服务是在网络环依附于网络而存在,的各种服务是在网络环境下进行的,得益于网络,也受制于网络。境下进行的,得益于网络,也受制于网络。境下进行的,得益于网络,也受制于网络。境下进行的,得益于网络,也受制于网络。3.3.分布式管理:分布式管理:分布式管理:分布式管理:全球遵循统一的访问协议,实现全球遵循统一的访问协议,实现全球遵循统一的访问协议,实现全球遵循统一的访问协议,实现“联合检索联合检索联合
10、检索联合检索”。2.1.32.1.3数字图书馆数字图书馆的的的的产生背景产生背景数字图书馆数字图书馆是传统图书馆在信息时代的发展的需要。是传统图书馆在信息时代的发展的需要。将成为未来将成为未来社会公共信息中心和枢纽社会公共信息中心和枢纽社会公共信息中心和枢纽社会公共信息中心和枢纽。2.1.42.1.4的技术与人才的技术与人才的技术与人才的技术与人才数字图书馆是高技术的产物。涉及数字化技术、超大规模数据数字图书馆是高技术的产物。涉及数字化技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、安全保密技
11、术、可靠性技术、数据仓库与联机分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索技术、自然语言理解技术等。技术、自然语言理解技术等。DL需要需要计算机专家和图书馆专家计算机专家和图书馆专家计算机专家和图书馆专家计算机专家和图书馆专家,没有一个天才可以独自成功;,没有一个天才可以独自成功;图书馆员必须成为计算机学者,才能图书馆员必须成为计算机学者,才能理解计算机技术与图书馆理解计算机技术与图书馆理解计算机技术与图书馆理解计算机技术与图书馆专业的关系,建成好用的数字图书馆专业的关系
12、,建成好用的数字图书馆专业的关系,建成好用的数字图书馆专业的关系,建成好用的数字图书馆。2.1.52.1.5的主要优点的主要优点的主要优点的主要优点1.数字文献共享:数字文献共享:珍贵文献资源,很多绝版图书(世界仅珍贵文献资源,很多绝版图书(世界仅1本),数字化后全本),数字化后全世界共享;世界共享;2.远程访问:远程访问:理论上全球任何地方的数字图书馆可以访问;理论上全球任何地方的数字图书馆可以访问;3.元数据检索速度快(需要时才传送对象数据);元数据检索速度快(需要时才传送对象数据);4.同一数字文献可多人同时使用,次复制;同一数字文献可多人同时使用,次复制;5.信息储存空间小,节省物理空
13、间。信息储存空间小,节省物理空间。理想的数字图书馆:任何人、在任何时间、任何地点、获理想的数字图书馆:任何人、在任何时间、任何地点、获理想的数字图书馆:任何人、在任何时间、任何地点、获理想的数字图书馆:任何人、在任何时间、任何地点、获取任何图书馆的任何资源。取任何图书馆的任何资源。取任何图书馆的任何资源。取任何图书馆的任何资源。数字资源的使用率数字资源的使用率远高于实体馆藏远高于实体馆藏以以清华大学图书馆清华大学图书馆为例:为例:至至2010年底,实体馆藏总量约有年底,实体馆藏总量约有400万册,万册,据清华馆据清华馆2010年年鉴统计:年年鉴统计:纸质图书外借纸质图书外借82.8万册次,流通
14、率为万册次,流通率为20.7。二次文献检索二次文献检索 353/325万次;万次;(近(近4倍)倍)电子图书浏览电子图书浏览/下载下载 53/88万册次,万册次,(近(近1倍)倍)电子期刊浏览电子期刊浏览/下载下载 453/764453/764万篇次;(万篇次;(5.47/9.225.47/9.22倍)倍)学位论文浏览学位论文浏览/下载下载 3.5/1293.5/129万篇次。万篇次。(1.551.55倍)倍)说明社会进步和时代发展后:说明社会进步和时代发展后:电子资源在网络环境下使用电子资源在网络环境下使用是印刷型文献远无法比拟的。是印刷型文献远无法比拟的。改变了读者阅读习惯,也改变了读者获
15、取文献的方式!改变了读者阅读习惯,也改变了读者获取文献的方式!2.1.6 2.1.6 国外数字图书馆概况国外数字图书馆概况国外数字图书馆概况国外数字图书馆概况1.数字图书馆的发展历程数字图书馆的发展历程在在1971年年7月由月由Michael Hart发起的发起的古登堡计划古登堡计划(Project Gutenberg)是)是世界上第一个数字图书馆,世界上第一个数字图书馆,是是图书数字化图书数字化的先行的先行者者。它是一项它是一项将大量版权过期书籍通过扫描或者输入的方法,使之将大量版权过期书籍通过扫描或者输入的方法,使之数字化。数字化。所有书籍的输入都是所有书籍的输入都是由志愿者来完成由志愿者
16、来完成的。的。(正确率达到教材级水平)(正确率达到教材级水平)维基百科维基百科(http:/zh.wikipedia.org/)由志愿者来完成的由志愿者来完成的;人人可编辑的自由百科全书,人人可编辑的自由百科全书,已有已有449,089篇中文条目,篇中文条目,错误率极少!可以达到教科书级的正确率。错误率极少!可以达到教科书级的正确率。是是免费免费信息资源之一,但资源太少!信息资源之一,但资源太少!为信息传播与资源共享做出重要的贡献。为信息传播与资源共享做出重要的贡献。DL的发展经历了以下三个阶段的发展经历了以下三个阶段第一阶段第一阶段是是研究、试验、规划研究、试验、规划阶段阶段第二阶段第二阶段
17、是是起步与应用起步与应用阶段阶段世界各地进行数字化计划,如美国国会图书馆的世界各地进行数字化计划,如美国国会图书馆的美国记忆(美国记忆(American Memory)计划、)计划、古登堡计划(古登堡计划(Project Gutenberg)、百万册图书计划和环球)、百万册图书计划和环球图书馆(图书馆(Universal Library)等。)等。第三阶段第三阶段是是规模扩大规模扩大阶段阶段数字图书馆经过传统图书馆与数字图书馆相互结合、共存数字图书馆经过传统图书馆与数字图书馆相互结合、共存互享之后,已进入数字图书馆建设的第三个阶段。互享之后,已进入数字图书馆建设的第三个阶段。这一阶段的数字图书
18、馆特点:这一阶段的数字图书馆特点:模式新、规模大、资源丰富、模式新、规模大、资源丰富、技术更先进、服务面广、受益者多、影响深、竞争激烈。技术更先进、服务面广、受益者多、影响深、竞争激烈。2.2.有重要影响的几个数字图书馆有重要影响的几个数字图书馆(1)Google数字图书馆计划数字图书馆计划早在早在1999年,年,Google公司刚刚起步致力于做搜索引擎时,公司刚刚起步致力于做搜索引擎时,Google联合创始人拉里联合创始人拉里佩奇(佩奇(Larry Page)就提出了就提出了就提出了就提出了将世界所有书籍数将世界所有书籍数将世界所有书籍数将世界所有书籍数字化的大胆想法。字化的大胆想法。字化的
19、大胆想法。字化的大胆想法。到到到到2009200920092009年年年年GoogleGoogleGoogleGoogle已扫描了已扫描了已扫描了已扫描了1000100010001000多万册多万册多万册多万册图书图书图书图书,其中有约,其中有约600万本是万本是受著作权保护的绝版书。约占受著作权保护的绝版书。约占全球书目数据库里列出并被收藏全球书目数据库里列出并被收藏3200万册图书万册图书的三分之一。的三分之一。“Google books是搜索全球图书的最新索引,有数百万本好书可是搜索全球图书的最新索引,有数百万本好书可供您预览或免费阅读。供您预览或免费阅读。http:/.hk/Googl
20、e数字图书馆计划的目标:数字图书馆计划的目标:在切实尊重作者及出版商版权的同时,让读者可以更容易地查在切实尊重作者及出版商版权的同时,让读者可以更容易地查找相关图书,特别是那些通过其他任何方式都无法找到的绝版找相关图书,特别是那些通过其他任何方式都无法找到的绝版图书。图书。(2 2 2 2)世界数字图书馆)世界数字图书馆)世界数字图书馆)世界数字图书馆 世界数字图书馆世界数字图书馆(World Digital Library,WDL)是联合国是联合国教科文组织和世界教科文组织和世界32个公共团体合作建立,由美国国会个公共团体合作建立,由美国国会图书馆主导开发的知识共享计划,中国国家图书馆参加图
21、书馆主导开发的知识共享计划,中国国家图书馆参加其中。其中。目前收录目前收录七种语言:英文、阿拉伯文、七种语言:英文、阿拉伯文、中文中文、西班牙文、西班牙文、法文、葡萄牙文及俄文。法文、葡萄牙文及俄文。平台之检索方式可以利用地点、平台之检索方式可以利用地点、时间、专题、条目类型、机构等来查寻。时间、专题、条目类型、机构等来查寻。世界数字图书馆网址:世界数字图书馆网址:www.wdl.org/zh/2.2.有重要影响的几个数字图书馆有重要影响的几个数字图书馆(3)欧洲数字图书馆)欧洲数字图书馆欧洲数字图书馆欧洲数字图书馆(Europeana Digital Library,EDL)是为了是为了制衡
22、制衡制衡制衡谷谷歌的数字图书馆而生。歌的数字图书馆而生。于于2008年年11月月20日正式对外服务。日正式对外服务。因谷歌公司因谷歌公司2004年年12月宣布筹建全球最大的数字图书馆,月宣布筹建全球最大的数字图书馆,欧洲人不让美国在数字图书馆上有绝对的话语权欧洲人不让美国在数字图书馆上有绝对的话语权,必须对谷,必须对谷歌的信息资源垄断进行反击。歌的信息资源垄断进行反击。用户可以通过该网站获取来源于用户可以通过该网站获取来源于欧盟欧盟27个成员国个成员国的国家图的国家图书馆和文化机构的两百多万种资料。内容包括书馆和文化机构的两百多万种资料。内容包括图书、地图、图书、地图、录音、图片、档案、油画和
23、电影资料。录音、图片、档案、油画和电影资料。欧洲数字图书馆网址:欧洲数字图书馆网址:http:/www.europeana.eu2.1.7 中国数字图书馆研发概况中国数字图书馆研发概况1.1.起步阶段起步阶段在中国,正式提出数字图书馆概念,是在中国,正式提出数字图书馆概念,是1996年在北京召开年在北京召开的第的第62届届国际图联国际图联(IFLA)大会,数字图书馆成为该会议的一大会,数字图书馆成为该会议的一个讨论专题。个讨论专题。IBM公司和清华大学图书馆联手展示公司和清华大学图书馆联手展示“IBM数数字图书馆方案字图书馆方案”。2.2.试验阶段试验阶段1997年年1月月1999年年12月:
24、月:由由国家图书馆、中山图书馆、上国家图书馆、中山图书馆、上海图书馆、深圳图书馆、辽宁图书馆、南京图书馆、文化海图书馆、深圳图书馆、辽宁图书馆、南京图书馆、文化部文化科技开发中心部文化科技开发中心共同承担实施了共同承担实施了“中国试验型数字图中国试验型数字图书馆项目书馆项目”,标志我国数字图书馆事业进入到了试验阶段。,标志我国数字图书馆事业进入到了试验阶段。2.1.7 中国数字图书馆研发概况中国数字图书馆研发概况3.3.操作阶段操作阶段1999年年9月月2001年年11月月,文化部与国家图书馆启动了中国,文化部与国家图书馆启动了中国国家数字图书馆工程国家数字图书馆工程(国家图书馆二期工程暨国家
25、数字图(国家图书馆二期工程暨国家数字图书馆工程),书馆工程),由由“中国数字图书馆有限责任公司中国数字图书馆有限责任公司”作为业作为业主单位全面负责工程的建设、运营及服务,数字化图书扫主单位全面负责工程的建设、运营及服务,数字化图书扫描年产量描年产量30003000万页以上。万页以上。标志着中国数字图书馆进入操作标志着中国数字图书馆进入操作阶段。阶段。4.4.实用阶段实用阶段2001年年5月月23日后日后,国家重点科技项目,国家重点科技项目“中国试验型数字式中国试验型数字式图书馆图书馆”通过专家技术鉴,标志通过专家技术鉴,标志DL在中国进入实用阶段。在中国进入实用阶段。同时产生的几家做数字图书
26、的公司:超星、书生、阿帕比同时产生的几家做数字图书的公司:超星、书生、阿帕比2.2 2.2 数字图书馆建设数字图书馆建设2.2.1 2.2.1 中国数字图书馆方案中国数字图书馆方案(1)数字图书馆解决方案)数字图书馆解决方案 三层技术说明三层技术说明1 1 1 1)资源加工层:)资源加工层:)资源加工层:)资源加工层:资源加工层将各种类型的资料转化为有序的数字资源。资源加工层将各种类型的资料转化为有序的数字资源。将各种将各种印刷型资料、音频资料、视频资料进行数字化加工,转化为数印刷型资料、音频资料、视频资料进行数字化加工,转化为数字格式的资源;字格式的资源;2 2 2 2)资源管理层:)资源管
27、理层:)资源管理层:)资源管理层:数字资源管理系统依据数字资源管理系统依据OAIS、Z39.84(DOI)、)、ISO10646等等国国际标准构造际标准构造。对网络资源进行分类、整合及发布;。对网络资源进行分类、整合及发布;对对异构数字资源进行整合异构数字资源进行整合,以便统一检索和使用;,以便统一检索和使用;将经过加工和标引的数字资源进行发布;将经过加工和标引的数字资源进行发布;进行元数据管理、数字版权管理、数字对象管理。进行元数据管理、数字版权管理、数字对象管理。3 3 3 3)应用服务层:)应用服务层:)应用服务层:)应用服务层:直接面向用户和读者的是应用服务层。作为图书馆的门户,为直接
28、面向用户和读者的是应用服务层。作为图书馆的门户,为用户提供用户提供方便快捷的、主动的、个性化的、安全可靠的服务方便快捷的、主动的、个性化的、安全可靠的服务。2.2.2 文献数字化技术文献数字化技术1.1.1.1.文献数字化概述文献数字化概述文献数字化概述文献数字化概述文献数字化是:文献数字化是:印刷型资料印刷型资料数字化加工数字化加工数字格式的文献资源。数字格式的文献资源。是数字图书馆建设过程中工作量非常大的基础工作。是数字图书馆建设过程中工作量非常大的基础工作。2 2 2 2.纸质文献数字化技术纸质文献数字化技术纸质文献数字化技术纸质文献数字化技术用数字化图书用数字化图书建设建设数字图书馆,
29、有两个重要的内容:数字图书馆,有两个重要的内容:纸质图书纸质图书转化为转化为电子版的电子版的数字图书数字图书;电子版图书的存储,检索、交换,流通。电子版图书的存储,检索、交换,流通。(1 1)纸质文献数字化)纸质文献数字化将没有版权争议的将没有版权争议的印刷型文献数字化印刷型文献数字化,建成数字化资源库。,建成数字化资源库。(2)纸质文献数字化的原则)纸质文献数字化的原则纸质文献数字化有纸质文献数字化有“保真原则保真原则”、“整理原则整理原则”和二者兼顾原则。和二者兼顾原则。(3 3)纸质文献数字化的方法)纸质文献数字化的方法和设备和设备按其发展过程分为:按其发展过程分为:人工键盘录入法、语音
30、识别法、扫描法。人工键盘录入法、语音识别法、扫描法。目前应用最多、效率最高的是目前应用最多、效率最高的是扫描法(扫描仪扫描法(扫描仪纸质文献数字化过程:纸质文献数字化过程:纸质文献数字化过程:纸质文献数字化过程:纸质文献放在扫描仪平板上,纸质文献放在扫描仪平板上,通过扫描通过扫描纸质文献转换为纸质文献转换为数字图形数字图形输入计算机,输入计算机,经软件经软件OCROCR识别识别、校对后,转换为、校对后,转换为可进行编辑的数字化文献可进行编辑的数字化文献。实现计算机网络环境下快速转递、检索和资源共享等功能。实现计算机网络环境下快速转递、检索和资源共享等功能。3.3.影响影响OCROCR识别正确率
31、的几个重要参数识别正确率的几个重要参数(1 1)分辨率参数)分辨率参数分辨率参数决定扫描图像的清晰度,即决定扫描图像的图像细分辨率参数决定扫描图像的清晰度,即决定扫描图像的图像细节。节。分辨率一般以分辨率一般以dpidpi作为单位。作为单位。dpi是是dot per inch(点点/每英寸每英寸)的的缩写。缩写。文字文字OCR识别一般要识别一般要 300dpi。扫描仪能支持的扫描仪能支持的dpi越大,其图像清晰度就越高。越大,其图像清晰度就越高。(2 2)亮度参数:)亮度参数:亮度参数是扫描仪的重要参数之一,也是影响亮度参数是扫描仪的重要参数之一,也是影响OCR系统文字识别系统文字识别效果的极
32、为重要的因素。效果的极为重要的因素。(3 3)扫描速度)扫描速度扫描速度是扫描仪的又一个重要指标,它决定扫描仪的工作效扫描速度是扫描仪的又一个重要指标,它决定扫描仪的工作效率,在文字识别应用中尤其如此,单位是英寸率,在文字识别应用中尤其如此,单位是英寸/每秒(每秒(IPS),),4.数字文献著录标准(数字文献著录标准(Dublin Core,简称,简称DC)纸质文献纸质文献机读机读目录体系目录体系MARCMARC;数字文献数字文献也有一套也有一套都柏林核心(都柏林核心(Dublin Core)元数据)元数据来描述网上来描述网上电子文献以方便检索,(关于数据的数据)电子文献以方便检索,(关于数据
33、的数据)都柏林核心集都柏林核心集(Dublin Core Elements Set,DC)产生于产生于19951995年年3月在美月在美国俄亥俄州的都柏林召开的国俄亥俄州的都柏林召开的第一届元数据研讨会上第一届元数据研讨会上,是,是52位来自位来自图书馆、计算机、网络等方面的专家和学者共同研讨下的产物,图书馆、计算机、网络等方面的专家和学者共同研讨下的产物,是以图书馆界为主建立起来的元数据系统,是以图书馆界为主建立起来的元数据系统,用用元数据元数据元数据元数据代替代替MARCMARC,来描述网络环境中的数字化信息的基本特征,来描述网络环境中的数字化信息的基本特征元数据标引元数据标引元数据标引元
34、数据标引,以方便检索。,以方便检索。比较比较:图书图书目录目录目录目录MARCMARCMARCMARC(机读目录(机读目录(机读目录(机读目录 数字文献数字文献数字文献数字文献都柏林核心(都柏林核心(Dublin Core)元数据标引,元数据标引,元数据标引,元数据标引,第一次会议上提出的第一次会议上提出的DC元数据核心集为元数据核心集为13个个,后来经过不断修改和补充,后来经过不断修改和补充,现在现在DCDC元数据为元数据为1515个个:Dublin Core的的1515个个元数据(描述项目)元数据(描述项目)(1)名称(名称(Title),),(2)作者、制作者(作者、制作者(Creato
35、r)(3)主题及关键词(主题及关键词(Subject and Keywords)(4)说明(说明(Description)(5)出版者(出版者(Publisher)(6)发行者(发行者(Contributor)(7)时间(时间(Date)(8)类型(类型(Type)(9)格式(格式(Format)(10)标识()标识(Identifier)(11)来源()来源(Source)(12)语言()语言(Language)(13)相关资源()相关资源(Relation)(14)范围()范围(Coverage)(15)版权()版权(Rights)5.5.数字资源的科学组织方法数字资源的科学组织方法(1
36、1)将数字资源分为)将数字资源分为元数据元数据元数据元数据和和对象数据对象数据对象数据对象数据 简单全文检索,用于海量信息检索是行不通的?简单全文检索,用于海量信息检索是行不通的?例如,美国在例如,美国在1TB的信息系统中用简单全文检索测试,用了的信息系统中用简单全文检索测试,用了6个小个小时才检索到满足用户要求的结果。时才检索到满足用户要求的结果。元数据元数据免费共享,检索用;免费共享,检索用;(如中国知网如中国知网CNKICNKI可免费检索可免费检索)对象数据对象数据传递全文用;传递全文用;(IPIP外,外,CNKICNKI下载全文时要付费下载全文时要付费)全国高校图书馆有很多文献资源,如
37、何让读者知道那个图书馆全国高校图书馆有很多文献资源,如何让读者知道那个图书馆典藏有何种文献?典藏有何种文献?CALIS:中国高等教育文献保障系统中国高等教育文献保障系统 的任务:的任务:全国高校联合书目全国高校联合书目就是解决这个问题而设计的。就是解决这个问题而设计的。超星公司超星公司收集的元数据已经达到:收集的元数据已经达到:370万种中文图书目录,万种中文图书目录,这差不多是中国出版的全部图书种数?这差不多是中国出版的全部图书种数?5.数字资源的科学组织方法数字资源的科学组织方法(2 2)元数据共享原则)元数据共享原则元数据是描述数字资源的文件,元数据是描述数字资源的文件,关于数据的数据,
38、免费共享关于数据的数据,免费共享!因数据小,检索速度快,发展成为先进的因数据小,检索速度快,发展成为先进的元数据搜索引擎。元数据搜索引擎。超星有专人搜索元数据,所以元数据最齐全。超星有专人搜索元数据,所以元数据最齐全。4.2亿条文献元数亿条文献元数据,据,370万种书目元数据;万种书目元数据;一般检索免费;下载全文付费(如一般检索免费;下载全文付费(如中国知网中国知网CNKI)(3 3)对象数据分布式存储)对象数据分布式存储数字图书馆的对象数据是海量的,因此存储空间是海量的。数字图书馆的对象数据是海量的,因此存储空间是海量的。超星公司的数字化图书已经达到超星公司的数字化图书已经达到260万种图
39、书的全文数据。万种图书的全文数据。就按超星拥有自主知识产权的,国际上中文图像格式占用空间最就按超星拥有自主知识产权的,国际上中文图像格式占用空间最小的一种压缩技术,做到小的一种压缩技术,做到100万种图书大约有万种图书大约有5000G。260万种全文也是万种全文也是13 TGoogle想把全世界想把全世界3000万种数字化万种数字化146 T对象数据分布式存储,以减轻网络传送压力!对象数据分布式存储,以减轻网络传送压力!(4 4)搜索引擎的检索能力)搜索引擎的检索能力元数据搜索引擎速度快,但当元数据的量达到海量时,元数据搜索引擎速度快,但当元数据的量达到海量时,对对搜搜索引擎的检索能力是一个非
40、常大的考验?索引擎的检索能力是一个非常大的考验?如超星公司总数据达如超星公司总数据达4.2亿篇学术文献亿篇学术文献,每个条元数据大约每个条元数据大约50个字段,约个字段,约1.5K字节,字节,则则元数据有:元数据有:4200000001500587 G,在这么大的元数据在这么大的元数据库里检索,库里检索,需要有更需要有更强大的查询工具,来满足用户大并发、强大的查询工具,来满足用户大并发、多条件的检索要求。多条件的检索要求。(4 4)计算机和网络系统的承载能力)计算机和网络系统的承载能力对象数据将是海量的对象数据将是海量的,这就需要,这就需要海量的存储空间海量的存储空间。对象数据必须分散在各个地
41、方,解决大的并发和大的传输对象数据必须分散在各个地方,解决大的并发和大的传输量,传送实行就近原则,以减轻网络的负担。量,传送实行就近原则,以减轻网络的负担。5.数字资源的科学组织方法数字资源的科学组织方法2.2.3 图书数字的工业化进程图书数字的工业化进程国内进行图书数字化加工的有:国内进行图书数字化加工的有:中国数字图书馆有限责任公司;中国数字图书馆有限责任公司;北京书生公司;北京书生公司;方正阿帕比方正阿帕比Apabi;北京超星数图信息技术有限公司(简称超星公司)北京超星数图信息技术有限公司(简称超星公司)超星公司的技术最成熟,技术最先进,规模也最大,目超星公司的技术最成熟,技术最先进,规
42、模也最大,目前已经数字化中文图书前已经数字化中文图书260万种,万种,成为行业的领跑者,成为行业的领跑者,为中国数字图书馆建设做出了突出的贡献!为中国数字图书馆建设做出了突出的贡献!1.超星公司数字化图书发展历程超星公司数字化图书发展历程超星公司超星公司1993年成立,是一家高科技民营企业,超星公司注年成立,是一家高科技民营企业,超星公司注册资金册资金1500万元,目前拥有员工万元,目前拥有员工1400余人,平均年龄余人,平均年龄25岁。岁。(1)从档案资料数字化起家)从档案资料数字化起家超星公司从超星公司从1993年起从事档案资料数字化软件的开发,年起从事档案资料数字化软件的开发,国内国内最
43、早提出档案资料数字化的概念最早提出档案资料数字化的概念,以光盘存储代替缩微,以光盘存储代替缩微胶片进行档案保存,发展了国内第一家以光盘形式存储档案胶片进行档案保存,发展了国内第一家以光盘形式存储档案的档案馆用户。的档案馆用户。用户数量达用户数量达2000多家,多家,中央档案馆、外经贸部、林业部、中中央档案馆、外经贸部、林业部、中国人民银行总行、招商银行总行、北京市公安局和全国印钞国人民银行总行、招商银行总行、北京市公安局和全国印钞造币系统等都是超星的用户。造币系统等都是超星的用户。(2)把资料数字化技术应用于电子出版物;)把资料数字化技术应用于电子出版物;(3)把资料数字化技术应用于网络;)把
44、资料数字化技术应用于网络;(4)与国家图书馆合作创建与国家图书馆合作创建“网上读书网上读书”取得实用经验;取得实用经验;2.2.图书数字化加工厂图书数字化加工厂(1)图书数字化加工生产线()图书数字化加工生产线(Doc Scan)1998年,超星公司第一条大规模数字化扫描生产线,加工能年,超星公司第一条大规模数字化扫描生产线,加工能力达到力达到每天每天2020万页。(按每册万页。(按每册300300页计算,有页计算,有660660册图书)册图书)五个数字化加工中心:在北京、成都、福州、长沙、郑州等五个数字化加工中心:在北京、成都、福州、长沙、郑州等生产流水线作业,三班倒的方式,进行图书数字化生
45、产流水线作业,三班倒的方式,进行图书数字化扫描;扫描;入口:图书送进去入口:图书送进去,通过工人拆开、扫描,整个流水线采用通过工人拆开、扫描,整个流水线采用C/S结构,客户端完成扫描加工处理,服务器完成数据管理和各结构,客户端完成扫描加工处理,服务器完成数据管理和各工序任务的分配。工序任务的分配。出口:出口:数字图书数字图书建设数字图书馆的基础资源。建设数字图书馆的基础资源。到到2012年,已经扫描图书年,已经扫描图书260万种。万种。2.2.图书数字化加工厂图书数字化加工厂(2 2)从数字图书到数字图书馆)从数字图书到数字图书馆 加工数字图书的目的是为了建设数字图书馆,可以想象,加工数字图书
46、的目的是为了建设数字图书馆,可以想象,当数字图书的数量达到当数字图书的数量达到260万种时万种时 260万种是一个超大的数字图书馆,什么样的中文图书都可万种是一个超大的数字图书馆,什么样的中文图书都可以在这里找到,满足率可达到以在这里找到,满足率可达到95%,这个数字图书馆对读者,这个数字图书馆对读者是多么的诱惑。建设数字图书馆是一个非常好的解决思路。是多么的诱惑。建设数字图书馆是一个非常好的解决思路。(3 3)超星数字图书馆的社会效益)超星数字图书馆的社会效益超星数字图书馆超星数字图书馆是世界上最大的是世界上最大的是世界上最大的是世界上最大的中文在线数字图书馆。中文在线数字图书馆。中文在线数
47、字图书馆。中文在线数字图书馆。它为偏僻山区、中国的西部的市民都可以和大城市享有同它为偏僻山区、中国的西部的市民都可以和大城市享有同样的阅读条件和教育机会,而且是样的阅读条件和教育机会,而且是24小时、没有等候的服务。小时、没有等候的服务。它是缩小东西部数字鸿沟差距、解决网上资源匮乏的重要它是缩小东西部数字鸿沟差距、解决网上资源匮乏的重要举措。举措。超星的超星的PDG格式格式2000年年11月,超星与清华大学图书馆技术部联合开发的月,超星与清华大学图书馆技术部联合开发的PDG图图像全文检索技术。像全文检索技术。超星超星PDG应该是在参考了应该是在参考了djvu技术的基础上开发的格式。技术的基础上
48、开发的格式。名词解释:名词解释:DjVuDjVu是于是于1996年开发成功的一项新的图片压缩技术,是一个公年开发成功的一项新的图片压缩技术,是一个公开标准。开标准。作为一种新的彩色文件压缩技术,作为一种新的彩色文件压缩技术,DjVuDjVu在纸质世界和在纸质世界和比特世界之间搭起了一座桥梁。比特世界之间搭起了一座桥梁。它使得高质量的扫描图像可以它使得高质量的扫描图像可以轻易地在因特网上进行发布。轻易地在因特网上进行发布。DjVu有两大优势:有两大优势:1.可以将可以将500M500M以上的高清晰杂志压缩到只有以上的高清晰杂志压缩到只有10M10M左右左右甚至更小甚至更小的容量,而杂志质量丝毫不
49、受影响。的容量,而杂志质量丝毫不受影响。2.2.由于彻底改变了传统的互联网传输方式,由于彻底改变了传统的互联网传输方式,在观看在观看DjVu格式格式的文件时,甚至比打开普通的网页更快。的文件时,甚至比打开普通的网页更快。超星的超星的PDG格式格式超星超星PDG应该是在参考了应该是在参考了djvu技术的基础上开发的格式。技术的基础上开发的格式。采用分层压缩,体积是其它的几分之一,浏览速度很快。采用分层压缩,体积是其它的几分之一,浏览速度很快。PDG PDG图像全文检索技术原理图像全文检索技术原理:(巧妙构思)巧妙构思)当纸质原稿当纸质原稿通过扫描仪输入到终端通过扫描仪输入到终端存储为存储为图像格
50、式;图像格式;负责集中运算的服务器负责集中运算的服务器 自动对自动对该图像进行该图像进行OCROCR识别识别并完成相并完成相关运算关运算实时实时生成三层信息生成三层信息:第一层信息是图像,用来保留原文原貌,第一层信息是图像,用来保留原文原貌,即反映连续色彩图像和即反映连续色彩图像和纸张的背景,用较低的分辨率,通常为纸张的背景,用较低的分辨率,通常为100dpi足够。足够。第二层信息是用来进行第二层信息是用来进行OCROCR文字识别的文字识别的,要确保文字和线条的清要确保文字和线条的清晰度需要较高的分辨率,提高清晰度是晰度需要较高的分辨率,提高清晰度是OCR文字识别率要求的,文字识别率要求的,通