数字图书馆中查询结果和参考文献的研究-卢德君.docx

上传人:不*** 文档编号:243431 上传时间:2018-06-26 格式:DOCX 页数:68 大小:138.93KB
返回 下载 相关 举报
数字图书馆中查询结果和参考文献的研究-卢德君.docx_第1页
第1页 / 共68页
亲,该文档总共68页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数字图书馆中查询结果和参考文献的研究-卢德君.docx》由会员分享,可在线阅读,更多相关《数字图书馆中查询结果和参考文献的研究-卢德君.docx(68页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、993837 工程硕士学位论文 数字图书馆中查询结果和参考文献的研究 卢德君 哈尔滨理工大学 2005年 9月 数字图书馆中查询结果和参考文献的研究 摘要 数字图书馆是基于现代计算机和网络技术的数字信息资源系统,是下 一 代因特网网上信息资源的管理模式。它涉及互连网、多媒体、数据仓库、数 据挖掘、版权保护等诸多技术,有广阔的应用范围和很好的应用前景。我国 数字图书馆的研发起步较晚,因此,建设数字图书馆更加具有必要性和紧迫 性。 本文介绍的无限数字图书馆是一个基于机群计算环境的并行数字图书馆 系统,不仅提供数据录入,文本分类,信息存储,査询优化,交互界面的功 能,还提供一个根据用户的需求创建不同

2、分类模式和元数据模式的数字图书 馆的新功能。另外,本系统中基于结构和基于内容的査询是其它数字图书馆 所不支持的,在技术上处于领先地位。 本文的工作重点是数字图书馆中查询结果的处理、参考文献的自动超链 接和数字图书馆中信息资源的发现。参考文献是科技论文和书籍的電要组成 部分,它反映论文作者参阅借鉴前人研究成果的基本情况,对读者有很高的 参考价值 。然而,现有的数字图书馆都没有对文后静态的参考文献列表作处 理。当用户需要査看参考文献时,需要输入关键词重新查询。因此,本文设 计并实现了自动构建参考文献超链接的算法,为每篇文章后的每个参考文献 寻找本地链接地址或网上的链接地址,方便用户的査询要求。本文

3、还提出了 一个根据文本之间的引用关系计算文本权值的算法,该算法高效的为系统中 的每个文本计算一个合理的权值,以便对返回的大量查询结果进行排序。另 外,根据参考文献超链接,本文还构建了一个数字图书馆的信息搜索引擎。 关 键词文 a的权值;搜索引擎;超文本链接;参考 文献 Research Base on Query and Reference of Digital library Abstract Digital Library is an information resource system based on computer and net technology and will beco

4、me the management means of the next generation on net. It involves a lot of technologies such as net, multimedia, data warehouse, data mining and copyright protection and so on. In our country, Digital Library is under developing, so it is very important and necessary to build our own Digital Librar

5、y. This paper introduce a unlimited library base on parpallel kork of lots of computers,which conies up with not only data entry,text classification, information store,query optimization,interactive interface,but also provides a new fimctioii that can create appropriately mode of class and data elem

6、ents according to users query.In addition, in technology, Our system based on query of structure and contents is superior to others that cannot support query of structure and contents. The important work of this paper is to deal with result of query,auto link of references and resource discovery of

7、digital library.References are the most important components of papers and books on technology,and they reflect what author make use of others research works that are rather valueable to reaser. However,Digital librarys that exist currently donH deal with static rerence list.User has to input the sa

8、me keyword of reference again when he wants to view reference.so,This paper introduce a algorithm to construct reference hyperlink automatically,which will search link address of reference or net to make user query at easy. Whats more, This paper designed a new document rank algorithm which made use

9、 of the citations between documents- The most effective algorithm will calaulate a appropriate weight in order to sort a large of query result. In addition,this paper also designed a small Search Engineer for digital library according to reference hperlink. Keywords rank; Search Engineer; hypertext

10、link; reference -IIN 第 1章引言 1.1数字图书馆的概念 随着信息技术的发展,需要存储和传播的信息鼂越束越大,信息的种类和 形式越来越丰富,传统图书馆的机制显然不能满足这些需要。因此,人们提出 了数字图书馆的设想。数字图书馆是一个电子化信息的仓储,能够存储大量各 种形式的信息,用户可以通过网络方便地访问它,以获得这些信息,并且其信 息存储和用户访问不受地域限制。 数字图书馆把包括多媒体在内的各种信息数字化、存储管理、査询和发布 集成在一起,使这些信息得以在网络上传播,从而最大限度地利用这些信息。 数字图书馆利用多媒体数据库技术、超媒体技术,针对数字化图朽馆中各种媒 体的特

11、性,在图象检索、视频点播和文献资料提出等方面提出了一套有效可行 的管理检索方案。在当今电子商业、环球市场、虚拟机构日趋普及的年代,数 字图书馆作为一套完善的媒体资产管理系统,无疑创造了一个安全稳妥的环 境,方便共享和销售数字资料 “ 数字图书馆是传统图书馆在信息时代的发展,它不但包含了传统图书馆的 功能,向社会公众提供相应的服务,还融合了其他信息资源 (如博物馆、档案 馆等 )的一些功能,提供综合的公共信息访问服务。可以这样说 t数字图书馆 将成为未来社会的公共信息中心和枢纽。信息化、网络化、数字化,这一连串 的名间符号其根本点在于信息数字化;冋样电子图书馆、虚拟图书馆、数字图 书馆,不管我们

12、用什么样的名问,数字化也是图书馆的发展方向。 数字图书馆 可非正式的定义为有组织的信息馆藏及相关服务,信息以数 字化形式保存,并通过网络进行访问。定义的核心在于说明信息是有组织的。 从卫星发往地球的数据流不能直接作为图书馆的馆藏,同样的数据 一 M经过系 统化的组织,便成为数字图书馆的馆蔵。存储于数字图书馆中的信息分为数据 和元数据。数据是用来描述数字编码信息的一般性间汇 “ 元数据是关于数据的 数据。元数据的类别包括描述性元数据(例如书目的信息)、结构性元数据 (格式和结构信息和管理型元数据(包括权利、许可等管理信息访问的条 款 )“ 标识符是一类元数据,它用来区分著录对象。元数据与数据的区

13、分有赖 于上下文。书面圮录和文摘通常被看作元数据(因为它们描述其它数据 ), 但 在联机目录或文摘数据库中,它们都是数据。 1.2数字 图书馆的优点 建立数字图书馆的主要原因是人们相信数字图书馆能够比过去的模式更好 地传送信息。传统图书馆是社会重要的组成部分,但还欠缺完关。今天,计算 机和网络己改变了人类彼此交流的方式。从连接于网络的个人计算机上得到的 服务会优于直接造访图书馆。数字图书馆的一些潜在优势如下: 1. 图书馆带到用户面前。不论是在工作单位或家中,数字图书馆都能把 信息带到用户的桌面上。有了桌面上的数字图书馆,读者无须在造访图书馆大 楼。只要有一台个人计算机和网络连接,就等于有了图

14、书馆。 2. 实现信息共享。图书馆和档案馆包含许多独特的信息。将数字化信息 放在网上能使任何人都可利用这些信息。很多数字图朽馆或电子出版物在某个 中心位冒维护信息,或许在世界上其他位置留有几个副本。相对过去用昂贵代 价复制的不常用资料或不亲自造访资料的储藏地就不能获得稀有资料的做法, 这已是巨大的进步了。 3. 易于保持最新的信息。许多重要信息需要持续更新。印刷资料不便于 更新。而数字图书馆维护有指南、百科全书以及其他参考著作的在线版本。每 当收到出版商的修订本,它们立即被装载到计算机上。 4. 信息随处可得。数字图书馆的大门永不关 闭。英国大学的最新研究表 明:一半左右对图书馆中数字馆藏的利

15、用发生在图书馆闭馆之后。资料不会借 给其他读者,不会错架,不会被偷窃;馆藏的范围超越了图书馆的围墙。 5. 支持新型的信息。印刷并非最佳的信息记录和发布方式。数据库可能 是存储统计资料的最好方法,这样可以用计算机来分析数据。可以用不同的方 式描绘卫星发回的数据。数宇图书馆可以把数学表达式当作计算机符号存储下 来,供像 Mathanatica或 Maple这样的程序处理。为数字世界创建的资料将比 由机械转换而成的数字化信息更加生动,正如在电视机中无法感受电影故 事片 的美妙一样。 1.3数字图书馆的关键技术 数字图书馆是高技术的产物,信息技术的集成在数字图书馆的建设中扮演 了非常重要的角色。具体

16、来说,其涉及数字化技术、超大规模数据库技术、网 络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、安全 保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、数据 挖掘技术、基于内容的检索技术、自然语言理解技术等。数字图书馆的含义很 广,它不是简单的互联网上的图书馆主页,而是一整套面向对象的、分布式 的、平台无关的数字化资源的集合。广义而良数字图杉馆包括所有数字形式的 图书馆资源:经过数字化转换的资料或本来就是以电子形式出版的资料,新出 版的或经过回溯性加工的资料;各类资源类型,包括期刊、参考工具书、专 著、视频声频资料等;各种文件格式,从位图形式的页面到经 SGML编

17、码的 特殊文本文件。 数字图书馆涉及的技术领域很宽广,需要大量的技术突破作为支撑,建设 数字图书馆我们至少面临着十个技术挑战 1.3.1海量信息资源建设问题 如何快速、有效、有序、合法地把包括历史资料在内的各种媒体资源数字 化后放入数字图书 馆,是涉及到技术、管理和法律等诸多方面的难题,其中, 中文图书的自动录入将是最繁重的一个任务。 1.3.2存储与压缩问题 根据加州大学伯克利分校 Peter Lyman和 Hal Varian的报告 , 全球每年生 产的信息量平均每个人 250兆,这些信息绝大多数以多媒体形态存在,印刷文 档只占总量的 0.003%。因此,如何有效地压缩、保存和方便使用这些

18、海 1数 据,使得系统的成本不至于过高而且系统响应很快,是数字图书馆系统设计最 需要技巧的环节之一, 1.3.3分类、索引和检索问题 为了规范化和易于后续开发,数字图书馆一丌始就需要定义能够覆盖包括 电子图书在内的多种媒体类型的元数据规范,以及基于此规范的内容索引方法 和分类方法为了支持海量数字化资源的自动分类和检索,需要研究基于内容 的多媒体处理技术, 1.3.4安全性问题 安全性包括版权保护和系统安全性的保护。版权保护,是数字图书馆能够 健康发展的前提。 1.3.5用户界面问题 智能化用户界面设计的技术核心是为用户使用数字资源库提供方便的支 持,是数字图书馆系统与用户交流的窗口。如何充分利

19、用图形、语 t及其融合 技术,设计一个具有人性化、智能化的友好、直观、方便的接口,让中国用户 得心应手,不仅需要技术突破,还需要大量实践的检验。 1.3.6信息表现问题 数字图书馆中的许多非文本数据都可以直觉化、可视化,可以用图像、图 形、语音等直接表现出来。但是如何对知识或信息的表现最有效,目前还没有 很好的答案。 1.3.7多语言问题 数字图书馆中的图书可能是用英语、汉语等多种语 g书写的,为了让更多 的人能够方便的阅读各种语言的图书资料,数字图书馆需要提供机 器翻译能 力。 1.3.8工具与平台问题 工具包括图书录入工具、音像制品录入和编辑工具、浏览工具、开发工具 等,平台包括软件平台、

20、数据库平台等。目甜己经有一些商品化的软件平台, 但是如何针对数字图书馆的需求设汁专用工具与软件平台,是一个待解决的技 术挑战。 1.3.9标准与规范问题 数字图书馆领域目前国内没有相应的电子图书标准、多媒体信息表达标 准、元数据标准、服务与互操作标准。 1.3.10系统开放性问题 数字图书馆是一个集成各种数据资源和工具环境的大规模系统,因此系统 的开放性是成功的必要条件。 1.4数字图书馆的研究现状 数字图书馆是一个包含很多计算机技术的领域,针对前面介绍的技术挑 战,目前国内外在数字图书馆的以下方面进行了研究工作:体系结构、存储结 构、索引方法、检索技术、文本分类、元数据管理、数据分布和交互界

21、面。 1.4.1体系结构 体系结构是数字图书馆的框架,许多数字图书馆工程都在体系结构的设计 上花费了大量功夫。 1995年, Robert Kahn和 Robert Wilensky提出 一 个分布 式数字对象服务的框架 |3,包括三个主要部分 : ( Odigitol objects:管理网络环 境中的数字化资料 : ( 2)handles:标识数字化对象和网络资源; ( 3)repositories: 存储数字化对象的库。 Carl Lagoze和 David Ely在数字对象服务的幵放式框架 中提出了仓库的概念 |4。 William Y, Arms和 Christophe Blanch

22、i等在 1997年设 计开发了一个 pilot系统包括以下几个部件 : ( 1)两个用户接口(一个是图 书馆用户接口,另一个是图书馆管理员和系统管 理员接口 ) (2)存储数字化对 象和其它信息的仓库。大的数字图书馆系统可以有许多不同类型的仓库。 ( 3)标 识网上资源的 handle系统。 ( 4)搜索系统。 William P.Birmingham设计了一个基 于软件代理的数字图书馆体系结构 6“ 代理描述数字图书馆中的元素。它是一 个高度封装的软件,有两个特性:自治和协商。这个灵活的软件代理能够联合 许多内容厂商、信息组织策划者和服务供应商共同为数字图书馆服务。 1.4.2人机交互界面

23、交互界面是数字图书馆的重要组成部分,是系统与用户交流的窗口。目 前,许多专家都对人机交互界面进行了深入的研究。例如 : Robert B. Allen提 出了两个利用等层结构的数字图书馆界面 m,他运用杜威十进制的比喻或分面 的 ACM (采用 DAG)作品分类法来支持用户界面 “ 由于数字图书馆要面向各 种人群 , Allison Druin和 Benjamin B. Bederson等人提出了 一 个适用于儿 S 的 数字图书馆界面 8。我国的数字图书馆工作者也在数字图书馆的交互界面方面 开展了一些研究工作,如张凌和张钟对数字图书馆用户界面的工效 学设计进行 了初步研究 【 9HIQ1,选

24、用 8项工效学原则对国内外 15个数字图书馆用户界面进 行了综合评价和比较研究,并对我国数字图书馆用户界面设计中需注意的问题 进行了探讨并提出了建议,如应堤高对用户界面重要性的认识和加强用户界面 的工效学研究、开展数字图书馆用户需求调査、注重防 迷航 、图形界面与字 符界面的关系处理及智能用户界面丌发等各种新技术的应用和重视标准化工作 等。 1.4.3文本分类 由于数字图书馆系统中存储的数据量越来越大,因此如何在数字图书馆 系统中实现自动文本分类也成为近年来数字图书馆领域研究的 一 个热点。自 90 年代以来,有许多自动文本分类方面的统计方法和机器学习方法被提出: K.Nigam和 A.McC

25、alhmi等人提出了基于贝叶斯原理的用少量带标签的文本和 大量不带标签的文本进行文本分类的方法,这种方法具有增量学习的能力 lli * Therriem C. W.等人构造了一种 k近邻算法进行分类 112,这种 k近邻算 法方法,首先计算待分类文本向量到训练集中的所有文本向量的距离,然后从 训练文本集中选择 k个最小的向 t进行综合,以决定其类别。 Salton提出的向 量空间模型 ( VSM), 是大规模语料库最佳的表示模型,大多数文本分类系统 都建立在 VSM基础上,而着重解决项的选取、短语生成、查询扩展、权重评 价等问题 Thorsten Joachims提出了利用支撑向量机來进行文本

26、分类的方 法,支持向量机算法的思想来自于统计学习理论,该算法基于结构风险最小化 原理 f将原始数据集合压缩到支撑向量集合(通常为前者的 3%-5%),然后用 支撑向量集学习得到新知识。同时也给出由这些支持向量决定的规则 Z并且可 得到学习错误的概率上界,即支持向量的期望数目 |141。 1.4.4基于结构的检索和索引 基于结构的文档检索的研究主要包括索引结构的建立、查询语自的定义、 相似性搜索、査询优化方法等方面。为了有效地在结构化文档中进行査询,必 须为文档建立基于结构和内容索引 。 Dongwook Shin15等人提出了一种结构化 文本( XML)的索引和査询方法。该方法对于 XML文本的树状结构,只在叶 节点中保存各个词及其在该叶节点中出现的频率。需要时把以查询节点为根的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁