第2章文献信息检索基础.ppt

上传人:知****量 文档编号:18290698 上传时间:2022-05-30 格式:PPT 页数:33 大小:229.50KB
返回 下载 相关 举报
第2章文献信息检索基础.ppt_第1页
第1页 / 共33页
第2章文献信息检索基础.ppt_第2页
第2页 / 共33页
点击查看更多>>
资源描述

《第2章文献信息检索基础.ppt》由会员分享,可在线阅读,更多相关《第2章文献信息检索基础.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第2章 文献信息检索基础第第2章章 文献信息检索基础文献信息检索基础2.1 文献信息概述文献信息概述2.2 文献信息检索文献信息检索第2章 文献信息检索基础作为人类所特有的,承载和传递文明的载体,文献记录着人类在漫长的历史长河中逐渐积累的经验和创造的知识,成为人类不断发展进步的智慧源泉。在浩如烟海的文献信息资源中,检索所需要的特定文献,需要借助科学的检索方法和策略,需要熟悉和掌握文献信息检索的基本原理和知识。第2章 文献信息检索基础2.1 文献信息概述文献信息概述第2章 文献信息检索基础2.1.1 信息、知识、情报、文献1. 信息信息(information)一词原意是通知、报道或消息。作为一

2、个科学概念,信息在19世纪末最早出现在通信领域,是指通信系统传输和处理的对象。根据近年来人们对信息的研究成果,科学的信息概念可以概括为:信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。利用文字、符号、声音、图形、图像等形式,通过各种渠道传播的信号、消息、情报或报道等内容,都可以称之为信息。一般认为,信息具有如下特点:(1) 普遍性和客观性。信息广泛存在于自然界、人类社会及思维领域中。只要有事物存在,有事物的运动,就会有信息存在。而且,信息是不以人的意志为转移的。(2) 存储性、传递性与依附性。信息是可以被存储和

3、传递的。信息在空间上的传递称为通信,在时间上的传递称为存储。存储和传递是信息的两种基本状态,存储是静态的(相对),而传递则是动态的。信息的存储与传递都离不开物质作为“载体”和“媒体”,即信息必须依附在一定的载体上才能被传递和利用。(3) 共享性。同物质与能量的传递不同,信息源在发出信息后其自身信息并不减少,而且同一信息可以同时被不同的人共同享用。(4) 时效性。信息是有价值的,但是信息的价值又会随时间的推移而改变甚至消失。第2章 文献信息检索基础(5) 价值相对性。相同的信息对不同的人会产生不同的效果和结局。这就是信息价值的相对性。2. 知识知识是与信息相联系又有区别的概念。知识是主体获得的系

4、统化、组织化了的信息。知识反映了主体对客观事物存在及变化的内在规定性的认识,是主体获得的与事物存在及变化内在规定性有关的结构化、系统化的信息,是信息的高级表现形式。3. 情报情报是指被传递的知识或事实,是知识的激活,是通过一定的载体,越过空间和时间传递给特定用户,解决科研和生产中的具体问题所需要的特定知识和信息。情报既不等同于知识也不等同于信息,它是为实现主体某种特定目的,有意识地对有关的事实、数据、信息、知识等要素进行劳动加工的产物。目的性、传递性和效用性是情报最基本的属性。4. 文献我们可理解为,文献就是将知识、信息用文字、符号、图像、音频等记录在一定的固态载体上的结合体。可以说,文献是信

5、息的有形载体,是将游离流动的信息固化在物质载体上而形成的。文献由四个要素构成:(1) 信息内容,即文献所记录的知识和信息,这是文献的灵魂。第2章 文献信息检索基础(2) 符号系统,记录知识和信息的符号。文献中的知识和信息是借助于文字、图表、声音、图像等记录下来并为人们所感知的。(3) 物质载体,用于记录知识和信息的物质载体,如竹简、纸张、胶卷、胶片等,它们是文献的外在形式。(4) 记录方式,如铸刻、书写、印刷、复制、录音、录像等,它们是知识、信息与载体的联系方式。2.1.2 文献分类文献信息的形式多种多样,人们为了便于学习和利用,将它根据不同标准进行了归类和划分。1. 根据存储载体和记录形式划

6、分1) 手写型 手写型文献是指以手工方式将知识信息记录在各种载体上的一种文献形式。2) 印刷型 印刷型文献是以纸张为载体,以印刷技术为记录手段形成的文献形式。它的主要优点是便于阅读和携带、易于长期保存;缺点是体积大、信息密度低。第2章 文献信息检索基础3) 缩微型 缩微型文献是以感光材料为载体,利用光学技术将文字、图形、影像等信息符号按比例缩小的文献形式。缩微型文献阅读时需要较复杂的设备支持,具有体积小、信息密度高、便于收藏和保存、价格便宜等优点。4) 声像型 声像型文献是以磁性材料或感光材料为存储介质,以磁记录或光学技术为记录手段直接记录声音、视频图像的一种文献形式,故又可称为视听材料或直感

7、材料。声像型文献具有直观、生动、易于理解的优点;缺点是成本高、不易检索和更新。5) 数字型 数字型文献是通过编码和程序设计将信息转换成机读语言,存储到计算机外存设备上而形成的文献。数字型文献具有存储密度高、存取速度快、数据易修改、删除、更新并能实现自动检索等特点。2. 根据内容性质和加工程度来划分1) 零次文献 零次文献是指未经出版发行的文献,主要包括手稿、个人通信和原始记录等。零次文献内容比较客观,但具有不成熟、零散、不公开交流等缺点。第2章 文献信息检索基础2) 一次文献 一次文献又称为原始文献,是人们对研究或创造性活动成果的直接记录,一般指公开出版的著作、期刊论文、科技报告、会议文献、学

8、位论文、发明专利等。3) 二次文献 二次文献是指通过科学的方法,将分散无序的一次文献经过筛选、分析、整理,按其内容特征和外部特征进行提炼、浓缩,编制而成的有系统的文献,主要包括目录、文摘、索引等。4) 三次文献 三次文献是通过二次文献提供的线索,对某一范围的一次文献进行分析、综合研究、归纳、整理等深加工所生成的文献。三次文献具有资料性和实用性等特点,是对一次文献进行浓缩、提炼和重新组织的结果。 三次文献是按知识门类或专题将一次文献信息重新组织、高度浓缩而成的,是人们查考数据信息和事实信息的主要信息源。3. 根据出版形式划分根据出版形式,文献通常划分为图书、连续出版物、特种文献三大类。1) 图书

9、 图书是对已有研究成果、生产技术知识、实践经验的论述和概括。按其内容性质和作用,图书可分为普及读物、教科书、丛书、专著、论文集、参考工具书等。第2章 文献信息检索基础2) 连续出版物 连续出版物一般是指定期或不定期连续出版的刊物,包括期刊、报纸、年度出版物(年鉴、指南等)以及成系列的报告、学会会刊和会议录等。连续出版物内容新颖,出版周期短、速度快,能及时反映最新知识、最新科研成果和最新时事。期刊(也称杂志)通常有连续的数字编号和发行的顺序时间,是一种以印刷或其他形式逐次出版发行的出版物。期刊出版周期短,报道速度快,内容新颖广泛,信息量大,发行面广。报纸是一种以刊载新闻和评论为主的定期出版物。它

10、比期刊时间性更强,出版周期更短,报道信息更快。3) 特种文献 特种文献通常指那些出版发行方式或获取途径比较特殊的文献。类型复杂多样,主要包括专利文献、标准文献、会议文献、学位论文、科技报告、政府出版物、产品样本和档案文献等。专利文献蕴含着大量的技术、法律和经济信息,是记录有关发明创造信息的文献。专利说明书是主体。与一般文献相比,专利文献具有及时性、新颖性、详尽性、系统性、实用性、可靠性等特征。标准文献是对工农业产品和工程建设的质量、规格、检验方法及其技术要求等方面做出统一规定的规范性文献,具有一定的法律约束力。第2章 文献信息检索基础会议文献是在各种会议上宣读和交流的论文、报告和其他有关资料,

11、其特点是传递情报比较及时,内容新颖,专业性和针对性强。会议文献质量较高,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋势。学位论文是高等院校或研究机构的学生为取得学位,在导师指导下完成的科学研究、科学试验的书面报告。科技报告是对科学、技术研究结果的报告或研究进展的记录。科技报告注重详细记录科研进展的全过程,是科技人员交流其研究活动及成果的重要手段。科技报告的特点是较快反映新技术、新学科,内容新颖详尽,专业程度较高,数据翔实可靠,保密性较强,大部分属于保密和控制发行的文献。科技报告在一定程度上反映了一个国家或某一个学科的科研水平,是不可多得的信息源。政府出版物是由政府部门及其设立的专

12、门机构发布出版的文献信息资料,主要包括政府报告、政策法令、规章制度、会议纪要、调查统计资料等。政府出版物的主要特点是正式、权威,材料充实,数据可靠。它们是了解各国政治、经济、科学技术的方针政策及其发展状况的权威性信息来源。产品样本是对定型产品的性能、构造和原理、用途、使用方法和操作规程、产品规格等所作的具体说明,是进行技术革新、设备改造、试制新产品的重要技术参考资料。产品样本一般图文并茂、形象直观、可靠性强。同时,产品样本出版发行迅速,更新及时。产品样本的产品和技术信息比较完整,但多不提供详细数据和理论依据。第2章 文献信息检索基础档案文献是国家机构、社会组织以及个人从事政治、军事、经济、科学

13、、技术、文化、宗教等活动形成的具有保存价值的各种文字、图表、声像等不同形式的历史记录,是完成传达、执行、使用或记录现行使命而备留查考的文件材料。档案文献集记录性和原始性于一体,具有特殊的使用价值。档案的内容广泛、形式多样、材料来源庞杂。4. 根据获得的难易程度划分1) 白色文献白色文献指一切正式出版并在社会上公开流通的文献,包括图书、报纸、期刊等。2) 灰色文献灰色文献指非公开发行的内部文献和限制流通的文献,包括社会公开传播的内部刊物、内部技术报告、内部教材和会议资料等。3) 黑色文献黑色文献包括两方面的文献,一是未破译和未辨识其中信息的文献,如考古发现的未经分析厘定的古老文字;二是处于保密状

14、态和不愿公布其内容的文献,如未解密的政府文件、内部档案、个人日记、私人信件等。第2章 文献信息检索基础2.1.3 文献信息服务系统 文献信息服务机构是文献信息资源的最大集散地,它们负责搜集、整理、存储、传递各种文献信息。我国的文献信息服务机构主要有图书馆系统、科技信息服务系统、专利文献服务系统、标准文献服务系统和档案馆系统。1. 图书馆系统 图书馆是对文献进行搜集、整理、保管并提供服务的科学、教育、文化机构,其主要任务是整理和传递科学信息,进行社会教育,搜集和保存人类文化遗产。随着数字化信息的应用深入到各个领域,数字图书馆已成为图书馆的发展趋势。目前,数字图书馆正在成为社会的公共信息中心和枢纽

15、。2. 科技信息服务系统科技信息服务系统主要负责搜集、整理、研究和传递各种专业性学术信息,收藏各种类型的专业性文献,为广大信息用户提供专业性信息资源。其服务内容十分丰富,如为各级领导提供调研及决策信息,为专利申请或科技成果申报进行查新服务,进行科技成果转让及推广服务,编译专题资料等。我国有一个庞大的科技信息服务系统,它们分别隶属于不同的部门。其中最高级别的是隶属国家科技部的中国科技信息研究所,其次是隶属于各省、市的科技信息研究所,以及隶属国务院各部委的专业性科技信息研究所。第2章 文献信息检索基础3. 专利文献服务系统专利文献系统是国家科技信息体系的重要组成部分。专利文献中心是从事专利文献的收

16、集、存储、加工、检索和服务的专门机构。另外,专利文献中心也开展专利信息研究工作,编辑、出版有关专利文献的专题目录、索引、文摘等。我国专利文献服务工作主要由中国专利文献服务中心(国家知识产权局专利局文献馆)以及各地的专利代理机构(通常挂靠在各省科技信息研究所)负责。4. 标准文献服务系统标准文献服务系统由中国标准化研究院国家标准馆和各省、市标准化研究院(所)下设的标准馆以及国内相关标准文献收藏机构组成。国家标准馆隶属中国标准化研究院,是我国唯一的国家级标准文献、图书、情报的馆藏、研究和服务机构,是国家标准化管理委员会的基础信息支撑机构。国家标准馆是国家标准文献中心,负责全面收集、整理、存储我国的

17、国家标准、行业标准和企业标准,收藏国际标准,有选择性地收藏世界各国的标准文献,并提供标准文献的信息服务。各省、市的科技情报所、各种专业图书馆和标准颁布单位一般均收藏有部分标准文献。5. 档案馆系统档案馆是档案史料的服务中心,负责档案资料的收集、整理、保管并提供社会使用。我国档案馆大致可分为国家档案馆、地方档案馆、专门性档案馆和基层单位档案室等。第2章 文献信息检索基础国家档案馆主要负责收集、保管党和国家需要长久保存的档案和有关资料,并对其进行研究和利用。地方档案馆负责收集和保管各省、市、区档案资料。专门性档案馆负责保管各种专门性的档案。档案室作为各机关、企业、事业单位的一个部门,负责管理本单位

18、内部的全部档案资料。档案馆向全社会或本系统的用户提供服务,而档案室主要为本单位用户提供服务。第2章 文献信息检索基础2.2 文献信息检索文献信息检索第2章 文献信息检索基础2.2.1 文献信息检索概念广义的文献信息检索,包括信息的组织和查找两个过程,即将信息按照一定的方式组织和存储起来,并根据用户的需要找出有关信息的全过程。信息检索是根据需要,借助检索工具,从信息集合中找出所需信息的过程。文献信息的组织过程包括信息的描述、标引、整序等过程。信息描述就是对文献信息的外部特征进行分析提取,然后对这些特征加以规范化记录。信息标引就是对信息内容进行分析,并充分而有效地提炼标示的过程。信息整序,就是把获

19、得的信息的外部特征和内容特征按照一定的规则有顺序地组织起来。文献信息的查找过程包括:用户对所需信息内容进行特征描述;构成检索式或检索指令向信息检索系统进行提问;按照一定的检索技术将检索式与检索系统信息源单元进行比较匹配;以一定标准将匹配度较高者作为检索结果输出。文献信息的组织过程就是建立信息检索系统的过程,而查找的过程就是从信息集合中找出所需信息的过程。文献信息的组织和存储方式在一定程度上决定了信息查找技术和策略的运用以及检索的结果。信息查找的方法和所采取的检索策略则直接影响了信息检索的结果。组织是检索的前提,只有经过组织的有序的信息集合才能被检索利用,查找则是组织的反过程。组织与查找是相辅相

20、成、相互依存的辩证关系。第2章 文献信息检索基础文献信息检索的实质就是将用户的信息需求和文献信息的存储标识进行比较和选择,从中找出与用户需求一致或基本一致的信息。因此,文献信息检索是以文献信息的存储与查找所依据的规则基本一致为基础的,如果两个过程不能相符,信息检索就失去了基础,用户就查不到所需信息,存储也就失去了意义。2.2.2 文献信息检索语言信息检索语言又称情报语言、情报存储与检索语言、标引语言等,是根据检索的需要而创制的人工语言,是用于描述信息系统中信息的内部特征和外部特征及表达信息用户提问需求的一种专门语言。1. 检索语言的作用检索语言用于促成信息检索系统与检索用户的沟通。借助检索语言

21、,检索系统与检索用户所有的双向交流才能成为可能。一方面,检索语言可以在一定程度上规范用户的检索行为,使不同的检索用户遵循相同的检索规范。另一方面,参与信息检索系统建设的人员众多,尤其是信息标引,不同的标引人员必须依据统一的规则进行原始信息的标引。2. 检索语言的类型 (1) 根据检索语词的规范化程度,检索语言可分为人工语言和自然语言。 人工语言。人工语言又称规范化语言,即把检索语言中各种同义词、多义词、同形异义词作规范化处理,使每个词表达一个概念。第2章 文献信息检索基础人工语言采用特定词汇来指示宽度适当的概念,用户在检索时可省略该概念的全部同义词或近义词,避免了多次输入检索词的麻烦和出错的可

22、能。 自然语言。自然语言是直接从原始信息中抽取的未经规范化处理,用以揭示信息主题概念的自由词。自由词具有较大的灵活性,专指性强,能及时反映最新的概念和规范词难以表达的特定概念。(2) 按组配方式,检索语言可分为先组式语言和后组式语言。 先组式语言。先组式语言指在文献信息检索之前,表达文献信息内容的标识已经事先组配好了的信息检索语言。 后组式语言。后组式语言指表达文献主题概念的标识,在编制检索语言词表和标引文献时,不曾预先规定组配关系,而是在进行检索时,用户根据检索需要,按照组配规则临时组配起来的信息检索语言。(3) 按描述文献的特征,检索语言可分为描述文献外部特征的检索语言和描述文献内容特征的

23、检索语言。描述文献外部特征的检索语言。文献外部特征主要是指文献的题名、责任者(个人/团体)、出版者、报告号和专利号等。描述文献外部特征的检索语言将文献的这些不同特征按一定的顺序排列,形成文献的不同检索途径,来满足用户的检索需要。 描述文献内容特征的检索语言。该类检索语言指描述文献论述的主题、观点、见解和结论等的检索语言,如常用的分类语言、主题语言和引文语言都是描述文献内容特征的检索语言。第2章 文献信息检索基础分类语言是按学科范畴划分事物而构成的一种检索语言体系。分类语言以学科分类为基础,按照概念划分的原理,将知识概念从总体到个体,从一般到特殊、从全部到局部逐级划分,每划分一次就形成一批并列的

24、知识概念。分类语言以分类法的形式来体现,其特点是用分类号来表达各种概念,把各种概念按学科分类进行系统组织和排列。分类法有利于系统掌握某一学科或专业范围的信息。主题是指文献具体论述的对象和研究的问题。主题语言是以代表文献内容特征和科学概念的词语作为检索标识,并按字顺排列组织起来的一种检索语言。按选词原则,主题语言又分为标题词语言、单元词语言、叙词语言和关键词语言四种。引文索引法是一种特殊的信息组织方法,主要利用文献与文献之间的相互引证关系来组织信息。所谓引文语言,就是这种索引词的集合。代码语言是指用某种代码系统来表示和排列事物的某方面特征,并提供检索的一种语言。2.2.3 文献信息检索工具文献检

25、索工具是人们利用信息检索语言制作的用来报道、存储和查找各类信息的工具。按照检索手段的不同,检索工具可分为手工检索工具、机械检索工具和计算机检索系统。按照著录形式的不同,检索工具可分为目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。按照载体形式的不同,检索工具可分为书本式检索工具、卡片式检索工具、缩微式检索工具和机读式检索工具等。第2章 文献信息检索基础1手工检索工具手工检索工具是传统的检索工具,主要是各种类型的工具书。根据体例和功能,工具书可分为检索类工具书、词语类工具书、资料类工具书、表谱类工具书、图录类工具书和边缘类工具书等类型。1) 检索类工具书按著录内

26、容,检索类工具书可分为目录、题录、文摘和索引。目录通常是以文献的“本”、“种”、“件”等为单位,是对一批相关文献外表特征的揭示和报道。题录是报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。文摘是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具。2) 词语类工具书词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以及学科名词术语的含义、演变和发展。3) 资料类工具书资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。4) 表谱类工具书表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实

27、和时间的一种工具书。第2章 文献信息检索基础5) 图录类工具书图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。6) 边缘类工具书边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功能的文献。2机械检索工具机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括机电检索工具和光电检索工具两种类型。3计算机检索系统计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信息的检索工具。检索系统由硬件和软件组成,硬件主要包括计算机主服务器、检索终端、

28、数据输出设备等。软件主要包括检索程序和数据库等。计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。1) 光盘检索系统光盘检索系统是指利用计算机、光盘驱动器和光盘数据库以及检索软件建立起来的信息检索系统。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时。第2章 文献信息检索基础2) 联机检索系统联机检索是指用户利用终端设备,通过国际通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的由联机服务中心的主计算

29、机、检索终端、通信网络、联机数据库、检索软件等组成的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。联机检索系统的优点是数据库容量大、检索速度快、检索途径多、内容新、实时性强、可共享性好、安全性强,具有完善的检索辅助功能。其缺点是检索系统及文档的收录、标引等规则较为复杂,检索技术和技巧不易掌握,设备要求高,检索费用昂贵等。3) 网络检索系统网络检索主要通过Internet检索和获取网上信息。网络检索系统一般由计算机服务器、用户终端、通信网络、网络数据库等组成,是通过Internet提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。4)

30、数据库数据库是长期存储在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。第2章 文献信息检索基础按照不同的标准,数据库的划分有不同的结果。按信息处理层次,数据库可分为书目数据库、文摘数据库和全文数据库。按媒体信息,数据库可分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。按服务模式,数据库可分为单机数据库、联机数据库和网络数据库。2.2.4 文献信息检索过程文献信息检索就是根据检索课题的要求,利用一定的检索工具,选择适当的检索途径和方法,实施查找有关

31、资料的具体过程。1分析检索课题分析检索课题是信息检索成功与否的关键,其目的在于理清检索的基本思路,明确检索的目的、要求与检索范围,并从检索需求中发掘检索的已知条件。通过对检索课题分析,应明确的内容包括:检索课题的学科与主题属性;课题所需文献的类型;课题所需文献生成的具体时间段;课题检索的已知条件。2选择检索工具或检索系统根据检索课题的要求,选择最能满足检索要求的检索工具书或检索系统。3检索策略的制定检索策略的制定包括确定检索途径与拟定检索式。检索途径的选择是以检索课题的分析为基础的。常用的检索途径包括分类、主题、题名和作者。第2章 文献信息检索基础一般来说,主题途径是最常用的检索途径。选择主题

32、途径检索时,需要分析所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析各概念之间的上、下、左、右关系。通常情况下,检索词选取时应注意的几个问题有:(1) 检索词应意义明确,具有专指性,涵盖主要主题概念。(2) 尽可能考虑相关的同义词、近义词作为检索词。(3) 避免使用低频词或高频词。必须用时,应与能表达主要检索特征的词一起组配,或增加一些限制条件。(4) 选用国外惯用的技术术语。(5) 尽量使用代码,以提高检全率。在手工检索时,每次检索只能从一个检索点出发,而且只能选择其中的一个属性值,检索范围比较窄。而机检系统适应多点、多属性值检索,对课题所涉及的方方面面,对包含的多个概念或多

33、种限定都可以做出相应的处理。4. 实施检索操作确定了具体的检索式后,就要利用检索工具,在一定的年代范围内具体查找。手工检索时可以一边检索一边分析取舍,获得符合要求的文献。计算机检索时,在输出最终结果之前,检索可能要经过多次反复的过程。第2章 文献信息检索基础通常情况下,衡量检索效果好坏主要依靠“检全率”和“检准率”两个指标。检全率是对所需信息被检出程度的量化,用来表示信息系统能满足用户需求的完备程度,可以用检索文献中合乎需要的文献数量占检索系统中存在的合乎需要的文献总量的比率来表示;检准率是衡量信息系统拒绝非相关信息的能力的量度,可以用检出文献中合乎需要的文献数量占被检出文献总量的比率来表示。

34、检全率的误差是漏检率;检准率的误差是误检率。检全率和检准率既可以用来评价检索系统质量,又可以用来衡量具体课题的检索效果。一般来说,检全率和检准率之间存在互逆关系,即当某一系统的检全率与检准率处于最佳比例关系时,如果继续提高检全率,会导致检准率降低;如果继续提高检准率,就会造成检全率降低。对于信息检索系统来说,系统内信息存储不全面,收录遗漏严重,词表结构不完善,索引词汇缺乏控制,标引不详尽或者标引的专指度缺乏深度,不能精确描述信息主题,组配规则不严密,容易产生歧义等,都是影响检全率和检准率的因素。从理论上讲,理想的检索效果应当是全面而又精确的检索。要提高检索效果,可以从以下两方面采取措施和方法:

35、(1) 提高检索系统的质量。提高检索系统的质量不仅指扩大数据库中信息资源的收录范围,而且数据库的著录内容要详尽、准确,辅助索引完备,具有良好的索引语言专指性和较高的标引质量等。第2章 文献信息检索基础(2) 提高用户利用检索系统的能力。用户要具备一定的检索语言知识,检索课题要符合数据库的收录内容,能够选取正确的检索词和合理使用运算符完整表达信息需求的主题;灵活运用各种检索技术、检索方法和检索途径;能够结合使用综合性检索系统和专业性检索系统,实施跨库检索;制定优化的检索策略,准确地表达检索要求,尝试多次检索并随着背景知识的增加,不断调整检索策略。5. 获取原始文献文献检索的最终目的是获取相关的原

36、始文献。传统的原文获取方式是根据检索结果中提供的文献来源,到图书馆借阅复印。现在,随着网络技术的发展和全文数据库的兴起,获取原文的方式也越来越多。主要有以下几种途径:(1) 通过全文数据库直接获取。(2) 通过网络信息检索获取。(3) 通过馆际互借获取。(4) 通过文献传递系统获取。(5) 通过文献著者获取。(6) 通过联机检索系统订购原文。第2章 文献信息检索基础2.2.5 文献信息检索方法与技术1. 文献信息检索方法文献信息检索方法即查找文献信息的方法,它与检索课题的性质和要求有关。掌握文献信息检索方法,目的在于寻求一种省时、准确、有效的检索捷径。在实践中,人们总结出了以下几种常用的检索方

37、法。1) 常用法常用法又称工具法,就是直接利用书目、索引、文摘等检索工具查找文献信息的一种方法。常用法的具体操作,又可分为顺查、倒查和抽查三种方式。(1) 顺查法:是一种依照时间顺序,按照检索课题涉及的起始年代,由远及近地查找信息的方法。(2) 倒查法:是一种依照时间顺序由近及远地进行查找,直到满足信息检索的需要为止的一种查找方法。(3) 抽查法:是针对检索课题的特点,选择与该课题有关的文献信息最可能出现或最多出现的时间段,进行重点检索的方法。2) 引文法引文法是利用文献之间的引用关系查找相关文献的方法,包括追溯法和引文索引法两种。第2章 文献信息检索基础(1) 追溯法。追溯法是利用现有文献后

38、附的参考文献或引用文献作为线索,由近及远地逐一追溯查找相关文献的方法。追溯法往往在缺乏检索工具,同时又拥有丰富的原始文献的情况下使用。(2) 引文索引法。引文索引法是从被引论文开始查找引用它的全部论文的一种检索方法。这种方法通过先期文献被后来文献的引用情况,来说明文献之间的相关性及先前文献对当前文献的影响力。3) 循环法循环法又称综合法、交替法或分段法,是交替使用常用法和追溯法来查找文献的一种检索方法。在查找文献信息时,一般先用常用法,即利用检索工具查出一批文献资料,然后选择出与检索课题针对性较强的文献,再利用这些文献所附的参考文献追溯查找。如此交替、循环使用常用法和追溯法,不断扩检,直到满足

39、检索要求为止。这种方法的好处是综合了常用法和追溯法的优点,能够弥补检索工具不完善或收藏不全的缺陷,最大限度地获得所需的文献信息。4) 浏览法浏览法比较适合查找新近发表的还未被各检索工具收录的文献,是通过浏览的方式查阅文献原文而获取所需文献信息的方法。一般来说,浏览法只能浏览获取本馆馆藏文献,资料的全面性和系统性受到很大的限制,因而具有很大的局限性,不能作为查阅文献的主要方法。第2章 文献信息检索基础2. 计算机文献信息检索技术在计算机信息检索系统中,虽然各数据库提供给用户的检索功能各不相同,但比较通用的有浏览、简单检索和高级检索等功能。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检

40、索、位置检索和限制字段检索等检索技术。1) 布尔逻辑检索在计算机信息检索中,单独的检索词一般不能满足课题的检索要求。布尔逻辑检索是运用布尔逻辑运算符对检索词进行逻辑组配,以表达两个检索词之间的逻辑关系。常用的组配符有AND(与)、OR(或)、NOT(非)三种。布尔逻辑检索是最常用的计算机检索技术,在一些检索系统中AND、OR、NOT组配符可分别用、+、-代替。(1) 逻辑“与”(AND,)。逻辑“与”是具有概念交叉和限定关系的一种组配,用来组配不同的检索概念,其含义是检出的记录必须同时含有所有的检索词。(2) 逻辑“或”(OR,+)。逻辑“或”是具有概念并列关系的一种组配,其含义是检出的结果只

41、需满足检索项中的任何一个即可。在实际检索中,一般用逻辑“或”来组配同义词、近义词、相关词等,以扩大检索范围,避免漏检,提高检全率。(3) 逻辑“非”(NOT,-)。逻辑“非”是具有概念删除关系的一种组配,可从原检索范围中剔除一部分不需要的内容,即检出的记录中只能含有NOT算符前的检索词,不能同时含有其后的检索词。第2章 文献信息检索基础2) 截词检索在数据库检索时,常常会遇到词语单复数或英美拼写方式不同,词根相同、含义相近而词尾形式不同等情况。为了减少检索词的输入,提高检索效率,通常使用“?”、“*”等截词符加在检索词的前后或中间,以扩大检索范围,提高检全率。按截断的字符数量来分,可分为有限截

42、断和无限截断。有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常用“*”表示。按截断的位置来分,可分为后截断、中截断和前截断。(1) 后截断。后截断是最常用的截词检索技术,又称前方一致的检索,是将截词符号放置在一个字符串右方,以表示其右边的有限或无限个字符将不影响该字符串的检索。后截断可以省略输入各种词尾有变化的检索词的麻烦,有助于提高检全率。(2) 前截断。前截断是一种后方一致的检索,是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索。前截断在各种词头有变化的复合词的检索中应用比较多。(3) 中截断。中截断是把截

43、断符号放置在一个检索词的中间。一般地,中截断只允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高检全率。但是,不同的检索工具有不同的截词规则,使用的截词符号也没有统一的标准。第2章 文献信息检索基础3) 位置检索位置检索也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。(1) W(With)算符。A(W)B表示A、B两词必须紧挨(之间不允许有其他词)且位置关系(词序)不可颠倒。A(nW)B表示A、B之间最多可插入n个单词且位置关系(词序)不

44、可颠倒。其中n为整数,但n不能太大,否则运算符将失去意义。(2) N(Near)算符。A(N)B表示A、B两词必须紧密相邻,词间不允许插入任何词,但词序可以颠倒。A(nN)B表示A、B两词间可插入不多于n个的单词(n为整数),而且词序可变。(3) F(Field)算符。A(F)B表示A、B检索词必须同时出现在同一记录的同一字段中,两词的词序、中间可插入单词的数量不限,但使用此算符时必须指定所要查找的字段(如AB、TI、DE、AU等)。(4) L(Link)算符。A(L)B表示A、B检索词之间存在从属关系或限制关系,如果A为一级主题词,则B为二级主题词。(5) SAME算符。A(SAME)B表示

45、A、B检索词同时出现在同一个段落(paragraph)中。第2章 文献信息检索基础4) 限制检索限制检索是通过限制检索范围,从而达到约束和优化检索结果的一种方法。限制检索的方式有多种,常用的有字段限制检索和限制符限制检索。(1) 字段限制检索。数据库记录是由若干个字段组成的,字段限制检索是把检索词限定在数据库记录的特定字段中的检索方法。如果记录的相应字段中含有输入的检索词则为命中记录。字段限制检索可以缩小检索范围,提高检准率。数据库中提供的可供检索的字段通常分为基本索引字段和辅助索引字段两大类。(2) 限制符限制检索。限制符限制检索是使用AU(作者)、CS(作者单位)、JN(刊物名称)、PY(

46、出版年份)、LA(语言)等限制符号从文献的外部特征方面限制检索范围和检索结果的一种方法。限制符的用法与后缀符相同,而它的作用则与前缀符相同。5) 加权检索加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔逻辑检索、截词检索等一样,也是信息检索的一个基本检索手段。加权检索的基本方法是:在每个检索词后面给定一个数值表示其重要程度,这个数值称为权。在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。第2章 文献信息检索基础运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围、提高检准率的有效方法。但

47、并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。6) 聚类检索聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成许多文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。总之,计算机信息检索是利用计算机的逻辑运算功能来实现文献的有无、多少、异同的比较匹配,以达到检索目的。在实际使用中,应配合使用布尔逻辑检索、截词检索、位置检索、限定字段检索、限定范围检索等检索方法以达到较高的检全率和检准率,保证检索质量。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁