《信息检索复习纲要(精).doc》由会员分享,可在线阅读,更多相关《信息检索复习纲要(精).doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章 信息检索基础知识1. 信息、文献、资料的概念及其包含关系1) 信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息 。(信号被理解吸收即为信息)2) 文献:a) 定义:记录下来的知识,必须有知识和载体两部分。b) 载体:文献的形态,如甲骨、纸介型 、胶片,磁带,磁盘,光盘等c) 记录手段:文字、图像、公式、声频、视频和代码等d) 物质形态:图书、期刊、专利说明书、录音带、缩微品、光盘等3) 资料:a) 定义:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。也可以称为固化在一定载体上的知识。 b) 灵
2、魂:知识 文献的内容c) 载体:文献的形态,如甲骨、青铜器、纸介型 、胶片,磁带,磁盘,光盘等d) 记录手段:文字、图像、公式、声频、视频和代码等e) 物质形态:图书、期刊、专利说明书、录音带、缩微品、光盘等4) 包含关系:文献资料信息2. 信息的分类及特点1) 按载体的出版编辑特点:分有十二大文献类型(及各自特点)n 图书:是对科研成果、生产技术和经验的总结性的概况论述A) 内容特点:系统性好、完整性好B) 出版周期较长,报道速度相对较慢C) 著录特征:著者、出版项(出版地、出版社名和出版年份)、国际标准图书号(ISBN)n 期刊A) 期刊一般是指名称固定、定期或不定期连续出版物。B) 特点
3、:内容新颖 报道速度快 系统性差C) 著录特征:ISSN、 CN、 年、卷、期(邮发代号内部准印证)n 会议文献 :研究人员在各种学术会议上交流科研新成果、新进展、及发展趋势的讨论记录或论文(通称会议论文)A) 特点:传递信息及时、针对性强、内容新颖B) 一部分科研成果就是通过学术会议首次发表的C) 会议文献特征:有会议召开的地点、届次、时间,以及会议录的出版社、出版地、出版时间等。n 专利文献:是一种用法律形式来保护的文献,专利文献主要由专利说明书构成。它反映了当前最新的技术成果。专利说明书对于工程技术人员,特别是产品工艺设计人员来说,是一种重要情报源。n 发明专利:具有较高水平的发明,是在
4、某个领域内具有独创性的发明n 科技报告:是指国家政府部门或科研生产单位关于某项研究成果的总结报告,或是研究过程中的阶段进展报告。A) 与期刊相比:在内容方面,报告比期刊论文专深、详尽、可靠。是一种不可多得的情报源。科技报告能代表一个国家和专业的发展水平及动向。B) 目前国际上较著名的科技报告是美国政府的四大报告,即w 民用工程报告w 军用工程报告 w 航空航天报告w 能源报告。n 学位论文:是著者为获得某种学位而撰写的科学论文。A) 一般偏重于理论B) 附有大量的参考文献C) 借此可以看出有关专题的发展过程和方向n 政府出版物:是各国政府部门及其所属机构颁布和出版的文件资料。A) 内容主要分为
5、w 行政性文件(如政府法令、方针政策等)w 科技文件(如科学技术白皮书 )。B) 对了解一个国家的科技和经济政策及其演变情况有一定的参考价值。n 标准文献:是对工农业产品和工程建设的质量、规格及其检验方法所做的技术规定。标准文献具有一定的法律约束力。 A) 反映当时的技术工艺水平及技术政策B) 国际标准化组织(ISO)和国际电工委员会(IEC)。 C) 标准文献的特点是:有标准号。D) 标准号由三部分组成:标准颁布机构代码+顺序号+颁布年份例如: GB2683-98n 产品资料:指产品目录、产品样本和产品说明书一类的厂商产品宣传和使用资料。产品技术资料一般向厂商直接索取。n 技术档案:是指生产
6、建设和科学技术部门在技术活动中形成的。n 报纸、新闻稿:是指那些阐述问题面广,具有群众性与通俗性,对科技成果报道的不系统,可获得一些重要消息的资料。n 工作文稿:准备在期刊上发表或向学术会议提出的论文或研究报告的初稿,是一种短时效的文献,是一种很难全面收集的文献。 总结1:A 理论探讨性质期刊、会议文献、学位论文B 了解某一个课题的历史现状及末来图书C 工艺革新、发明创造专利文献D 了解尖端技术科技报告E 毕业设计、撰写毕业论文学位论文F 国家政策政府出版物 G 产品设计、生产造型标准文献、产品资料总结2:A 国际标准图书号(ISBN)a) 由10位数组成7-5335-1519-6/TP64b
7、) 第一段:组号代表国家、地区、语种c) 第二段:出版者号,由国家或地区ISBN中心分配;d) 第三段:书名号,由出版者按出版顺序所给e) 第四段:校验位B 国际标准期刊号ISSNa) 由8位数组成b) 例如 的国际标准期刊号为:ISSN10050043,最后一位为检验码。C 国内统一刊号CNCN 11 3248/TP 地区号顺序号分类号D 标准文献的特点是:有标准号(标准颁布机构代码+顺序号+颁布年份)GB 2683 - 98 标准颁布机构代码顺序号 颁布年份E 专利号(见本资料第五章)2) 信息按照信息载体的编辑特点分类图书、期刊、特种文献3) 按信息的加工层次分类:a) 一次信息:原始文
8、献b) 二次信息:将分散的、无组织的一次信息,按一定的原则加工、整理、简化、组织成为系统的、便于查找利用的信息。即(检索工具)目录、题录、索引、文摘c) 三次信息:在合理利用二次信息的基础上,选用一次信息的内容,根据一定的需要、目的进行分析、综合或浓缩重组而得到的信息。即(参考性文献)论文丛集、综述、年鉴3) 信息与三次信息的区别:A 对象不同a) 二次信息以“ 篇” 或“ 本” 为单位进行加工b) 三次信息则归纳了较多的一次信息内容B 用途不同a) 二次信息为检索一次信息的工具b) 三次信息能直接提供检索答案.3. 信息检索包括三个方面: 数据检索 、事实检索 、文献检索 (三者中以文献检索
9、为主)4. 文献检索1) 定义:a) 检索系统的建立及检索工具的组织和积累b) 文献查询2) 类型:a) 直接检索是从通过阅读原始文献直接获取所需信息,快捷、方便、漏查率高b) 间接检索是通过二次文献(检索工具)的指导再查找原始文献而获取所需信息,系统、全面滞后5. 文献检索工具1) 定义:检索工具是按一定的学科、主题等进行搜集整理并给予文献的标志,是及时报道的二次文献,具有报道、存贮、检索的功能。2) 类型:目录型检索工具、题录型检索工具、文摘型检索工具、索引型检索工具a. 目录型检索工具 目录型检索工具是记录具体出版单位、收藏单位及其他外表特征的工具。目录著录的对象是单位出版物,一般著录文
10、献的名称、著者、文献出处等。目录的种类很多,对于文献检索来说,国家书目、联合目录、馆藏目录等尤为重要。 b. 题录型检索工具 题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名、著者姓名、文献出处等),题录的著录对象是单篇文献,是快速报道文献信息的一类检索工具。它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。 c. 文摘型检索工具 文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。d. 索引型检索工具 索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或
11、知识单元,如书名、刊名、人名、地名、语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。 第二章 网络资源1. www资源的基本知识1) TCPIP协议:TCP/IP是一个网络协议族,其中TCP协议、IP协议是最基本的协议,简称TCP/IP协议。INTERNET是基于TCPIP协议协议进行数据传输的。2) IP地址:Internet上的每一台计算机主机都必须有唯一的“地址”,以保证Internet上所有的计算机和网络能够被互相传送信息而不被混淆,以数字表示,称为IP地址。IP地址由32位二进制数组成, 分四组(每组8位),用十进制表示,每位IP的范围从0到255。3) 域
12、名:具有实际含义的网址,比IP地址好记。域名的层次结构从右到左,子域名分别表示:国家或地区的名称、组织类型、组织名称、分组织名称、计算机名称等,如:w 国内域名w www.whitehouse.gov国际域名w 国际域名w 国内域名w www.第一财经.com中文域名,国际域名w http:/清华大学.cn 中文域名,国内域名4) DNS:从事域名和IP地址之间的翻译工作5) HTML:超文本标记语言,所有WWW的页面都是用HTML编写的超文本文件。6) HTTP协议:超文本传输协议,HTTP是Web服务器和Web客户机进行通讯的语言。所有的Web服务器及浏览器必须遵循这一协议,才能发送或接收
13、超文本(超媒体)文件。Web服务器又称HTTP服务器。2. 搜索引擎: 1) 搜索引擎是Internet网络上查找信息最常用的方法。2) 工作原理:a) 派出“ 网页搜索程序” 在网上搜寻所有信息,并将它们带回搜索引擎 ;b) 将信息进行分类整理,建立搜索引擎数据库 ;c) 通过Web 服务器端软件,为用户提供浏览器 界面下的信息查询3) 类型:分类目录式搜索引擎、全文搜索引擎、元搜索搜索引擎a) 分类目录式搜索引擎按目录分类的网站链接列表,提供相关类目的网站信息。如网址大全。b) 全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记
14、录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。如Google、baidu等。c) 元搜索搜索引擎将多个搜索引擎集成在一起,并提供一个统一的检索界面,当用户查询时,它查询的问题同时发给多个搜索引擎,同时检索多个数据库,再经聚合,去重之后输出检索结果。3. 使用搜索引擎的技巧4. 信息检索技术:1) 布尔逻辑符(或、与、非)a) 逻辑与:符号为“*”或“AND”,A*B:表示数据库中既含有A概念又含有B概念的文献才被命中。可以用来缩小范围。 如:计算机在机械工业中的应用计算机应用*机械工业b) 逻辑或:符号为“”或“OR”,AB:表示在数据库中只要含有A概念或B概念的文献都可
15、命中。可以用来扩大范围。如:机器人的结构及构件研究机器人结构+机器人构件c) 逻辑非:符号为“”或“NOT”,AB:表示在数据库中,在命中含有A概念的文献集合里,去除同时含有B概念的文献。 如:电视台中央电视台2) 查全率、查准率a) 查全率(检索出的相关信息量/系统中的相关信息总量)*100%,衡量检索系统和检索者检出相关信息的能力;b) 查准率(检索出的相关信息量/检索出的信息总量)*100%,衡量检索系统和检索者拒绝非相关信息的能力;c) 提高查准率的方法有:使用逻辑“与”(AND).d) 提高查全率的方法有:使用逻辑“或”(OR)5. 电子邮件1) SMTP(收件协议)、POP3邮局协
16、议(发件协议)2) 电子邮件的格式:用户名邮件服务器域名,如jfchen20023) 工具:Outlook、Foxmail 4) 应用:邮件列表、新闻组6. 文件传输协议:FTP7. 远程传输协议:TELNET第三章 图书信息的检索和获取1. 图书的特点、著录特征2. 索引语言的类型:分类语言、描述语言、代码语言、引文语言1) 分类语言:又分为体系分类法和组配分类语言,其中体系分类法又分为以下四类:a) 中图法,即中国图书馆图书分类法,分为五大部类,22个大类。福州大学图书馆就是采用中图法分类。b) 科图法,即中国科学院图书馆图书分类法c) 人大法,即中国人民大学图书馆图书分类法d) 资料法,
17、即中国图书资料分类法2) 描述语言:关键词(指从文献的标题、文摘以及正文中抽取的对表达文献主题起关键作用且具有检索意义的词语。)关键词的选取原则:a) 关键词主要选择名词、动名词和名词化的词组。冠词、介词、连词、助动词、某些形容词不选作关键词 。b) 一些动词和形容词可以选作关键词,但形容词只有在它们构成名词性词组时才能选作关键词;而动词只有在它们名词化或是确对文献主题表达起关键作用且具有检索意义时才选作关键词。 c) 没有检索意义的通用词(如分析、报告、方法等)一般也不选作关键词 d) 在关键词选取的过程中,对于固定搭配且具有特定含义的词组和科技术语,不宜拆分开来,而应以词组和科技术语作为关
18、键词。3. 检索图书信息的工具1) 馆藏目录是图书馆或信息资料部门所收藏的全部书刊的统计目录。反映一个图书馆藏书的情况。如果想指导某书或者某期刊在学校图书馆是否由收藏,可以查看本学校图书馆的馆藏目录。2) 联合目录是汇总某地区或若干地区甚至是全国图书馆或其他收藏单位所收藏的全部书刊的统计目录。反映几个图书馆藏书的情况,某一种书刊见于何处,藏于何馆,便于查找借阅。(如:中国高等教育文献保障系统) 3) 公共检索目录(OPAC)各图书馆的网上公共可检索目录OPAC(Online Public Access Catalog),即一个基于网络的书目检索系统,提供图书馆书目信息的检索服务。可通过互联网检
19、索世界各地图书馆的OPAC n OPAC查取馆藏文献的步骤(以福州大学图书馆OPAC为例)1st) 打开福州大学图书馆公共检索目录OPAC,网址2nd) 选择检索入口 3rd) 输入检索词4th) 选择匹配方式 5th) 选择适当的资料类型 6th) 根据“索书号”及“收藏地点”到收藏该书的阅览室的相应书架上取得图书。4) 馆际互借、文献传递:馆际互借就是对于本馆没有的文献,在本馆读者需要时,根据馆际互借制度、协议、办法和收费标准,向外馆借入;反之,在外馆向本馆提出馆际互借请求时,借出本馆所拥有的文献,满足外馆的文献需求。文献传递则是通过传真、电子邮件等形式进行馆际间的文献传递服务。5) 电子
20、图书:是一种将计算机技术与传统的书籍出版相结合的新型文化传播媒介。电子图书的信息是数字化的,可以通过网络传输、查询。格式有HTML格式,EXE格式,CHM格式,PDF格式,超星格式。6) 超星数字图书馆:开放式电子图书馆,要阅读其中的图书,要下载超星阅读器,超星文件的格式为PDG格式。7) 图书原文获取方式:1) 购买2) 传统图书馆借阅3) 从图书网站或数字图书馆下载电子图书第四章 期刊的检索与利用1、 期刊的特点、著录特征1) 期刊一般是指名称固定、开本一致的定期或不定期连续出版物。2) 特点:a) 内容新颖,报道速度快,信息含量大 b) 期刊信息约占整个信息源的60-70%c) 对某一问
21、题需要深入了解时,较普遍的办法是查阅期刊论文.3) 著录特征: ISSN、CN、年、卷、期(V,N),英文中期刊名称常常缩写,而且常以斜体给出。2、期刊与期刊论文的区别、期刊论文的著录特征1) 期刊论文(也称期刊文献)内容新颖,报道速度快,信息含量大,是传递科技情报、交流学术思想最基本的文献形式。大多数检索工具也以期刊论文作为报道的主要对象,对某一问题需要深入了解时,较普遍的办法是查阅期刊论文。2) 期刊论文的著录格式如下所示: H.Tohyama,A plasma Image bar for an electrophoto-graphic printer,Journal of the Ima
22、ging Science,Vol.35 NO.5,330-3(Sept-Oct 1991)期刊论文著录特征: 作者,篇名;期刊名称常常缩写,有的还以斜体给出;卷号,期号。这三点中第3点较为重要。3、课题检索步骤a. 分析检索课题(分词、写检索表达式、确定文献类型、分类等)b. 选择检索方式1) 常用:顺查法、倒查法、抽查法(适用特点、优缺点)n 顺查法从远及近查,用于了解某一事物发展的全过程 优点:系统、全面 查全率高。 缺点:费时费力,工作量较大。 适合于复杂的大课题进行全面检索 n 倒查法由近及远查,重点为近期,在基本上获得所需信息时即可终止检索。 优点:可保证情报的新颖性 缺点:因漏检而
23、影响查全率 多用于查找新课题或有新内容的老课题n 抽查法查找某一段时间的文献。这是利用学科发展一般是波浪式的特点查找文献的一种方法。当学科处于兴旺发展时期,科技成果和发表的文献一般也很多。因此,只要针对发展高峰进行抽查,就能查获较多的文献资料。 优点:针对性强,节省时间。 缺点:局限性n 总结要求查全,用顺查法;要求快、新,用倒查法;掌握了课题的发展阶段特点,用抽查法。 2) 追溯法(引文法)以文献后面附着的参考文献为线索而查找相关文献的一种方法。c. 选择检索工具d. 确定检索途径1) 主题途径(用表征文献主题思想的词或词组来检索,使用的语言是主题语言,主题词或关键词。能把同一主题的文献集中
24、在一起,便于特性检索。)2) 分类途径(按学科分类体系来查找文献的途径,使用的检索语言是分类语言。使用的有“分类目录”、“分类索引”等。它能把同一学科的文献集中在一起,能较好地满足族性检索的要求。)3) 著者(有“著者目录”、“著者索引”等)4) 序号(根据特定号码来查找文献的途径。编号唯一,互不重复是以文献专用的号码为特征,按号码大小顺序编排检索,包括报告号、标准号、专利号、登记号等途径。)5) 书名(根据书刊名称或文章的篇名编成的索引或目录来查找文献的途径。有“书名目录”、“刊名目录”、“会议资料索引”等目录或索引。这类检索工具一般都按图书、期刊、资料的名称字顺编排,多用于查找馆藏图书和期
25、刊。)e. 查找线索在查找中将在检索工具中查得的文献题录、文摘与检索课题的要求一一进行比照,将符合检索要求的文献题录、文摘记录下来。如果发现检索出的文献线索不符合检索课题的要求,可以及时调整检索方案,或扩大或缩小检索范围,直到检出符合要求的文献为止。 f. 获取原文:n 获取期刊原文的方法1.根据文献出处项到本单位的图书馆或资料部门去获取(利用馆藏目录)2.根据文献出处项从国内其它图书信息机构,由近及远地获取(利用联合目录)3.给著者写信获取 4.从文摘、索引等检索工具出版机构获取 5.网上查询,利用全文期刊数据库等获取6.通过互联网、搜索引擎获取7.利用国际联机检索终端,向国外订购原文 4、
26、检索期刊论文的工具手工检索工具:l 全国报刊索引报道我国主要报刊上的科技论文和资料,以题录形式作报道,常用作手工检索。数据库检索:l 文摘、题录型:全国报刊索引数据库, 中文科技期刊数据库(维普)l 全文型:中国学术期刊全文数据库(清华同方CNKI),中国人大复印资料 全文数据库,数字化期刊(万方)l 引文型: 中文科技期刊引文数据库(维普),中国科技引文数据库(万方)1) 文摘、题录型:中文科技期刊数据库(维普)(简称中刊库),它是由国家教委西南中心维普信息公司于1989年研制开发成功的,是目前我国最大的综合性中文文献光盘数据库。例如:查找“加入WTO后中国如何应对反倾销”1st) 先设置关
27、键词WTO,点击检索2nd) 在搜索得到的有关WTO的期刊的基础上,再设置关键词反倾销,逻辑关系设为“与”(即WTO/反倾销两条件要同时成立),点击“二次检索”3rd) 结果如下:2) 全文型:a) 中国学术期刊全文数据库(清华同方CNKI)例如:查找“民营企业中人力资源的开发与管理”方面的文献。1st) 进入清华同方(cnki)中国学术期刊全文数据库,先设置关键词为“人力资源”,查找范围为全部期刊,点击“检索”,得到第一次的搜索结果(关于人力资源方面的文章),如下图:2nd) 在初次搜索的基础上,设置逻辑关系为“并且”,主题民营企业,点击“在结果中搜索”,即可完成。如下图:3rd) 注意:期
28、刊论文数据库中所下载的论文全文常见的格式有CAJ格式和PDF格式两种。b) 中国人大复印资料 全文数据库数据库来源于中国人民大学书报资料中心编选的“复印报刊资料全文”,是国内最有权威的社会科学、人文科学的文献资料宝库。c) 数字化期刊(万方)3) 引文型:可查询论著引用与被引用情况a) 中文科技期刊引文数据库(维普)b) 中国科技引文数据库(万方)例如:(利用维普中文科技期刊引文数据库 )查找福州大学陈国南教授在福州大学学报上发表的一篇关于“化学发光”方面的文章被引用情况,写出检索步骤。【1进入“维普中文科技期刊引文数据库”;2.先检索刊名=福州大学学报;3.再检索作者=陈国南,点二次检索;4
29、.直接在结果中找到“分子光谱的非正交变换因子分析”;5.点击查看详细情况】5、检索表达式【例题】1) 福州大学教师在福州大学学报上发表的有关“电路”方面的文献。 刊名=福州大学学报*关键词=电路2) 查找福州大学陈国南教授在福州大学学报上发表的有关“化学发光”方面的文献作者=陈国南*刊名=福州大学学报*关键词=化学发光3) 清华大学和北京大学的科学院院士介绍(关键词清华大学关键词北京大学) *关键词科学院院士第五章 特种文献1. 专利1) 特点: 独占性、区域性、时间性2) 中国专利的三种类型 :a) 发明专利:国际上公认的应具备新颖性、先进性和实用性的新产品或新方法的发明 b) 实用新型专利
30、:对机器、设备、装置、器具等产品的形状构造或其结合所提出的实用技术方案。其审查手续简单,保护期较短。c) 外观设计专利:指产品的外形、图案、色彩或其结合作出的富有美感而又适于工业应用的新设计。 3) 专利号:当申请的专利被专利局批准授予专利权时给予的号码,该号码与申请号相同,在号码前冠以ZL代码。ZL是专利二字的汉语拼音首字母。号码构成见申请号 如: ZL89 1 07292 .6 4) 检索工具:万方数据之中国专利数据库 2. 标准文献:5) 标准号:机构号(GB)顺序号年份,例“GB5408.1-1999”6) 检索工具:万方国家标准库 3. 会议文献:1) 著录特征:有表示会议的专门用词,如Meeting, Conference,Symposium,Convention,Workshop,Congress,Assembly等;有的有会议召开的地点、届次、时间,以及会议录的出版社、出版地、出版时间等。 2) 检索工具: 4. 学位论文:1) 著录特征:通常有表示学位论文的词,如Thesis,Dissertation等;有的有论文作者所在学校的校名 。