计算机信息检索合工大.ppt

上传人:赵** 文档编号:68610450 上传时间:2022-12-29 格式:PPT 页数:265 大小:773KB
返回 下载 相关 举报
计算机信息检索合工大.ppt_第1页
第1页 / 共265页
计算机信息检索合工大.ppt_第2页
第2页 / 共265页
点击查看更多>>
资源描述

《计算机信息检索合工大.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索合工大.ppt(265页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第一章绪论计算机信息检索参考书计算机信息检索参考书计算机信息检索参考书计算机信息检索参考书l计算机情报检索同济大学出版社慎金花编l计算机信息检索机械工业出版社李莹(浙大)l电子信息资源检索教程南开大学出版社何翠花l计算机情报检索北京大学出版社赖茂生编l实用光盘检索技术上海科技出版社郑燕华l计算机信息存储和检索科大出版社高星l科技查新教程机机械工业出版社l国际联机检索原理与技术湖北科技出版社龚国伟l现代信息检索当代信息检索张曼玲哈工大出版社电脑网络信息王云国防工业出版社网络信息资源搜集和利用张厚生东南大学出版社计算机信息检索l课时安排:12345678910概要,序,意义信息基础知识计算机休息检

2、索应用检索策略检索技术检索指令检索案例检索系统使用技巧检索修正复习l课程安排的原则是:lA理论结合实际:l(1)理论部份是的检索基础知识和技巧l(2)实践部份是一些国际上较权威的检索系统包括中文库:VIP,万方,期刊网,l英文库:EI,Sci,Sa,WPI,CAlDIALOG,STNlB部分资源的教学是通过网络链接来实现的为什么学习l案例:前日大学生参军的访谈l中关村老总的谈话l全世界的成功者的持续十年的成功者概率是低于10%l去年的中国富豪的命运l大学生的就业的基本的条件与学习内容l西方的MAB和各国企业文化的不同与中国的一致性l丁磊和张朝阳等,李嘉诚及其儿子的实例为什么要学习计算机信息检索

3、第一:从内容分析看:l(1)学生学习的本质:l(2)学习内容的本质和作用:l(3)学习的原则:由厚到薄-由薄到厚l(4)学习的自我延伸:l(5)学生的自我社会延伸:A能力:lB角色:心理与惯性lC再学习的角色和素质l要求lD学习的社会变通性l从案例看:l(1)广州标致的引进与生产l(2)关于非典的知识产权(美国疾病控制中心)l(3)王选的策略及其经验l(4)中国目前的西药的局面和原由l(5)中国的中药的局面l(6)日本的发展和策略l(7)中国的手机的引进和电视机的发展l-袁隆平的分析l项目失败:永康厂,电池厂,健特生物l项目成功:美菱,丰原生化,第一节检索课的教学模型购买化妆品的属性可对应所有

4、文献课的各索引系统:A前提:买什么东西?哪个厂家生产?该产品叫什么?是否有批准文号(法定)?使用该产品的市场反馈如何?产品的发明人或生产者是谁?该厂家的地理位置在哪里?是否含有特殊的有效成分?B模型化的具体对应与索引:买什么东西-分类索引(CLASSIFICATIONINDEX)该产品叫什么-主题索引或轮排索引(SUBJECTINDEX,PERMUTERMINDEX)哪个厂家生产-单位索引或团体索引(UNITINDEX,CORPORATINDEX)是 该 厂 家 的 哪 地 方 的 分 厂 生 产-地 理 索 引(GEOGRAPHICINDEX)是否有批准文号(法定)-专利号索引(PATENT

5、INDEX)使 用 该 产 品 的 市 场 反 馈 如 何?-引 文 索 引(CITATIONINEDEX)产品的发明人或生产者是谁?-作者索引或来源索引(AUTHORINDEX,SOURCEINDEX)是 否 含 有 特 殊 的 有 效 成 分?-化 学 物 质 索 引(CHEMICALSUBSTRANCEINDEX,ALLOYINDEX)通过上面的变化,可将非常复杂枯燥的内容变得非常易记且没有任何记忆负担,同时众多变化多样的系统变成一个简单的模型,从学习指导和使用来说都使之变得非常易懂,易学。上述模型的核心是将许多的系统变成一个系统然后再变成生活中易记的模型。该模型较宜非情报专业的学习和初

6、学者的学习。非情报专业情报学习思维的难点:非情报专业情报学习思维的难点:(1)情报学习模式是一种有别于其它学科学)情报学习模式是一种有别于其它学科学习的思维模式习的思维模式数学思维要求严密诗歌思维要求想象力信息检索思维要求(著录)格式学习和联结(2)情报检索学习之困难在于情报检索学习之困难在于:局部文字描述整局部文字描述整体,静止文字描述联结和运动之困难体,静止文字描述联结和运动之困难。a主观:情报检索学习之困难在于调整至与之相应的思维方式,其学习过程实际上是要求了解不同的著录格式和构成之信息,并根据已有信息和目标直接或间接地通过操作,使各个部分联结起来,这会使著录格式之学习很枯燥,b客观:学

7、习联结各著录格式之操作时,则显示文字描述操作的局部性,文字描述图示之低效性,尤其较复杂之著录格式在隔离不同之时空进行讲解时,则更显困难。(3)情情报报检检索索学学习习之之困困难难第第二二为为似似曾曾相相似似之之干干扰扰情报检索学习过程中,可遇到多种检索系统如SCi(ScienceCitationIndex)Ei(EngineeringIndex)MA(MatalAbstract)WPI(WorldPatentIndex)SA(ScienceAbstract)虽然是不同出版商出版,其彼此系统应有的区别,但其检索功能和特性又使彼此似曾相似,或者冠以不同名称,但功能相似。如:Ei中Subject I

8、ndex和Sci中之PermatermIndex如:CA中 GENERALSubjectIndex和ChemicalSubStance.又如:WPI中的employeeIndex与SCI中SourceIndex与MA和EI中AuthorIndex等(4)情报检索学习另一障碍为语言障碍情报检索学习另一障碍为语言障碍 不少文献系统是以英文的形式出版不少文献系统是以英文的形式出版 世界上世界上70%的著名系统是英文的的著名系统是英文的五、五、情报检索思维之形成和巩固情报检索思维之形成和巩固 用以下方式较有效用以下方式较有效:学习学习-介绍介绍-著录介绍著录介绍-使用使用与巩固与巩固(尽快尽快)实习实

9、习(自己兴趣与课题相自己兴趣与课题相关关)第二节计算机信息检索的的产生和发展过程lA计算机联机检索产生的时代背景:a文献的数量急剧增长:(a)目前的处于科技的高速发展阶段:(1)工业革命(2)信息化革命(b)统计数据:(1)每一分钟产生一本书(2)每30秒产生一篇专利(3)每15-16秒产生一篇论文(4)每年全世界的图书总量:图书近百万种论文近数十万专利近百万论文近五百万说明信息爆炸的事实(c)科技文献的有效期在缩短一般文献的平均寿命为3-5年一般经济类寿命较短只有1-4周有些经济类信息的寿命仅90秒(d)例:美国因信息不灵每年造成损失在30亿以上,科技的成果的重复量达35%b科技文献分布异常

10、分散(a)体现在三个领域:分支学科,边缘学科交叉学科(b)体现在学科的发展上:(1)传统学科的应用技术50%来自别的学科。(2)新兴学科的80%来自别的学科lc文献的寿命在缩短:l苏联:图书寿命:10-20年l科技报告:10年l学位论文:57年l期刊等连续出版物:35年l西方学者一般的观点:l80%-90%的文献周期在3-5年lB计算机通讯和高密度存储技术的发展为联机信息检索的产生和发展提供了物质基础。l3联机发展的四个阶段:la联机产生阶段:l(1)50年代中期计算机处于电子管l阶段l(2)1954年美国海军军械中心(NOTS)l研制了计算机检索系统(雏形).l(3)1961年美国化学文摘社

11、在世界上第一l个公开将计算机用于检索。l(4)1965年美国医学图书馆用计算机编制l医学文献检索刊物(医学索引)月度索l引。lb国际联机检索阶段:(19651972)l(1)由于集成电路和计算机技术的产生和发展和数字通讯l技术的进步,促进了联机检索的发展。l(2)美国的LECKHEAD公司(洛克希德)于1965-1966年l建立了DIALOG系统(当时主要用电话联结)。lc国际联机检索的发展和普及:(1973-1985)l(1)卫星通讯:l(2)光纤通讯:l使可通过联机终端,检索几年或几十年的各国资料。l一般以DOS专用软件较多。ld光盘版数据库的出现和WEB版数据库的出现:l(1)1985年

12、世界上首次出现了光盘数据库。l(2)1998年以后出现了WEB版数据库。第三节排名的国际上高校和研究所依据(1)目前国内的226(以前的386)(2)排名的国际上高校和研究所依据论文标准是:lEI(EngineeringIndex)lSCI(ScienceCitationIndex)lSR(ScienceReview)lISTP(InternationalScienceandTechnologyProceeding)(3)国际著名的刊物有Science,Nature(4)在管理上和科研中的应用第四节国际上著名 的计算机检索系统l(1)DIALO系统:是目前世界上计算机中信息总量的75%l是世界

13、上最大的商业数据库,至2000年有800多个数据库,用户达120多国家。l(2)BRS美国文献题录检索服务公司,经营达100多个公用数据库和40多个私人数据库。l(3)STN美国化学文摘社,德国卡尔斯鲁厄能源,物理,数学情报中心和日本情报信息中心,三家联合经营,有150多个数据库,内容以建筑,纺织,能源,化学为最具特色。l(4)ESA/IRS意大利弗拉斯卡蒂的欧洲航天局情报中心,有120多个数据库,内容涉及各方面。l(5)ORBIT美国系统发作公司。第五节公共搜索引擎的信息第五节公共搜索引擎的信息搜索与搜索与dialog等专业信息库之信息检索的比等专业信息库之信息检索的比对分析对分析l随着计算

14、机的普及和计算机技术的发展,电子手段进行信息需求之检索成为一种非常重要的手段与工具。然而由于计算机对各种计算机系统的了解不同和使用不同,尤其在信息检索方面,如果严格用信息检索之算标准,(如查全实、查准率等)看,则在使用效果之差别较大,因此对不同检索工具予以了解,并且知道彼此差异,将对检索大有裨益,目前信息检索中,可以通过搜索引擎辅助定位,或者直接进入知名信息资源系统,如国家图书馆,Dialog、STN等,虽然都可以检索,但不具备地同等替代性,但是在检索效果和性能上有较大区别。主要体现在以下几个方面:l收费与否:lSohu、Sina、Chinaren、Google、Yahoo等搜索引擎均是免费使

15、用,而一些商业信息资源库发dialog、STN等,维普、万方等则有偿使用,即只有授权用方才可以使用。l信息专业程度不同:从内容上看,Sohu、Sina、Google等提供综合性较强的大量信息,其中不少信息是属于时效性较短之公共信息,其中不少信息是属于时效性较短之公共信息,而其本身信息的更新频率较快,而对于针对性较强之专业信息需求和检索,则是用与专业网站链接方式提供dialog,STN,BRs等信息资源库则是以权威性而著名,能提供方向性极强的专业需求,其本质的资源和容量查一般较全面,这是一般搜索引擎根本不能分之相比。l检索表达方式和效率不同:Sohu、Sina、Chinaren、altarist

16、a本身有搜索窗口,并能执行简单的分类检索,其搜索窗口主要是输入关键字,而分类检索则是层级分类只能进行简单运算,当然还有它检索途径但较简单,从检索过程看,如果要对内容表达较复杂之课题进行检索只有进行二次检索,较难进行一步复合检索.而在Dialog STN等信息资源库,可进行复合检索式之检索,可执行Boll代数,截词算法,位置算法及限定算法等,使一个内容的课题可以用复合检索策略表达出来,并且使之运行,各执行步骤和检索词及结果均有相应的子集合,且可随时调用,因此运行检索表达方式效率肯定较高,这是在使用中两种检索工具最主要差别之一。检索的修正与检索噪音的不同:Sohu、sina、Chinaren等之检

17、索过程,通常是以简单的分布逻辑模型(二元逻辑)方式运行,即要么无关,要么与关键字相关,本身没有相关性判断和排序,因此在实际检索过程中,则常常出现大量溢出和0检索现象,即要么检出许多不相关文献,仅仅是其中在不重要位置与所较入关键字相匹配而命中,要么根本不能检出的所需文献,这种现象对检出文献的二次筛选和再检索带来困难,亦为检索词修正带来困难,因此检索效率较低,而Dialog、STN等信息资源,则克服了前无序缺点。而是检索中进行检索词的逻辑运算和比对,使检索者能够按照不同的检索结果进行修正检索式,对每步命中率及检索词分布情况一目了然,因此查准率和查全率都有保证,这也是客户常常保留检索策略之原因。l检

18、索溢出:一次检索多达3000以上的结果l检索途径的多寡和检索标准不同lSina、Sohu、YAHOO等一般搜索引擎,其本身检索途径主要是检索中的关键词检索和一般简单分类检索,而其它的一些检索途径也较简单,其中的逻辑运算一般为单项运算,而实际Dialog、STN等系统中,检索途径包含至少则5-6种,多则达到10余种检索途径,而检索式的表达可为多项重复运算 的复合表达式,而且从内容与编制方面,则早已标准化了,从检索语言数据库的兼容结构使这些国际性著名电子资源系统有较强的扩张性,如Dialog将CAS,中国专利数据库均纳入其系统,再如IPC分类号的国际统一化。而目前国内sina、sohu、china

19、ren等在技术和设计上没有达到标准化技术要求,彼此容易互不相容,这种资源的不兼容,使客观上造成了人力、物力、文献资源的浪费,尤其在文献资源的建设上不仅不易共享,而且又造成重复建设的浪费,使得国内各信息系统在权威性方面与国外电子资源系统有较大差异(包括国内的期刊网和超星数字图书馆)l库检出方式不同:sina、sohu、chinare等搜索引擎中,一般没有信息资源库的以款目作为检索点的字段输入过程,其中不少信息资源是复制,图像扫描,等方式进行资源库之建设,虽然生产成本较低,但不具备最重要的多途径检索功能,而其本身的关键字“匹配”结果又没有逻辑判断性和排序性,且占用空间较大,显示效果不佳。而STN和

20、Dialog的则有统一的字段输入标准,其主要工作量均在此过程,而恰恰是标准字段的录核过程,使系统有较强检索功能,因此其查全率和查准率较高。信息资源的容量不同l如Sohu一般仅提供该系统中3个月内数据库文献资源,而dialog则可提供任何一个系统自创刊至今的信息(其本身信息量达全世界机载量的72%)。l知识产权的保护和利用不同l由于国内计算机软件类产品知识产权保护并不完善,往往同一条新闻,在多个电子网站中互相抄袭,当然免费知识产权保护状况并不好,而Dialog、STN等国际电子资源系统则是有偿使用,彼此在知识产权受保护的情况下运行,其中不少数据资源库是该系统有偿购买如CAS、Ei、使用费在120

21、$/hr以上。(10)界面不同:lSohu、Sina等属于友好界面之引导地检索,且易学易用,适用初学者,而dialog、STN等信息资源系统界面较刻板,尤其人机对话之传统指令模式,一般适用于水平较好专业人员,当然其也有引导式检索,但不如Sohu、Sina等易用。l(11)最后两种方法在使用上应根据检索的要求和成本进行控制,且做到两种方法互补利用。第二章信息检索的基础知识l第一节信息的基础知识第一节信息的基础知识l(1)信息的定义与特征:)信息的定义与特征:lA信息定义:关于物质的存在的方式和信息定义:关于物质的存在的方式和运动规律的反运动规律的反应。应。lB信息的特征:信息的特征:a普遍性(时

22、普遍性(时&空空)lb客观性客观性(时(时&空)空)lc扩散性扩散性(时(时&空)空)ld增殖性增殖性le可存储和可压缩性可存储和可压缩性lf可知性和可共享性可知性和可共享性(2)知识的定义和特征lA知识的定义:关于物质或事物及其本质和l规律的认识和反应。lB知识的特征:la意识性:是大脑思维的结果。lb信息性:是经加工且系统l化信息。lc实践性:是人们的生产实践l活动。ld继承性:知识的传递性le知识的积累,组分和渗透性;l目前学科发展的特征。l(3)文献的定义和特征lA文献定义:记载信息和知识的载体。lB文献的特征:la知识性和信息性:真理性lb物质实体性:用文字和符号来l记录。lc人工记

23、录性:人们的有意识的行为l的结果ld动态发展性:使得文献的数量大幅l上升l(4)情报定义和特征 lA情报的定义:以一定的目的来收集的有用的知识或信息。lB情报的特征:la知识性和信息性:合理性和真实l性。lb传递性:是我们上学,阅读,看l电视的原因。lc效用性:体现了其使用价值。ld时间性:信息的半衰期和文献的l衰老。l第二节信息检索定义l信息检索是指将信息按一定的方式组织、存储起来,并根据用户需求查找出所需信息的过程。我们通常所讲的信息检索是指狭义概念的信息检索,即从检索工具和检索系统查找出所需信息的过程。信息检索根据检索对象的不同,一般可分为文献检索、数据检索和事实检索,其中文献检索是最基

24、本、最主要的方式。(1)文献检索ll(1)广义的文献检索是指将文献按一定的方式存储起来,并根据用户需求找出所需文献的过程。狭义的文献检索仅指查找文献的过程。(2)文献检索主要是通过文献检索工具来实现的,如书目、索引、题录、文摘。文献检索是一种相关性检索,检索结果一般是文献的线索。(2)文献的类别(十大文献按来源分)l所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。la.a.科技图书:科技图书:l(1)是对某专门知识或某学科进行系统的论述或概括的且大于40书目单位的出版物一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。l(2

25、)一般该类别为三次文献l(3)图书一般有ISBN号lb.b.科技期刊科技期刊(periodical)periodical):l(1)又称连续性出版物(serials),是一种定期或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advances in.(进展)等。ii.快报型。Communica

26、tion(通讯)、letters(通讯)、bulletin等。iii.消息性(newsy journals)。news(新闻)、news letters等。iv.资料性(data journals)。data、event等。l科技期刊是最重要的一类文献来源。l(2)该类别为一次文献l(3)期刊一般有其ISSN号lc.c.科技报告:科技报告:l(1)报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构 可以说,报告是一种典型的机关团体出版物,常用的报告名称有:l(2)类别:科技报告按按报告的形式可分为:report(报告书),technical

27、 notes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technical translations(技术译丛),special publications(特种出版物)。l按研究的进展情况分:primary report(初步报告),progress report(进展报告),interrim report(中间报告),final report(中间报告)。ll科技报告与其它文献的显著不同为根据科研水平的高低,科技报告分为若干密级,如top secret(绝密)、secret(秘密)、confidential(保密)、restricted(非密

28、限制发行)、unclassified(公开)、declassified(解密)。l(3)美国政府四大报告:l美国国防部科技报告(AD)l美国国家航空航天局科技报告(NASA)l美国能源部科技报告(DE)l美国政府其它部门的科技报告(PB)l(4)报告的文献特征是有其报告号 如AER26846ld.d.会议文献:会议文献:l(1)是指学术会议文献,它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议类型大致可分为国际会议、全国性会议及地区会议等。会议和会议文献常用的主要名称有conference(大会)、meeting(小型会议)、symposiu

29、m(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。l(2)ISTP(international Sci.$Tech.Proceeding)是著名的会议二次文献,高校和科研评估的重要工具l(3)一般会议的文献的收录的速度较期刊为快l.专利文献:专利文献:l(1)在实行专利制度的国家,凡是本国或外国的个人和企业有了创造发明,都可以根据专利法的规定,向本国或外国专利局提出申请,经审查合格,批准授予在一定年限内享有创造发明成果的权利,并在法律上受到保护,这样一种受到法律保护的技术专有权利叫做专利。专利是与产业活动密切相关的,因而其实用性非常强。l(

30、2)类别:l根据专利的技术水平和应用情况,其类型有invention(发明)、utility patent(实用新型)、和design l(3)专利文献是专利及其相关的文献l专利文献的查询一般工具有:lWPI,美加专利,中国专利,日本特许等l(4)各文献系统中的同一专利号的对应对象是不变的.l(5)专利是唯一的以实用技术为内容的检索工具,由于专利的区域性的特征,使其能够为我们提供了跨语种检索的工具l(6)专利文献一般有带有标志,一般为国家标识,如US0005163,EP4658236lll.标准文献:标准文献:l(1)标准化主要包括三个方面:l.产品标准化,即产品质量要符合技术规定;l.产品规

31、格化和系列化,即产品按型号大小来分档,成系列的发展,从而保证以较少的品种来满足广泛的要求;l.零部件通用化,即同类机型零部件,特别是易损件要做到最大限度的通用互换性l经过公认权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的标准化工作成果,就是标准文献(2)在实际生产和经营中有较大的意义lg.g.学位论文:学位论文:l(1 1)是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文l博士学位论文中,常含有独创性的学术性文献资料。l(2)美加硕士论文目录l美加博士论文目录(仅提供目录)lh.h.产品资料:产品资料:一般是指品样本,即

32、产品说明书。好的产品说明书含有丰富的内容,包括产品规格、产品特点、产品专利号等多种对生产有用的信息。lI.I.技术档案:技术档案:是指在生产建设中和科技部门的技术活动中形成的,有一定的工程对象的技术文件的总称。lj.j.科技报纸:科技报纸:一些专门刊登科技类文献的报纸对了解当前的学科前沿和水平以及科学新闻很有益处。l十大情报源中,最重要的是期刊、会议论文和专利。第三节文献的特征l一篇文章、一本书、一份报告等一般都有以下特征:l(1)外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可

33、以确定一篇文献。l(2)内容特征:深入到文献内容中间,则可用两种方法来表征它:l(a)词频规律:词频规律:对于一篇文献有:lZipfZipfs law(s law(齐夫词频定律)齐夫词频定律):针对某一文献将其的各词进行频次高低的排列,可以发现词频的位次和频次数之乘积是一个常数。l N(N)*R=Kl 高频词:无意义副词等l 中频词:关连度较高l 低频词:关连度不高l lZIPFs LAW ZIPFs LAW 应用意义应用意义l (a)该定律可发现冷门学科和突破点l (b)该学科的应用有词频字典,服务管理l (C)该定律可推广至整个学科l (d)目前还没有词频索引-推广l(b)按照各种自然科学

34、和社会科学的分类方法进行归类,如中图法:lN O P Q R l自然科学总论 数、理、化 天文、地理 生物 医、卫l(1)(a)文献的外表特征与文献是一一对应的,即一组外表特征只对应一篇唯一的文献.l (b)文献的内容特征与文献却是一种模糊的对应关系,即一篇文献有多个主题词(关键词)或分类号,一个主题词(关键词)或分类号也可对应多篇甚至几百篇文献。正因为存在这两种对应关系,使得两种特征的用途大不相同。l (2)(a)利用外表特征只能检出很少的文献,有时只用于特定情况下(如已经知道作者名等)。l (b)利用内容特征一次能检出一批文献,这对研究者来说是极其有用的。l第四节检索系统的结构l(1)题录

35、与文摘l (a)题录:以献篇为著录对象,描述的内容只l局限于文献的外部特征。l题录所有的检索系统都应具备的基本内容,它包括文献标题、作者、作者工作单位、发表时间、文献来源(期刊、会议、专利等)。有了题录,读者就可以方便地获得原文。l (b)摘要(abstract),也称文摘,是对一篇文献的核心内容作的简略准确的约200字的描述。l有些文摘与原文文献刊登在一起,叫做篇首文摘(heading abstract)。一般比较完整的检索系统每篇文献都附有摘要,以工读者了解与挑选文献。根据摘要的内容,可分为以下几种:lla.报道性文摘(informative abstract)。是原文内容的浓缩,信息量大

36、,参考价值高,一般长200-300字,有的可达500字。lb.指示性文摘(indicative abstract)。概略地指出原文的主题范围、目的和方法,一般不包括具体内容,适用于篇幅长、内容散的文章。一般长100字。它只起解题作用,故又称“解题性文摘”或“简介”。lc.报道-指示性文摘。对文献的主要部分用报道性,其余部分用指示性。l其它还有:评论性文摘(critical abstract,有文摘员个人的看法,其价值主要取决于文摘员的水平。由于评论性文摘有违于文摘的客观性标准,因而现在已极少采用)、模块式文摘(modular abstract)、专用文摘(special purpose abs

37、tract)等。l(2)索引:la定义;索引(index)原指一种通常按字顺排列,包括特别相关且被文献提及的全部项目(主题、人名等)的目录,它给出每个项目在文献中的出处,整个目录通常放在文献后面。检索系统中的索引是指按文献的特征(外表、内容)依一定的次序将文献(通常以文摘号)排列起来的目录,通过它可以得到相关的文摘lb索引的主要内容有:l(a)a)索引款目索引款目(ENTRY INDEX):ENTRY INDEX):描述所指示的主题或事物及其出处的一条记录,它主要起指示作用。索引款目一般采用文献的特征,包含三项内容:标目(headings)、说明语(modifications)、材料出处(re

38、ference)或地址(location)。l(b)(b)材料出处材料出处(SOURCE):SOURCE):一般采用文摘号。文摘号是检索系统编制者给每一篇文献确定的一个能代表该篇文献的号码。l 索引的参照体系索引的参照体系(syndeticsyndetic system)system)说明语:说明语:包括各种参照、标目注释、索引使用说明与凡例等内容。l第五节BRADFAST核心期刊定律:l(1)BRADFAST核心期刊定律:l针对某一学科的文献,可将刊载该领域的文献的刊物分成文章数相等的三个区域,而三个区域中的刊数则呈现几何级数的关系:lP1:P2:P3=1:N:N*NlN为BRADFAST常

39、数ll(2)BRADFAST核心期刊定律意义:l(a)核心期刊:针对某一学科,文献的水平较高,文献的密度较高的刊物,一般通过专家和统计方法来确定.l(b)引证溯源的选则对象l不同学科标准不同l(d)是不同学科进行职称评定成果评定的依据第三章检索语言文献检索语言l第一节概念第一节概念l1基本概念基本概念l(1)定义定义:所谓文献检索语言,就是用来描述文献特所谓文献检索语言,就是用来描述文献特征和表达信息提问,沟通存储与检索双方思想的一种人征和表达信息提问,沟通存储与检索双方思想的一种人工语言。工语言。l它是在自然语言基础上发展完善的,在文献检索过程中它是在自然语言基础上发展完善的,在文献检索过程

40、中用来描述文献的内部和外部特征,从而形成检索和提问用来描述文献的内部和外部特征,从而形成检索和提问标识。标识。l(2)作用作用:文献检索语言在文献检索过程中可以保证文献检索语言在文献检索过程中可以保证不同标引人对文献内容表达的最大一致性;保证文献加不同标引人对文献内容表达的最大一致性;保证文献加工语言和检索提问语言的最大一致性。工语言和检索提问语言的最大一致性。l2检索语音的特点:l(a)查全率和查准率高l(b)概念唯一性l(c)易于标引和检索l(d)与其它语音兼容性l(e)语音面较宽内容较丰富适于多学科的存储和检索l(f)易于增加,删除和修订l第二节文献检索语言的分类第二节文献检索语言的分类

41、l1、按描述文献特征划分l(1)、描述文献外部特征的检索语言,以题名、著者名、等显而易见的文献外部特征作为检索标识。l(2)、描述文献内部特征的检索语言,如分类语言、主题词语言等。l2、按表示系统划分l(1)、分类检索语言,以分类号作为文献主题概念标识的标识系统,包括体系分类语言、组面分类语言、混合分类语言等。l(2)、主题词检索语言,以主题词作为文献主题概念标识的标识系统,如标题语言、关键词语言、叙词语言等。l3按照文献的构成原理来划分:l(a)分类语言:以分类号来表达概念按照学科性质进行系统排列。l(b)主题语言:以描述文献的主题内容的语词作为存储和检索的标识。l(c)代码语言:以事物的某

42、一方面特征用代码系统来标引和检索文献信息的检索语言。如化学登记号,专利号索引l(d)引文语言;以文献的外特征的引证关系来存储和检索的系统。l4按照标识的使用方法来分类;l(a)先组式:信息标识及系统在词表和分类词表先确定,使用时不可随意变动。l如:EIl(b)后组式;标识只在使用时才组配l标引和编表时均不固定,如SA,MAl(c)先组散组式;后组式语言当先组式来使用,即;编表时并不固定l标引时予以固定l如:MEDLINEl第三节、分类语言l1定义:l分类语言是运用概念划分的方法,按文献内容所属学科、专业性质的逻辑次序,以分类号位标识,用来存储和检索文献的文献标识系统。l分类系统中的“类”是指具

43、有某种(或某些)共同属性的事物的集合。同一类事物用另一种属性作为划分标准进一步划分形成的一系列概念称为子类或下位类,这样逐级细分,就形成某一知识门类的分类体系。被划分的类称为母类或上位类,子类之间互称同位类。l分类语言的具体表现是分类法,而分类法又通常是以分类表的形式体现出来的。ll2分类法(分类表)在文献信息存贮和检索过程中的功能主要表现为以下两方面:l(1)、分类法(表)是标引文献信息和组织分类目录的依据,也是文献资料分类排架的依据。l(2)、分类法(表)是检索者从学科、专业角度检索文献信息的依据。l3分类检索语言的特点主要有:l(1)、分类语言是以学科分类为基础的一种信息检索语言,符合人

44、们认识事物的规律和处理事物的习惯,因此容易为人熟悉和使用。l(2)、分类语言能较好地体现学科的系统性,便于从学科和专业角度检索文献。-族性检索的重要形式l(3)、便于组织文献资料的排架。l(4)、分类语言采用的检索标识,是国际上广泛采用的拉丁字母和阿拉伯数字,通用性强。ll(5)、分类语言能较好地的反映学科的纵向关系,而不容易反映学科间相互交叉渗透的横向联系,因而不易准确标引和检索交叉学科的文献信息。l(6)、分类语言是一种先组式的信息检索语言,具有相对稳定性,不能随时修改和补充,难于反映新兴学科的内容,因而较难标引和检索新兴学科的文献信息。l(7)、在使用分类语言标引和检索文献信息时必须对学

45、科的分类体系有较深了解。l(8)、分类语言所使用的标识一般都是号码,在标引文献信息时,需经过双重间接转换(即主题概念学科概念分类号码),转换过程易发生偏差,容易出错。l第四节、主题词语言l1定义和概念l(1)定义:主题词语言,是指以自然语言的字符为字符,以名词性术语为基本词汇,用名词性术语作为标识的一种信息标识系统。是主题概念检索文献信息的检索语言。l(2)特点:主题词语言有两大特点:l其一,直接用能表达、描述文献内容特征的名词性术语作为标识来揭示文献的内容特征;其二,把这些标识按字顺排列成主题词表,以此作为标引、检索文献的工具。l主题词语言取自自然语言,有的经过规范化处理,有的本身就是自然语

46、言中的一部分。ll所谓规范,就是对具有语义关系的语词,按文献检索的要求进行优选并限定其内容涵义,以保证语词具有单义性,即一个主题词只能表达一种概念。对主题词的规范化处理,具体包括:l(1)、词义规范:包括同义词、近义词、多义词的规范。l、同义词的规范:同义词规范采用优选方法,把非通用概念的同义词规范成通用概念的主题词。常见的如学名与俗名、全称与简称等。如:马达(不规范主题词)电动机(规范化主题词)l。l、近义词的规范一般选择较概括通用的词作主题词。l、多义词的规范:一般用范围注释对其语义进行限定。l杜娟(动物)杜娟(植物)l(2)、词类规范:名词或名词性的词、词组可以作为主题词。可数名词则用复

47、数形式。l(3)、词形规范:词形规范主要指对词组的组织结构进行处理,以免使排检发生歧义l2主题词语言具有以下主要特点:l(1)、直观性强。主题词来源于自然语言,用主题词作为标识比较直观,符合人们的辨识习惯。主题词在词表中按字顺排列,易于利用。l(2)、专指性强。用作主题词的语词标识一般都经过规范化处理,一个标识对应一个概念,使主题词对概念描述具有专指性。l(3)、灵活性强。通过主题词之间的概念组配来揭示文献中形形色色的主题,这是主题词语言的主要优点。尤其是后组式主题词语言,便于人们按照检索需要,自由组配检索概念,具有很大灵活性。l常见的主题词语言有标题词语言、单元词语言、关键词语言和叙词语言。

48、ll3主题语言的类型l1标题词语言l标题词是指用以描述文献主题内容的经过规范化处理并具有固定组配关系的名词性术语包括词组和短语。以标题词为标识来存贮和检索文献的信息标识系统称为标题词语言。属先组式信息检索语言。l标题词的结构通常由主、副标题词组配构成,这种结构可称为两级标题。两级标题是按“事物事物的方面”的原则组成,这样就使存贮在检索工具中的文献形成了按“事物事物各方面”的排检系统。l主标题词-事物的主体l副标题词-事物的某方面和特征l(1)、标题词语言的参照系统:标题词语言中用See(见)、Seealso(参见)和标题词范围注释来处理事物概念之间的同一关系、属种关系和相关关系,使反映某一事物

49、的同义概念、属种概念、相关概念的若干文献有机地联系在一起,增加了检索途径,有利于提高查全率。l、See(见):参照的作用,把非标题词引见到标题词。See所指引的标题词主要有以下几种:la、同义概念,如:战斗机See歼击机;lb、下位概念,如:通讯See电信lc、上位概念,如:合金See金属与合金ll、Seealso(参见):参照的作用,把标题词引见到其他相关标题词,使检索者能从更多的检索人口查找到相关文献。l、主题注释:说明标题词的意义、用法和所属学科等。例如:杜娟(动物)杜娟(植物)l(2)、标题词表:作用在于控制词汇,使之规范化,并建立参照系统,是存贮和检索文献的依据。l(3)、标题词语言

50、的特点:l(a)按事物集中文献,但从学科角度看,又使同类文献分散,适用于从主题角度检索文献。l(b)用标题词直接标引文献的主题概念,直观性强。l按字顺排列,容易掌握,检索速度快。l(d)专指性较好,但不如后组型检索语言那样能充分表达复杂的主题概念。同时,标题词表有相对的稳定性,难以及时反映因科技发展而产生的新概念。l(5)先配:词表和标引均较固定l(6)规范化处理llll2、关键词语言l(a)关键词是指从文献的篇名、文摘和正文中抽出的对表达文献主题有实质意义并在揭示和描述文献主题内容上起关键作用的词和词组。l(b)关键词属于自然语言,不经规范化处理(或仅受极少量的规范化处理),没有词表。以关键

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁