信息检索(西交大-工程硕士)ppt课件.ppt

上传人:飞****2 文档编号:31381651 上传时间:2022-08-07 格式:PPT 页数:194 大小:2.75MB
返回 下载 相关 举报
信息检索(西交大-工程硕士)ppt课件.ppt_第1页
第1页 / 共194页
信息检索(西交大-工程硕士)ppt课件.ppt_第2页
第2页 / 共194页
点击查看更多>>
资源描述

《信息检索(西交大-工程硕士)ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索(西交大-工程硕士)ppt课件.ppt(194页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、主讲:陈建兵主讲:陈建兵 信息检索的威力信息检索的威力 美国普林斯顿大学物理系一个年轻大学生名叫约瀚菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。信息检索的威力信息检索的威力 20世纪70年代,美国核专家泰勒收到一份题为制造核弹的方法的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。” 但使他更为惊异的是,这份报告竟出

2、于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。 信息检索的威力信息检索的威力 美国在实施“阿波罗登月计划”中,对阿波罗飞船燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是1010多分钟多分钟。 在科研开发领域里,重复劳动在世界各国都不同程度重复劳动在世界各国都不同程度地存在地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38,达20亿美

3、元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40、民间占47、国家研究机构占40,平均重复率在平均重复率在4040以上以上;我国的重复率则更高。 原始社会占有更多的生活资料原始社会占有更多的生活资料 奴隶社会占有更多的奴隶奴隶社会占有更多的奴隶 封建社会占有更多的土地封建社会占有更多的土地 资本主义社会占有更多的生产资料资本主义社会占有更多的生产资料 当今社会占有更多的信息当今社会占有更多的信息科学研究的特点科学研究的特点 科学研究和科技发展的最大特点是连续性和继承性。科学研究的这两大特点使科学研究几乎离不开记录科技活动的科技文献和信息,可以说没有科技信息就没有科学技术的发展。

4、信息爆炸与信息检索信息爆炸与信息检索 信息爆炸是由于现代科技的特点造成的,高速发展、大规模、高集成度,边缘学科、交叉学科、横断学科层出不穷,新的成果从出现到应用的时间间隔越来越短等等,使得人们获取和利用有用信息越来越困难。 美国著名未来学家阿尔文托夫勒曾经在20世纪80年代初期提出:面对“第三次浪潮”文明的冲击,每个人都要自觉地扫除三种文盲,即文字文盲、计算机文盲和传播媒介文文字文盲、计算机文盲和传播媒介文盲盲。当时互联网还没有出现,他指的传播媒介仍然是传统意义上的传媒。而今天人们已经能够很容易通过互联网来传播自己的观点。 信息爆炸信息爆炸: A 导致文献量急剧增加; B 文献分布异常分散;

5、C 文献寿命越来越短 吸收信息的能力不高吸收信息的能力不高: 由于条件限制,人们吸收和利用情报的能力并未得到相应的提高。由于信息不灵科研项目的重复率大大高于世界发达国家。90年代中期以前,至少有40在国外已取得了研究成果。9 10 信息能力信息能力 信息挑选与获取能力信息挑选与获取能力 信息免疫与批判能力信息免疫与批判能力 信息处理与保存能力信息处理与保存能力 创造性的信息应用能力创造性的信息应用能力信息意识信息意识: 信息第一意识信息第一意识 信息抢先意识信息抢先意识 信息忧患意识信息忧患意识 再学习和终身学习意识再学习和终身学习意识信息品质信息品质 较高的情商较高的情商 积极向上的生活态度

6、积极向上的生活态度 善于与他人合作的精神善于与他人合作的精神 自觉维护社会秩序和公自觉维护社会秩序和公益事业的精神益事业的精神一、信息、知识、文献一、信息、知识、文献 某海军陆战队在原始森林进行为时一个月左右的生存实验,具体要求如下:第一,每个队员除了身上穿的衣服外,随身只能带三件物品,每件物品不能超过二公斤;第二,队员都是由飞机空降到半径为1000公里原始森林的中心地带,要求在一个月时间内从森林里走出来。问题:队员带哪三件物品合适? 理想的答案:钢刀、火石、指南针理想的答案:钢刀、火石、指南针 钢刀能获取猎物;火石可以取火;指南针可以指明方向。 人类要在世界上生存与发展要获取物质、能量、信息

7、三大要人类要在世界上生存与发展要获取物质、能量、信息三大要素。素。对于物质跟能量大家比较好理解,对于但是对于信息与人类的关系,大家就比较难解了。 上面例子中的指南针就是我们获取信息的一种工具,有了它,陆战队员们就可以用它获取走出原始森林的方向,没有它,可能一辈子都走出原始森林。而指南针向指的方向就是一种信息,即方向信息和方位信息。信息(信息(information)information)的定义的定义 辞海 “信息,消息。” 韦氏字典(美国):“信息是用以通信的事实,是在观察中得到的数据、新闻和知识”。 信息论创始人香侬(C.E.Sannon)认为:“信息是用来消除随机不确定性的东西”。 法国

8、物理学家布里渊(LBrillouin)认为:信息是原材料,知识是思维对信息的加工的产物 甘仞初在管理信息系统中把事物之间相互联系、相互作用的状态的描述,称为信息。信息的定义 目前大多数学者接受的定义是:“信息具有物质属性,是物质的存在方式及运动的规律和特点的表征,是事物及其现象的内外特征、相互联系及作用的反映。”信息的特征信息的特征 (1) (1)客观性客观性 地震,海啸,花草树林的发芽、生长和枯萎,广播电视、网络的新闻、广告等等发出的信息,不管你知道不知道,感知不感知,它都是客观存在。只要有物质存在,就有信息的存在。 因此,信息是客观存在的,不以人们的意志为转移的。它是现实世界中各种事物运动

9、与状态的反映,它可以被人们所感知、处理、存储和使用。它的客观性还表现在反映客观世界变化的信息包含在各种物质之中。 (2)(2)时效性时效性 朝鲜战争与兰德咨询公司故事朝鲜战争与兰德咨询公司故事 在美国出兵朝鲜之前,美政府曾请美国著名的咨询机构兰德公司做一预测:如果美国出兵中国会不会出兵?兰德公司请了大批资深专家,从中共历史、军力、国际关系、甚至中共领袖性格等各方面做了精深的分析,最后得出结论是:“中国将出兵朝鲜” 。其主题词只有7个字,要价150万美元。美国国防部认为是敲诈,不予理睬,在自认为中共不敢出兵的假设下,冒险出兵,结果“在错误的时间,在错误的地点,与错误的敌人进行了一场错误的战争”。

10、一直到前些年,美国政府检讨当年决策错误时,向兰德公司付了一大笔款,表示对科学预测的重新估价与信服。很明显,如果美国政府当年尊重科学预测,相信中共会出兵,他是决不敢冒这个险的,那朝鲜历史将重新改写,抗美援朝也就不存在了。 由上例可以看出信息是具有较强时效性的。客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时客观事物总是不断地发展变化,因而信息也会发展变化,如果信息不能适时地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。地反映事物存在的方式和运动状态,那么,这一信息就失去其效用。(3)(3)传递性传递性 大庆油田产量失密事件大庆油田产量失密事件1960年王进喜被冠之以

11、“铁人”的称号以后,国内的各大报纸对他都有了相关的报道。谁想到被狡猾的日本人嗅出蛛丝马迹,竟从中了解了大庆油田开采的一些情况。日本人发现,王进喜原来的工作地点是甘肃玉门油田,1959年10月参加国庆观礼后他就销声匿迹了,由此推断大庆开发时间应该为1959年9月;1966年7月,中国画报曾刊载王铁人头戴厚厚瓜皮帽的照片,凭着对中国地理的熟知,日本人很快就推断出王进喜的工作地应该在零下30度的东北地区;还根据运原油的列车上灰尘的厚度,测算出了油田与北京的距离,断定油田应在哈尔滨与齐齐哈尔之间;10月份,人民中国也刊登出宣传王进喜的文章,在其中透出一个“马家窑”的地理信息,日本人便由此推出大庆在安达

12、车站附近。据称,日本人通过精细、准确的情报对大庆油田进行了成功调查,后来几乎垄断了我国石油设备进口市场。 从上例中可以看出,大庆油田的信息是刊载在人民画报等这些公开发行的报刊杂志上的,而日本人正是利用这些公开的报纸、杂志分析中我国大庆油田的产量和设备需求,获取了最高的经济利益。 在本例中,大庆石油信息从国内报刊杂志社这一信息的发源地通过人民画报等报刊杂志这些载体,传到了日本人的手里,经过他们的分析、处理后,加以运用,获取了高额的经济利益。 信息的传递性是指任何信息只有从信源出发,经过信息载体传递才能被信宿接受并进行处理和运用。也就是说,信息可以在时间上或空间上从一点移动到另一点,可以通过语言、

13、动作、文字、通信、电子计算机等各种渠道和媒介传播。(4)(4)共享性共享性 英国剧作家萧伯纳说:你我是朋友,各拿一个苹果,彼此交换,交换后仍然是个有一个苹果。倘若你有一种思想,彼此交流思想,那么我们每个人就有两种思想了。 同一内容的信息可以在同一时间或不同时间里被多个信息用户使用。 一条信息被用户吸收和利用并不影响信息的本身和被其他用户的反复使用,各用户分享的份额也不会因为分享的人的多少而受影响。 正如萧伯纳所举的“苹果与思想”的例子,苹果交换以后双方仍然各自仅有一个苹果,但信息交换以后双方都有了两种信息。信息共享性是推动社会交流的原动力。(5)(5)中介性中介性 人们看柳树发芽,就知道春天来

14、了,看到天上乌云滚滚,就知道要下雨了,这就是这些自然世界发出的信息。 信息是介于物质世界和精神世界之间的过渡状态的东西,是人们认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知过程本身就是一个以信息为中介的信息运动过程。 人类认识世界和改造世界的过程,是一个不断从客观世界获人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程通过实践活动反作用于客观世界的过程。 信息的类型信息的类型 信息类型可根据不同的角度来分信息类型可根据不同的角度来分1

15、 1从产生信息的客体的性质来分,可分为:从产生信息的客体的性质来分,可分为: 自然信息:自然信息:瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化; 生物信息:生物信息:生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流); 机器信息:机器信息:自动控制系统内信号、指令等; 社会信息:社会信息:社会信息就是指人与人之间交流的信息,既包括通过手势、身体、眼神所传达的非语义信息,也包括用语言、文字、图表等描述一切对人类社会运动变化状态的语义信息。按照人类活动领域,社会信息又可分为科技信息、经济信息、政治信息、军事信息、文化信息等。 p

16、印刷型信息p缩微型信息p声像型信息p电子型信息p印刷型信息 又称为书本型信息,是以纸张为主要载体,以印刷为记录手段的传统信息形式,如图书、期刊、报纸等。优点是阅读、携带、利用方便;缺点是信息存储密度小、体积大、分量重、收藏和管理困难。p缩微型信息 是一种以缩微胶片为载体,利用缩微摄影技术为记录手段而产生的信息形式,其优点是体积小、存储密度高、保存期长,缺点是需要配备专用的缩微阅读机才能阅读。p声像型信息 声像型信息又称为视听型文献,这是一种以磁性或光学材料为存储介质,借助特殊的机械装置直接把图像和声音记录的一种信息形式,如唱片、录音带、电影拷贝、幻灯片等。它记录的对象主要不是文字,而是富有动感

17、的声音和图像。p电子型信息 指以数字代码方式将图、文、声、像等信息存储到磁、光、电介质上并通过计算机阅读的信息形式。如各种电子图书、电子期刊、联机数据库、网络数据库、网络新闻、光盘数据库等。其特点是存储量大,出版周期短,传递迅速,可以融文本、图像、声音等多媒体信息于一体,易复制,共享性好。 为便于利用信息,信息工作者将信息加工处理为不同等级: 次信息次信息 通过交流、实物获得信息。真实、直观,但难以积累和管理。 一次信息一次信息 以作者本人的生产和科研工作为依据而创作的原始信息。如专著、期刊论以作者本人的生产和科研工作为依据而创作的原始信息。如专著、期刊论文、学术论文等。文、学术论文等。 二次

18、信息二次信息 将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。 如书目、文摘、搜索引擎的搜索结果等。如书目、文摘、搜索引擎的搜索结果等。 三次信息三次信息 根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、综述、述评、字词典等。成的。如百科全书、综述、述评、字词典等。 期刊论文会议论文科技报告专利说明书学位论文标 准目 录 文 摘 搜索引擎 百科全书手 册年 鉴词 典综 述述 评记录知识的产生传播信息的利用信息级别示意图信息级别

19、示意图某些数据库 从一次信息到二次信息、三次信息,是对知识与信息进行创造、有序化和高度浓缩、提炼、再创造的过程,也是知识与信息从无序到有序的结构化、系统化的过程。概括地说,零次信息是零次信息是一次信息的素材;一次信息是信息的基本形式,是检索的对象;一次信息的素材;一次信息是信息的基本形式,是检索的对象;二次信息对一次信息的加工处理,是检索一次信息的工具;三次二次信息对一次信息的加工处理,是检索一次信息的工具;三次信息则是对一次信息与二次信息分析研究的成果。信息则是对一次信息与二次信息分析研究的成果。 在查找信息的具体过程中,一般是先对相关的三次信息和二次信息进行分析与研究,找到有关的三次信息和

20、二次信息的线索,再利用线索调取所需要的一次信息,同时可通过一次信息后列出的参考文献(又称引用文献),进一步扩大阅读范围,以找到有实用价值的文献。在馆藏量较大的图书、信息研究机构,采用这种查找方法尤为便捷。因为在茫茫书海里,获取某方面的文献仅凭一本一本地去找,即使查到一些文献也是随机的、偶然的、不系统的、不完整的。利用二次信息和三次信息来控制与组织一次文献便可克服上述问题。 p知识知识(Knowledge)(Knowledge) 知识是人类认识的成果和结果,人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,然后经过大脑的思维活动进行加工处理,这种加工处理后的信息就是知识。知识知识 知

21、识是人们在改造客观世界的实践中所获得的认识和经验的总和。它包括感性知识和理性知识 人脑通过对客观事物发出的信息的接受、选择和处理,得到对事物一般特征的认识,形成了感性认识,即感性知识; 在反复的实践和认识过程中,人脑通过对感性知识的判断、推理和综合,加深了对事物本质的认识,形成了理性认识;即理性知识。 人们是用自身的器官大脑来感知信息,储存信息,通过大脑对信息的加工形成知识。可见,知识是信息的一部分。 知识和文献p文献文献(Document/Literature)(Document/Literature)中华人民共和国国家标准中华人民共和国国家标准文献著录总则文献著录总则中给文献下中给文献下的

22、定义是:的定义是: 文献是记录有知识的一切载文献是记录有知识的一切载体。具体说是用文字、图形、体。具体说是用文字、图形、符号等技术手段记录人类知符号等技术手段记录人类知识的一切物质载体。识的一切物质载体。 文献的四要素文献的四要素 信息内容:信息内容:是文献所表达的思想意识、知识信息的涵义和内容。是文献所表达的思想意识、知识信息的涵义和内容。 信息符号:信息符号:是揭示和表达知识、信息内容的标识符号,是物化和是揭示和表达知识、信息内容的标识符号,是物化和标识文献信息内容的工具。现代文献采用的信息符号有:文字、标识文献信息内容的工具。现代文献采用的信息符号有:文字、图形、编码、声频、视频等。图形

23、、编码、声频、视频等。 载体材料:载体材料:是承载文献信息符号,从而使信息内容有所依附并便是承载文献信息符号,从而使信息内容有所依附并便于传播交流的物质材料。载体材料一般可分为纸型和非纸型两大于传播交流的物质材料。载体材料一般可分为纸型和非纸型两大类。纸型是以纸张为载体;非纸型的载体材料很多,如甲骨、金类。纸型是以纸张为载体;非纸型的载体材料很多,如甲骨、金石、捐帛、竹木、贝叶、兽皮、胶片、磁带、磁盘、光盘等。石、捐帛、竹木、贝叶、兽皮、胶片、磁带、磁盘、光盘等。 记录方式:记录方式:是指将包含信息内容的信息符号存储到载体材料上去是指将包含信息内容的信息符号存储到载体材料上去的方式。加书写、雕

24、刻、打字、印刷、拍摄、录制、复印和计算的方式。加书写、雕刻、打字、印刷、拍摄、录制、复印和计算机录入等。机录入等。 信息信息知识知识文献文献知识知识文献文献信息信息 信息、知识和文献的关系图信息、知识和文献的关系图十大情报源十大情报源 所谓“十大情报源”,是指人们在进行科研及技术工作时使用频率比较高的十种情报来源的总称。 a.a.科技图书:科技图书:是对某专门知识或某学科进行系统的论述或概括的一种情报来源。其主要特征是内容比较成熟,但相对比较陈旧。合法出版的图书均有版权页。 b.b.科技期刊科技期刊(periodical)(periodical):又称连续性出版物(serials),是一种定期

25、或不定期连续出版的文献载体,它一般有同样的名称,按一定时间编定卷号,每一卷又分若干期。其类型有:i.学术性、技术性刊物,是科技期刊的核心部分。刊名一般为:Acta(学报)、Journals(杂志)、annales(纪事)、Bulletin(通报)、Transactions(汇刊)、Preceedings(会刊)、Review(评论)、Progress;Advances in .(进展)等。ii.快报型。Communication(通讯)、letters(通讯)、bulletin等。iii.消息性(newsy journals)。news(新闻)、news letters等。iv.资料性(dat

26、a journals)。data、event等。科技期刊是最重要的一类文献来源。c.科技报告科技报告 报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构 可以说,报告是一种典型的机关团体出版物,常用的报告名称有: 科技报告按按报告的形式可分为:report(报告书),technical notes(技术札记),memorandum(备忘录),papers(论文),bulletin(通报),technical translations(技术译丛),special publications(特种出版物)。 按研究的进展情况分:primary r

27、eport(初步报告),progress report(进展报告), interrim report(中间报告),final report(中间报告)。 科技报告与其它文献的显著不同为根据科研水平的高低,科技报告分为若干密级,如top secret(绝密)、secret(秘密)、confidential(保密)、restricted(非密限制发行)、unclassified(公开)、declassified(解密)。 d.会议文献:会议文献:是指学术会议文献,它往往反映出科学技术的发展趋势,其特点是与最新成果的间隔时间短,但其内容与期刊相比可能不太成熟。会议类型大致可分为国际会议、全国性会议及

28、地区会议等。会议和会议文献常用的主要名称有conference(大会)、meeting(小型会议)、symposium(讨论会)、proceeding(会议录)、paper(单篇论文)、transaction(汇报)等。 e.e.专利文献:专利文献:在实行专利制度的国家,凡是本国或外国的个人和企业有了创造发明,都可以根据专利法的规定,向本国或外国专利局提出申请,经审查合格,批准授予在一定年限内享有创造发明成果的权利,并在法律上受到保护,这样一种受到法律保护的技术专有权利叫做专利。专利是与产业活动密切相关的,因而其实用性非常强。 根据专利的技术水平和应用情况,其类型有invention(发明)、

29、utility patent(实用新型)、和design patent(外观设计)等。f.标准文献标准文献 标准化主要包括三个方面:.产品标准化,即产品质量要符合技术规定;.产品规格化和系列化,即产品按型号大小来分档,成系列的发展,从而保证以较少的品种来满足广泛的要求;.零部件通用化,即同类机型零部件,特别是易损件要做到最大限度的通用互换性。 经过公认权威当局批准的标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固定下来、以文件形式出现的标准化工作成果,就是标准文献标准文献。 g.g.学位论文:学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文。博士学位

30、论文中,常含有独创性的学术性文献资料。 h.h.产品资料:产品资料:一般是指品样本,即产品说明书。好的产品说明书含有丰富的内容,包括产品规格、产品特点、产品专利号等多种对生产有用的信息。 I.I.技术档案:技术档案:是指在生产建设中和科技部门的技术活动中形成的,有一定的工程对象的技术文件的总称。 j.j.科技报纸:科技报纸:一些专门刊登科技类文献的报纸对了解当前的学科前沿和水平以及科学新闻很有益处。二、信息检索二、信息检索 信息检索的涵义信息检索的涵义 广义的信息检索:广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,所以它的全称又叫“信息的存储与检索”

31、。 狭义的信息检索狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询。 完整的信息检索概念包括两项工作:完整的信息检索概念包括两项工作: (1)(1)信息存储过程信息存储过程,即搜集、筛选、整理、积累现有信息及检索工具,建立信息检索系统; (2)(2)信息检索过程信息检索过程,即利用信息检索工具查找所需要的信息。检索的基本原理检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信

32、息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。检索原理图示检索原理图示 信息检索的原理、信息的外部特征(客观特征)、信息的内部特征(主题、分类)、信息的存储过程、信息的检索过程(查找图书、衣物,车站接人)信息检索的意义信息检索的意义n 避免重复研究或走弯路n 节省研究人员或用户的时间n 是获取新知识的捷径 知识有两类,一类是我们自己知道的,另一类是我们在什么地方可以找到-塞缪尔.约翰逊信息检索语言信息检索语言 : 信息检索语言的含义信息检

33、索语言的含义 信息检索语言是用来表达信息概念的一种人工语言,它是根据信息组织和检索需要所编制的特殊标识,是存储信息、组织信息和检索信息的符号。:信息检索语言的功能信息检索语言的功能 沟通“信息源”与“检索”的桥梁和纽带; 标引、组织和编排信息,形成各种信息检索工具或检索系统; 利用检索语言将信息从检索工具或检索系统中查检出来 :信息检索语言的分类:信息检索语言的分类 信息检索语言根据描述对象分类有两大类信息检索语言根据描述对象分类有两大类 第一类:描述文献内容特征第一类:描述文献内容特征 学科分类(学科专业角度入手,但无法反映新兴学科) 主题(从表达主题的信息概念入手,但不能满足族性检索)分类

34、主题 第二类:描述文献外部特征第二类:描述文献外部特征 题名 著者 出版者 其他 分类语言和主题语言分类语言和主题语言分类语言分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。 主题词语言主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。 人工语言人工语言 ( (规范语言规范语言) ) 和自然语言和自然语言(

35、 (非规范语言非规范语言) )artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。 信息检索工具 :信息检索工具的含义:信息检

36、索工具的含义 系统汇集某一学科或各门学科的相关知识,按照一定的体例和排检方法编排,提供查阅、征引和解答各种问题的一种文献一种文献。 :信息检索工具的功能:信息检索工具的功能 可以提供读书目录提示,告诉你读什么书。 提供所需信息的线索,快捷得到研究资料。 :信息检索工具的分类:信息检索工具的分类 第一类:指示型检索工具第一类:指示型检索工具 书目 索引 文摘 检索工具指南 第二类:参考型检索工具第二类:参考型检索工具 字典、词典 百科全书 类书、政书 年鉴、手册 名录 表谱 信息检索系统信息检索系统 含义含义 满足信息用户的信息需求而建立的拥有特定存贮、检索与传送的技术装备,提供一定存贮与检索方

37、法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(Information Retrieval System,简称IRS)。 信息检索系统基本要素信息检索系统基本要素检索者检索工具信息资料信息检索系统的体系结构信息检索系统的体系结构 潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则主题索引规则辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示信息检索语言、工具、系统三者的关系信息检索语言、工具、系统三者的关系信息检索语言信息检索语言检索者与

38、信息源的“沟通”的桥梁和中介信息检索工具信息检索工具检索者检索需求信息的依赖手段信息检索系统信息检索系统检索活动的整体特征描述与区分(人、工具、信息源) 信息检索系统类型信息检索系统类型:以信息存储和检索所设备和手段划分以信息存储和检索所设备和手段划分手工信息检索系统手工信息检索系统: 书本式检索系统 卡片式检索系统 计算机信息检索系统计算机信息检索系统:计算机光盘检索系统 计算机联机检索系统 计算机网络检索系统 信息检索类型:按揭示信息内容的程度划分:按揭示信息内容的程度划分: 题录 目录 索引 文摘 全文信息检索的类型信息检索的类型:按存贮和检索的内容划分:按存贮和检索的内容划分 文献检索

39、 数据检索 事实检索 图像检索信息检索的类型信息检索的类型数据信息检索数据信息检索事实信息检索事实信息检索文献信息检索文献信息检索图像信息检索 以检索内容划分以检索内容划分信息检索类型信息检索类型 :按检索系统中信息的组织方式划分按检索系统中信息的组织方式划分 全文检索 多媒体检索 超媒体检索三个阶段三个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段信息检索的发展历程信息检索的发展历程手工信息检索阶段手工信息检索阶段 正规的参考咨询工作是由美国公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志是1876年召开的美国图书馆协会第一届大会。1883年

40、,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室; 20世纪初,多数图书馆成立了参考咨询部门,主要利用图书主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引索引”突破了以前的狭隘范畴,成为独立的检索工具; 40年代进一步包括回答事实性咨询,编制书目、文摘,进行编制书目、文摘,进行专题文献检索,提供文献代译等专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。 机械信息检索两种基本类型机械信息检索两种基本类型机电信

41、息检索系统光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。 机械信息检索阶段机械信息检索阶段 计算机信息检索计算机信息检索 1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。 信息检索技术两个发展方向:信息检索技术两个发展方向: 传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能

42、力; 信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。 信息检索策略信息检索策略 信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检全率和检准率。 检全率() (漏检率) 检准率()(误检率)信息检索效率的评价信息检索效率的评价 检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。 在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。 查全率查全率 R(Recall ratio)查准率查准率 P(preci

43、sion ratio) 检索结果涉及四个方面:相关文献、非相关文献、检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。被检出的文献和未被检出的文献。 检全率与检准率的互逆相互曲线 10010080804040606010010080804040202020206060检检全全率率 R R检准率检准率 P P 检索策略的受制因素与策略选择检索策略的受制因素与策略选择 (1)以检全为目标的检索策略的调节与控制; (2)以检准为目标的检索策略的调节与控制; (3)以最小投入为目标的检索策略的调节与控制。 信息检索的程序信息检索的程序:分析研究信息检索课题:分析研究信息检索课题

44、 明确信息检索课题所涉及的领域和范围; 明确所需信息的内容及其内容特征; 明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构等; 明确信息检索课题对查新、查准和查全的指标要求。 :选择信息检索工具选择信息检索工具 信息检索工具是人们为了充分、准确、有效地利用已有的信息资源。 根据研究问题和信息资源特点选择适当的检索工具。 :确定信息检索方法确定信息检索方法 每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。 常用的信息检索方法常用的信息检索方法 顺查法 倒查法 抽查法 追溯

45、法 循环法 :掌握获取原始信息的线索掌握获取原始信息的线索 在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。 :获取原始信息:获取原始信息 判断文献的出版类型:根据文献出处中已有的信息,判断其出版类型。 整理文献出处:将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。 根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。 尽可能多渠道、多方式地获取原始信息。手工信息检索的技术与方法手工信息检索的技术与方法 (1)(1)手工信息检索工具手工信息检索工具 目录:目录

46、:图书或其他单独出版物规律化、系统化的记载 索引:索引:把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具文摘:文摘:把文献资料的主要内容,由有一定水平和经验的编者将其准确、简要地摘录出来,并注明出处后,经分类排序而编制成的检索工具年鉴:年鉴:以描述和统计的方式逐年提供某年度某一领域信息的工具书手册:手册:汇集某一学科领域或业务部门专门知识的工具书百科全书:荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书 (2) (2)手工信息检索工具的排检技术手工信息检索工具的排检技术 字顺排检技术字顺排检技术: :将检索工具的内容按字、词的一定顺序或规律,有系统地

47、组织排列起来的技术。 分类排检技术分类排检技术: :将信息素材按学科或事物性质系统地加以排列。 主题排检技术主题排检技术: :以规范化的自然语言为标识符号来标引信息内容的排检技术。 时序排检技术时序排检技术: :按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。 地序排检技术地序排检技术: :按一定时期的行政区域来排列信息素材的技术。 (3) (3)手工信息检索方法手工信息检索方法 顺查法:顺查法:一种以信息检索课题起始年代为起点,按时间顺序由远而近地查找信息的方法。 倒查法:倒查法:一种逆时间顺序由近而远地查找信息的方法。 抽查法:抽查法:一种针对研究课题发展的特点,抓住学科发

48、展迅速、发表文献较多的年代进行查找的方法。 追溯法:追溯法:又叫回溯法,是以某一篇文献末尾所附的参考文献为依据,由近及远进行逐一追踪的查找方法。 循环法:循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。 机械信息检索的技术与方法机械信息检索的技术与方法 机电信息检索系统机电信息检索系统 继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。 光电信息检索系统光电信息检索系统 主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型: 寻址检索方式 编码检索方式 计算机信息检索的技术与方法计算机信息检索

49、的技术与方法 (1)(1)联机信息检索联机信息检索 :联机检索的特点:联机检索的特点 信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。 优点:检索速度快;检索范围广而全面;检索途径多、质量高;检索内容新、实时性强;检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。 缺陷:主机负担重,一旦出现故障,则整个网络都将瘫痪;信息组织方式以线性为主,不够灵活;联机检索不像Internet是面向最终用户的,操作也没有后者方便。 :联机信息检索系统联机信息检索系统 由检索服务机构、国际通讯网络及终端三部分构成。联机检索的技术

50、原理:计算机联机完成数据的收集、分析、加工处理、存储、传递通信和检索信息的全过程。 联机信息检索的服务方式联机信息检索的服务方式 a、定题信息提供 b、专题回溯检索 c、联机订购原文 d、电子邮件 (2) (2)光盘信息检索光盘信息检索 :光盘检索的:光盘检索的特点特点使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输所造成的失误;光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式;光盘存贮容量大、耐用、复制费用低;可以把文本、图形、图像、声音及动态形象结合在一起;如果光盘数据库量不够多,则信息资

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁