《(10)--lect-3 信息检索概论.ppt》由会员分享,可在线阅读,更多相关《(10)--lect-3 信息检索概论.ppt(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息检索概论一一.为什么要信息检索?为什么要信息检索?vv我们正面对着一个浩瀚的信息海洋我们正面对着一个浩瀚的信息海洋 vv网络和计算机带给我们的仅仅是电子邮件、网络和计算机带给我们的仅仅是电子邮件、聊天室、聊天室、MP3和搜索引擎吗?和搜索引擎吗?vv世界信息环境发生了巨大变化世界信息环境发生了巨大变化 vv你是否知道有哪些资源是你需要的?是否容你是否知道有哪些资源是你需要的?是否容易获得?易获得?1.我们正面对着一个浩瀚的信息海洋我们正面对着一个浩瀚的信息海洋vv “现在光浏览一下世界上一年的有关化学的论文和现在光浏览一下世界上一年的有关化学的论文和现在光浏览一下世界上一年的有关化学的论文
2、和现在光浏览一下世界上一年的有关化学的论文和著作,一个化学家如果每周看著作,一个化学家如果每周看著作,一个化学家如果每周看著作,一个化学家如果每周看4040个小时,也要读个小时,也要读个小时,也要读个小时,也要读4848年年年年”。vv 钱学森钱学森钱学森钱学森现代科学技术的发展现代科学技术的发展现代科学技术的发展现代科学技术的发展 vv 人类的知识与信息,在人类的知识与信息,在人类的知识与信息,在人类的知识与信息,在1919世纪大约每隔世纪大约每隔世纪大约每隔世纪大约每隔5050年增加年增加年增加年增加1 1倍,至倍,至倍,至倍,至2020世纪初世纪初世纪初世纪初3030年增加年增加年增加年
3、增加1 1倍,到了倍,到了倍,到了倍,到了2020世纪末世纪末世纪末世纪末2020个月就增加个月就增加个月就增加个月就增加1 1倍。倍。倍。倍。vv 现在现在现在现在纽约时报纽约时报纽约时报纽约时报一天的信息量比一天的信息量比一天的信息量比一天的信息量比1717世纪一个人世纪一个人世纪一个人世纪一个人一生所获得的信息量还要大。一生所获得的信息量还要大。一生所获得的信息量还要大。一生所获得的信息量还要大。vv 据有关专家统计据有关专家统计据有关专家统计据有关专家统计1.我们正面对着一个浩瀚的信息海洋我们正面对着一个浩瀚的信息海洋vv20世纪世纪90年代以来,人们在社会上实际面对年代以来,人们在社
4、会上实际面对的正式出版物和各种非正式渠道传播的信息的正式出版物和各种非正式渠道传播的信息几乎每过几乎每过1年就要翻年就要翻1番。番。vv我们知道,信息的时效性极强,据统计,每我们知道,信息的时效性极强,据统计,每年约有年约有10%的信息还未进入交流系统就已成的信息还未进入交流系统就已成为垃圾。特别是为垃圾。特别是Internet的开通,任何人都可的开通,任何人都可以在网上发布信息,网上信息更是五花八门、以在网上发布信息,网上信息更是五花八门、良莠不齐,垃圾信息随处可见。良莠不齐,垃圾信息随处可见。2.网络和计算机带给我们的仅仅是电网络和计算机带给我们的仅仅是电子邮件、聊天室、子邮件、聊天室、M
5、P3和搜索引擎吗和搜索引擎吗?vv不。对大学的用户来说,更重要的是那些有利于教不。对大学的用户来说,更重要的是那些有利于教不。对大学的用户来说,更重要的是那些有利于教不。对大学的用户来说,更重要的是那些有利于教学、科研和学习的网络学术资源。学、科研和学习的网络学术资源。学、科研和学习的网络学术资源。学、科研和学习的网络学术资源。vv我们知道,我们知道,我们知道,我们知道,2121世纪的社会是信息化社会,同时也是世纪的社会是信息化社会,同时也是世纪的社会是信息化社会,同时也是世纪的社会是信息化社会,同时也是竞争激烈的社会。所谓竞争,归根结底是人才的知竞争激烈的社会。所谓竞争,归根结底是人才的知竞
6、争激烈的社会。所谓竞争,归根结底是人才的知竞争激烈的社会。所谓竞争,归根结底是人才的知识创新能力和技术创新能力的竞争。识创新能力和技术创新能力的竞争。识创新能力和技术创新能力的竞争。识创新能力和技术创新能力的竞争。vv 我们如何具备这种创新竞争力呢?我们如何具备这种创新竞争力呢?我们如何具备这种创新竞争力呢?我们如何具备这种创新竞争力呢?vv 必须以充分掌握大量的必须以充分掌握大量的必须以充分掌握大量的必须以充分掌握大量的“有用信息有用信息有用信息有用信息”为基础为基础为基础为基础3.世界信息环境发生了巨大变化世界信息环境发生了巨大变化vv传统文献资源以集中和规范为标志,以印刷传统文献资源以集
7、中和规范为标志,以印刷型载体为主要表现形式。型载体为主要表现形式。vv伴随网络化、数字化而产生的网络信息资源伴随网络化、数字化而产生的网络信息资源具有数量大、类型多、多媒体、非规范、跨具有数量大、类型多、多媒体、非规范、跨地域、跨行业、跨语种的特点。地域、跨行业、跨语种的特点。vv印刷型载体与电子型载体多种多样,又相互印刷型载体与电子型载体多种多样,又相互转化、相互补充、相互交叠,各种检索工具、转化、相互补充、相互交叠,各种检索工具、数据库系统层出不穷。数据库系统层出不穷。信息爆炸信息爆炸v导致文献量急剧增加,重复量大导致文献量急剧增加,重复量大;v文献分布异常分散,查找利用困难;文献分布异常
8、分散,查找利用困难;v文献寿命越来越短文献寿命越来越短v吸收信息的能力不高吸收信息的能力不高v对信息进行有序化处理,可提高检索对信息进行有序化处理,可提高检索和利用的效率。和利用的效率。4.哪些资源是你需要的?是否容哪些资源是你需要的?是否容易获得?易获得?vv令人遗憾的是,在一个浩瀚的信息海洋里,信息资令人遗憾的是,在一个浩瀚的信息海洋里,信息资令人遗憾的是,在一个浩瀚的信息海洋里,信息资令人遗憾的是,在一个浩瀚的信息海洋里,信息资源虽然丰富,但并非垂手可得。源虽然丰富,但并非垂手可得。源虽然丰富,但并非垂手可得。源虽然丰富,但并非垂手可得。我们需要学习和研究:我们需要学习和研究:我们需要学
9、习和研究:我们需要学习和研究:怎样花最少的时间?怎样花最少的时间?怎样花最少的时间?怎样花最少的时间?如何在合适的地方使用合适的工具?用合适的方法寻找如何在合适的地方使用合适的工具?用合适的方法寻找如何在合适的地方使用合适的工具?用合适的方法寻找如何在合适的地方使用合适的工具?用合适的方法寻找到所需要的内容?到所需要的内容?到所需要的内容?到所需要的内容?如何使用这些资源?如何使用这些资源?如何使用这些资源?如何使用这些资源?这正是本门课程学习的精要所在这正是本门课程学习的精要所在这正是本门课程学习的精要所在这正是本门课程学习的精要所在 学而不思则罔,思而不学则殆v什么是信息检索?v信息检索(
10、Information Retrieval)是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程信息检索的基本原理v通过对大量的、分散无序的信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段是存储和检索这两个过程所采用的特征标志达到一致,以便有效地获得和利用信息。举例:v1.中国知网博硕士论文库v2.百度搜索引擎v3.超星数字图书馆进入一个新课题的过程1.读书,打好基础2.找综述性文章(中文综述一般水平都还挺高),了解研究状态如果能找到博士论文就太舒服了3.看会议文章,最新成果尽在于此4.研读重要的期刊文章(除中文一级刊物外,一定是英文的)5.要学
11、会通过参考文献顺藤摸瓜什么样的文章有价值v被引用次数高的v在等级高的期刊或会议发表的v作者牛的不会检索文献就是闭门造车v通过文献检索,了解最新动态书籍具有广度、深度和详细度(建议读原版,留意参考文献)一种基础的总结,不是最新的v从前,都是在纸上检索检索难得到原文更难v现在,Internet让我们有机会与世界同步但我们利用好这个机会了吗?检索起步v常见的网络信息资源搜索引擎专业数据库(博士硕士论文库)数字图书馆数字期刊库中国知网(CNKI)v曲阜师大日照校区图书馆 最关键的几个全文数据库vIEEEhttp:/ieeexplore.ieee.org/vElsevier Sciencehttp:/
12、FirstSearchhttp:/firstsearch.oclc.org/FSIPvSCIhttp:/ Science找全文4.到这里碰运气http:/citeseer.ist.psu.edu/cshttp:/liinwww.ira.uka.de/bibliography/5.运气实在不好,就再来这里http:/6.找作者要信息检索基本技巧v截词检索“?”、“$”、*不要搜computer搜comput*v 布尔检索 NOT、AND和OR“信息检索”AND“网络”v原文检索 “”v多次检索,逐步求精图书馆购买、拥有使用权的电子资源(网络资源)由IP地址限制,专线访问,免费使用并发用户(3-15人)注意:严禁过量下载注意:严禁过量下载即在一定时间内集中、即在一定时间内集中、批量下载全文数量批量下载全文数量超过超过50篇以上篇以上 电子资源知识产权参考书参考书籍:1.Baeza-Yates,R.&B.Ribeiro-Neto.eds.Modern Information Retrieval.ACM Press,1999 现代信息检索(中文翻译版),机械工业出版社。2.张帆等著,信息存储与检索,高等教育出版社,2003年3.李国辉等著,信息的组织与检索,科学出版社,2003年。vThanks!