《第五章网络信息检索概论.ppt》由会员分享,可在线阅读,更多相关《第五章网络信息检索概论.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 网络信息检索概论,Internet 网络信息资源网络搜索引擎 网络信息检索,第一节、Internet,Internet的进入方式 IP地址,信息高速公路,(一)Internet的进入方式,(二)IP地址,识别主机的身份证,唯一性形式:四组小于256的十进制表示。如:210.40.0.58字符型的IP地址,即域名(DN),格式如: 主机名 机构名 网络类型 最高域名最高层域名有两种类型:机构名称最高层域名为3个以上字母。这些字母标明机构的类型。 地理名称高层域名为2个字母。这两个字母的代码确定了某个国家或地区。 例如:cn-中国, ca-加拿大,DN与IP一般是一一对应,通过Intern
2、et上域名服务器可自动将DN转换成IP。,美国的顶层域按机构性质分为:,此外,有关组织于1997年建议增加7个顶级域名,对有关域名空间作了进一步细分,以消除com域中出现的拥挤现象。所建议的顶级域名是:info(提供信息服务的组织),web(与WWW特别相关的组织),firm(商业公司),arts(文化和娱乐组织),nom(个体或个人),rec(强调消遣娱乐的组织),store(商业销售企业)。,第二节 网络信息资源,网络信息资源的含义网络信息资源的类型,一、网络信息资源的含义,网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和
3、。有人认为是:通过计算机网络可以利用的各种信息资源的总和。,二、网络信息资源的类型1、按所采用的传输协议分,万维网(world wide web,简称WWW或Web)信息资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息Telnet信息资源: telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。FTP信息资源:它使用ftp (file transfer protocol)协议,该协议主要用语连网计算机之间传输文件。FTP
4、相当于在网络上两个主机之间复制文件.用户服务组信息资源:包括新闻组,电子邮件组等。Gopher信息资源:,2、按文献类型分,电子报纸电子图书 电子期刊动态信息 如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。书目数据库,参考数据库等等,3、按媒体性质分,文本信息 如数据、论文、书刊、目录和数据库、广告。图形 图像 如图表、图形、影像、影视。声音 包括各种网上发表的演讲、报告及音乐信息。软件 如免费软件、赠送软件、商品软件及软件升级版本。,4、按信息内容的表现形式和内容分,全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版
5、,网络学院的各类教材,政府出版物,标准全文等;事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息:主要是指各种统计数据、实验数据;数据库类信息:如DIALOG,万方等,是传统数据库的网络化;微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型:投资行情和分析,图形图象,影视广告等。,第三节 网络搜索引擎,网络搜索引擎的类型检索结果的排序方法国内外主要搜索引擎简介搜索引擎的语法规则搜索引擎的检索功能 搜索引擎的检索方法,全文索引,元搜索引擎,目录索引,垂直搜索引擎,集合式搜索引擎,门户搜索引擎与免费链接列表,
6、等等。仅介绍前面两种主要的搜索引擎。,一、搜索引擎的主要类型,1、独立(全文)搜索引擎:,允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,Google, WEB信息资源 用户系统 信息采集模块 信息检索模块 索引数据库 信息标引模块,2、元搜索引擎,二、检索结果的排序方法,(1)自然排名就是按相关度排名原则,对应的排名结果称“自然排名”。确定相关度的方法有:A、概率方法:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高);、位置方法:根据关键词在文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高);、网页被引用次数 google主
7、要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。、被匹配提问词的数量如果提问式中包含3个单词,那么全部包含3个单词的记录要比只包含2个或1个单词的记录分值要高。、词的邻近度如果两个词紧挨着出现要比分开出现的分值高。,(2)付费排名,近年来搜索引擎公司推出了一种“付费搜索”业务,打破了自然排名原则,把搜索引擎检索结果网页(search engine result page, SERP )排名位置拍卖给从事网络推广的广告主。这些广告可以按“每次浏览”或“每次点击”等原则出价,出价越高
8、则其结果在SERP中的排名越高,这一原则称为“竞价排名”原则,对应的排名结果叫“付费排名”,,三、常用中外搜索引擎简介,常用中文独立搜索引擎(P76-)常用外文独立搜索引擎(P79-)常用中外元搜索引擎(P86-),四、搜索引擎的语法规则(P1),(1)使用逻辑算符:AND、 OR、NOT:如“计算机营销状况,但对IBM的情况不关心”,检索式为:“计算机营销 NOT IBM” 。(2)使用“+”、“-”或should, should not、must等:用来强调某个词汇必须(可能)出现或者不出现在搜索结果中,如查找“联想公司的计算机产品,但不是天琴系列”,检索式是:“计算机 AND( +联想
9、-天琴)”,四、搜索引擎的语法规则(P2),(3)使用NEAR:其控制语句可以为NEAR/n(n1),用于查找在一定范围n内同时出现关键字的文献,它既可以统计关键字出现的频率,还可检查关键字相隔距离,如:输入Good NEAR/10 Better。(4)使用连字符:e-business(电子商务,四、搜索引擎的语法规则(P3),(5)使用逗号、括号、引号:一般情况下:逗号的作用和OR的作用一样;括号的作用和数学中的作用一样,如:计算机AND(杂志OR游戏),查出的是“计算机杂志”或“计算机游戏”;引号是告诉搜索引擎将几个关键字作为一个完整的组合字符串进行搜索。如:查找电子杂志方面的文献,可输入
10、“electronic magazine”(带引号),若不加引号,两字间的空格一般均作为“OR”解释。,四、搜索引擎的语法规则(P4),(6)使用通配符“*”: 通配符可以用来指代词汇的某一部分。如com*,可以代表computer,communication,company等,五、搜索引擎的检索功能(p1),1.布尔逻辑检索 几乎所有的搜索引擎都具有布尔逻辑功能。2.加权检索“”号或选择“must contain”,:表示某个关键词“一定要出现” 或 “必须包含” 在检索结果中;“”号或选择“must not contain”,“should not”:表示某个关键词“一定不能出现” 或“可
11、能不包含”在检索结果中;不加符号或选择“should contain”, “should” ,表示某个关键词“可以出现” 或“可以包含”在检索结果中。 3.词语检索 在一串词后加双引号(“”)或用连字符()连接,限定检索结果中的词语必须精确匹配。4.截词检索,五、搜索引擎的检索功能(P2),5.字段限定检索 如“titil:”、“abstract:”、“keyword:“、“主机名限制(host:)、超链限制(anchor:)、域名限制(domain:)、URL限制(url:)、链接限制(link:)、网址限制(site:)、新闻组限制(newsgroups:)、E-mail限制(from:)
12、等。,五、搜索引擎的检索功能(P3),6.位置检索 部分搜索引擎支持一定的位置检索功能。如Alta Vista:能提供位置检索,但目前只有near一种.Web Crawler:如输入A near 3/B,表示两个词之间最多可有个其它词。,五、搜索引擎的检索功能(P4),7.字母大小写检索 有些系统区分字母大小写,如Alta Vista, Infoseek;有些系统不区分大小写,如Yahoo!、新浪等。有些系统对名词检索有特殊规定。如InfoSeek要求对人名或地名首字母大写。8.指定语种检索 等等,六、搜索引擎的主要检索方法,分类检索基本检索(简单检索)高级检索地区检索,1、分类检索,每一个搜
13、索引擎都收录了大量的网址地址(中文搜索引擎以中文信息为主,外文搜索引擎以外文信息为主),大多数搜索引擎在其首页都提供分类范畴表(或分类目录),有的还分好几级类目,只需用鼠标点击选中的主题,即可进入下一级类目,或直接显示相关的站点或文献名称。,如:,分类栏目,2、基本检索(简单检索),它是索引式搜索引擎,用户在搜索框中输入检索词,搜索引擎会返回一组指向相关站点的超级链接。它往往对检索提问式的构造要求较低,比较直观,检索过程相对简单。,检索结果,6570000,3、高级检索,高级检索:往往需要用户按照搜索引擎检索的语法规则,自行构造完整的检索式(在基本检索界面),或将检索词输入到相应的检索框中。(
14、在高级检索界面)。高级检索界面:,如:“公务员考试模拟试题”,公务员考试模拟试题,输入检索式,输入检索词,两种输入方式的检索结果,110000,又如:在标题中检索 “完整关键词”,104000,Title:“公务员考试模拟试题”,又如:google,4、地区检索,A.通过“虚拟旅游者”检索信息 “虚拟旅游者”(The Virtual Tourist)是按地区访问WWW的超文本页面,不便提供文字说明,配备含链接的世界地图。通过使用鼠标点击世界地图的不同部分,用户可能非常直观地进行按地区检索信息。它的URL地址为:http:/WWW 许多Gopher服务器都提供按地区检索信息的功能。可以通过URL
15、地址的Gopher服务器按地区检索信息:C.用搜索引擎提供的地区(图)搜索检索如google提供的“地图”查询,中搜的地图搜索等等。,第四节 网络信息检索,网络信息检索概念网络信息检索工具的类型网络信息检索技巧,一、网络信息检索概念,网络信息检索指网络信息按一定的方式存储起来,用科学的方法,利用检索工具,为用户检索、揭示、传递知识和信息的过程。广义的网络信息检索包括网络信息整序和搜寻,整序是对网上的知识和信息进行加工,按学科、主题或字顺等方式排序,形成检索工具或检索系统;狭义的就是网络信息搜寻,指利用相应的检索工具或检索系统,运用科学的方法,从有序的信息集合中查出所需信息的过程。,二、网络信息
16、检索工具的类型,按不同方式可分为不同类型:1、按检索资源的类型分:(1) 非Web资源检索工具 即以非Web资源(如:FTP,Gopher,Telnet,Usenet等)为检索对象的检索工具,如:Archie,Veronica,WAIS等。(2) Web资源检索工具 即以Web资源为主要检索对象,又以Web形式提供的检索工具 。,2、按检索时所包括的检索工具数量分, 独立型(单一)搜索引擎:它拥有自己的索引数据库,提供基于自身索引库的查询,如Yahoo! 搜狐、google等集合型搜索引擎(元搜索引擎):它没有自己的索引数据库,只提供集成的查询界面,典型的有:3721、Metasearch,M
17、etaCrawler,Bytesearch等.,3、按索引方式分,目录型搜索引擎:主要采用人工或机器搜索信息,由人工对信息进行分类加工整理,建立分类导航或分类编排网站目录,提供分类检索的引擎,如搜狐、全文型搜索引擎:又称索引型搜索引擎,由索引软件自动搜索信息,建立网页信息索引库提供全文检索,如百度,google等,三、网络搜索引擎的检索技巧,限定在网页标题中intitle,title,或t:把查询内容中特别关键的部分,用“intitle:”领起来。例如,找林青霞的写真,可以写成:写真 intitle:林青霞,2、限定在特定站点中site格式是:“查询词 site:站点域名”。如,查“sina中
18、旅游方面的资料”,可以输入:旅游 site:注意,“site:”后面跟的站点域名,不要带http:/.3、限定在url链接中inurl格式是“inurl:关键词”或:“url:关键词”。如,找关于“photoshop的使用技巧”,可以用:photoshop inurl:jiqiao,查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意:intitle: site: inurl:和后面所跟的关键词(或站点)不要有空格。,4.精确匹配双引号和书名号A、双引号可以达到让搜索引擎不拆分查询词。如,搜索“贵州大学农学院”,B、书名号:一是书名号会
19、出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。通常用于查名字很通俗和常用的电影或者小说。如,查电影手机,,5.根据特征选择查询词,如(1)找论文查找“烟草栽培方面的期刊论文”1) 输入: 主题词+文档格式(PDF,DOC等),如filetype:pdf title: ( 烟草栽培 )2) 由于一般的论文,都有一定的格式,除了标题、正文、附录,还需有论文关键词,摘要等。其中, “关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。因此,可以输入: 关键词 摘要 title:烟草栽培3)直接用搜索引擎提供的“学术搜索”或“论文搜索”,(2)找范文找市场调查报告范文:市
20、场调查报告的特点。一是网页标题中通常会有“xxxx调查报告”的字样;二是在正文中,通常会有几个特征词,如“市场”、“需求”、“消费”等。于是,利用intitle即可以找到类似范文。 例:市场 消费 需求 intitle:调查报告找申请书范文:如入党申请书。比如入党申请书的最明显的特征词就是“我志愿加入中国共产党”。 例:我志愿加入中国共产党 title:入党申请书找工作总结范文:工作总结,总会写的象八股文一样,“一、二、三”,“第一,第二,第三”,“首先,其次,最后”。而且工作总结的标题中,通常会出现“工作总结”四个字,因此,可用第一 第二 第三 intitle:工作总结,(3)找问题的解决办法:猜谜语:有时候会遇上各种高难度的谜语,但只要这种谜语的传播范围略广些,通常都可以在网上找到答案,搜索时只需把谜面和“谜底”作为关键词搜索就可以了 例:眼皮上落着一只苍蝇 谜底 解难题:如微软招聘,曾有一个著名的题目:“下水道的盖子为什么是圆的”,例:下水道 盖子 圆的 回答.也可以用搜索引擎找其他人五花八门的解答。如:浏览器主页 被修改; 冲击波病毒 预防;消除青春痘;预防口腔溃疡或者直接用:百度“知道”(http:/ (http:/ Answers (http:/