网络信息检索基础.ppt

上传人:创****公 文档编号:3343258 上传时间:2020-08-09 格式:PPT 页数:58 大小:2.28MB
返回 下载 相关 举报
网络信息检索基础.ppt_第1页
第1页 / 共58页
网络信息检索基础.ppt_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《网络信息检索基础.ppt》由会员分享,可在线阅读,更多相关《网络信息检索基础.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、网络信息检索基础,文献学教研室 冯勤 2004.10,Internet简介,Internet历史与发展 (因特网、国际互联网) 1. ARPANet (1969年,美国国防部研制) 2. NSFNet(1985年美国国家科学基金会建立,1989年取代ARPANet) 3. Internet(1990年后迅速普及),国内与Internet直接联网的四大网络,1.中国教育科研网(CERNET) 2.中国科技网(CSTNET) 3.中国公用计算机互联网(CHINANET) 4.中国金桥信息网(CHINAGBNET) ,Internet的入网方式,1.通过局域网方式 2.通过ISP接入( ISP是提供

2、Internet入网服务的机构) 拨号接入:计算机、Modem、电话线、ISP 帐号。 (ADSL) 专线接入:租用数据专线或光缆、DDN等以及配套网络设备。,ADSL,(Asymmetrical Digital Subscriber Line,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。 ADSL素有“网络快车”之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继Modem、ISDN之后的又一种全新的、更快捷、更高效的接入方式。,Internet 的管理,1.TCP/IP协议:是计算机网

3、络协议中最核心的两个协议。 TCP是传输控制协议,处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。 IP是网际协议,利用路由算法解决路由选择的问题。,Internet 的管理,2.IP地址: 是Internet上每台主机和用户终端的识别标识。 IP地址在全球范围内都是唯一的。 IP地址的表示:211.83.48.13 3.域名系统(DNS): 例: 结构为:主机名.机构名.网络名.最高域名,Internet 的管理,常用网络名: com(商业机构)、edu(教育机构)、 mil(军事部门)、gov(政府部门)、 org(非盈利组织)、net(网络服务商) 最高域名:

4、cn(中国)、uk(英国)、jp(日本) 美国享有国家域名默认权。,Internet 的管理,4.客户机/服务器(client/server)模式 服务器:是指向全球Internet用户提供信息和服务的高性能计算机,包括Web服务器、邮件服务器、文件传输服务器。 客户机:是指连接在服务器上的工作站(网络终端)。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。,Internet 提供的主要服务,电子邮件服务( E-mail) 文件传输服务(FTP) 远程登录(Telnet) 电子论坛( Electronic Forum ) 信息查询服务( Archie、Gop

5、her、WAIS,WWW),Internet 提供的主要服务,1.电子邮件服务( E-mail) E-mail地址格式: 用户名电子邮件服务器名 如: 常用电子邮件软件:Outlook Express, Eudora, Foxmail等,可管理多个邮件帐号,直接收发邮件。(将邮件pop到本地),Internet 提供的主要服务,2.文件传输服务(File Transfer Protocol,FTP) 是以其遵守的文件传输协议 FTP而命名的。 FTP是Internet上文件传输的各种规程的集合。通过FTP,用户可将本地文件上载给远程主机(upload),更多情况是从远程主机上下载 (downl

6、oad)文件。(包括文本、图像、声音、多媒体、软件或数据文件等),Internet 提供的主要服务,3.远程登录(Telnet) 是指本地计算机通过Internet访问远程计算机上的硬件资源、软件资源和信息资源的过程。对于限制公开访问的远程主机,登录时要输入用户名和密码。 随着 www的普及, Telnet已少有使用。,Internet 提供的主要服务,4.电子论坛( Electronic Forum ) 是Internet用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论组(Usenet)。 电子公告版(Bulletin Board System,BBS)与专题讨论组功

7、能相似,但其规模小得多,且BBS上的观点只留在本地服务器上。,Internet 提供的主要服务,5.信息查询(检索)服务 在E-Mail、FTP和Telnet基础上开发的,比较知名的工具有Archie、Gopher、WAIS等,目前大多数INTERNET用户通过WWW浏览和WWW信息检索工具查询和使用网络信息资源。,WWW概述,万维网(World Wide Web,WWW) 又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用HTTP(超文本传输协议)在Internet上提供全球范围的多媒体信息服务。 1993年1月,因特网上约有50个WWW服务器在工作,1999年高达300万个。现

8、在WWW有等同于Internet的趋势。,WWW概述,超文本(Hypertext) 包含两个含义: 其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件; 其二是网页文件内部包含链接(link)。,WWW概述,超文本标记语言 (Hyper Text Markup Language,HTML)是制作Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。 HTML编辑器:Frontpage、DreamWeaver、Netscape Composer,统一资源定位器 (Uniform Resource Locator,

9、URL) 用来描述信息资源的类型和在网上的位置,即网址。 URL格式: ftp:/ 协议:/文件所在服务器名/目录路径和文件名,WWW概述,WWW概述,浏览器(Browser) 是使用WWW资源的客户软件。 常用的浏览器有: 网景公司的Navigator Communicator 微软公司的Internet Explorer(IE),Web检索工具,是指提供万维网信息查询的计算机系统。 工作原理: 1.信息采集:利用网络自动搜索软件Robot或Spider,以一个URL清单为向导,定期对Internet上的网页进行扫描搜索,记录下网页的有关事项。 2.数据标引:对采集到的网页信息数据, Rob

10、ot等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。,Web检索工具,3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等 。 4.检索功能:布尔算符检索(AND + 、OR | 、NOT -),截词检索,词组检索 ,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。,Web检索工具的类型,1.搜索引擎(search engine) 自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典

11、型:Google 2.目录型检索工具(Web directory,catalog) 以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:Yahoo!、搜狐 多数检索工具同时具有关键词检索和目录浏览功能。,Web检索工具的类型,3.多元搜索引擎(metasearch engine) 通过统一的用户界面,可同时查询多个独立的Web检索工具,然后对这些结果进行加权等处理后返回给用户。例如: Metacrawler、Turbostart等; 天网搜霸:强大的搜索引擎集成工具。 飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的

12、全方位互联网信息检索工具。,国外著名通用搜索引擎,Yahoo!() Google() Lycos() Excite() AltaVista() Infoseek() HotBot(),Yahoo!, Yahoo!的两位创始人大卫费罗(David Filo) 和杨致远(Jerry Yang),美国斯坦福大学电机工程系的博士生,于1994年4月建立。 Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本。(参见雅虎中国),检索途径:,分类浏览:分为14个大类,每个大类下又分若干子类。 专题链接:与Shopping、Yellow Pages、 Maps News、S

13、ports等专题信息链接。 简单检索:直接输入检索词 高级检索,Google,Google 的释义 Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。,关于 Google,两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。 Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进

14、行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2 亿次查询服务。,Google,特点: 界面非常简洁,速度极快;检索网页数量达24亿,搜索引擎中排名第一; 支持多达132种语言;包括简体和繁体中文; 具有“手气不错”、“网页快照”、图片搜索、新闻组搜索等功能。 运算符: 空格表示逻辑“与”;减号“”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。,中文通用搜索引擎,百度() 搜狐() 新浪() 网易(),于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度

15、总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。 百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线等。,百度(B,Inc),使用搜索引擎注意事项,分类体系的差异 类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个。 类名表述的不同:如新浪用“计算机”;网易用“电脑”。 关键词标引 高级搜索中运算符的使用 空格(AND)、&(AND)、 (NOT)、|(OR)、(

16、) “ ”表示一个整体单元。 不同的查询服务: 网站、网页、新闻、软件等 特殊的:图片、多媒体,网络信息资源的获取,Web检索工具(搜索引擎) 网络数据库(文摘数据库、全文数据库) 专业网站 电子期刊、电子图书 虚拟图书馆 学科专业导航库,维普中文科技期刊数据库 中国知网(中国期刊网)(CNKI) 国家科技图书文献中心 万方数据 ,国内主要数据库资源,国内医学搜索引擎和门户网站,眼科搜索 三九健康网 迈搏搜索 中国导医网 中国金卫网 37医学网 中国医药信息网 中国中医药信息网 中国药网,学科专业导航库,CALIS重点学科导航库 (北大、复旦等) 国家科技图书文献中心导航库,National

17、Institute of Health (美国国立卫生研究院)http:/www.nih.gov National Library of Medicine (美国国立医学图书馆)http:/www.nlm.nih.gov NCBI(美国国家生物技术信息中心) http:/www.ncbi.nlm.nih.gov AAMC(美国医学院协会) http:/www.aamc.org,国外医学数据库网站,Medscape Medical Matrix http:/www.medmatrix.org Medwebplus BioMedNet ,常用医学搜索引擎,Medscape(医景) : ,美国公司M

18、edscape公司1994年研制,1995年6月投入使用,由功能强大的通用搜索引擎AltaVista支持,可检索图像、声频、视频资料,至今共收藏了近20个临床学科25000多篇全文文献,是Web上最大的免费提供临床医学全文文献和继续医学教育资源(CME)的网点。 提供目录浏览和站点检索功能,在Medline、DrugInfo、MEDSCAPE内可进行字段限定检索,同时还可浏览每日医学新闻,免费获取CME各种资源,免费获取“Medpulse”,同时网上查找医学词典和回答用户咨询,提供根据疾病名称、所属学科和内容性质(会议报告、杂志文章的全文或摘要等)的英文按26个字母顺序进行分类检索。,Medi

19、cal Matrix (医源) http:/www.medmatrix.org/Index.asp,Medical Matrix 是一种目录型的免费全文智能检索工具,包括4600多个医学网址,1994年由堪萨斯大学创建,现由美国Medical Matrix LLC主持,是目前最重要的医学专业搜索引擎。提供了关键词搜索和分类目录搜索,最适合临床医师使用。 分类目录搜索是它的主要特色,按各种医学信息分为专业(Specialties)、疾病种类(Diseases)、临床实践(Clinical Practice)、文献(Literature)、教育(Education)、健康和职业(Healthcare and Professionals)等8大类。,其它医学搜索引擎:,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁