《搜索引擎及其应用.ppt》由会员分享,可在线阅读,更多相关《搜索引擎及其应用.ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章搜索引擎及其应用第六章搜索引擎及其应用http:/ 搜索引擎及其发展搜索引擎及其发展 搜索引擎概述搜索引擎概述1 1百度与谷歌百度与谷歌2 2搜索引擎的使用技巧搜索引擎的使用技巧3 3主要内容信息检索 1 搜索引擎概述什么是搜索引擎?什么是搜索引擎?搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。信息检索搜索器搜索器索引器索引器检索器检索器搜索引擎的组成搜索引擎的组成 1 搜索引擎概述搜索引擎原理搜索引擎原理信息检索抓取网页抓取网页建立索建立索引数据引数据库库检索界面检索界面 1 搜索引擎概述搜索引擎原理搜索引擎原理信
2、息检索v 利用能够从互联网上自动收集利用能够从互联网上自动收集网页的网页的Spider系统程序,自动系统程序,自动访问互联网,并沿着任何网页中访问互联网,并沿着任何网页中的所有的所有URL爬到其它网页,重复爬到其它网页,重复这过程,并把爬过的所有网页收这过程,并把爬过的所有网页收集回来。集回来。第一步:从互联网上抓取网页第一步:从互联网上抓取网页因特网 1 搜索引擎概述搜索引擎原理搜索引擎原理信息检索第二步:建立索引数据库第二步:建立索引数据库v 由分析索引系统程序对收集回来的网由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据页进行分析,提取相关网页信息,根据一定的相关度算法
3、进行大量复杂计算,一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据然后用这些相关信息建立网页索引数据库。库。1 1 搜索引擎搜索引擎概概述述搜索引擎原理搜索引擎原理信息检索v 搜索引擎的搜索引擎的SpiderSpider还必须一同实现对还必须一同实现对索引数据库的动态维护,以保证索引数据索引数据库的动态维护,以保证索引数据库准确反映网络信息资源的当前状况。库准确反映网络信息资源的当前状况。1 1 搜索引擎搜索引擎概概述述搜索引擎原理搜索
4、引擎原理信息检索第三步:检索界面的建立第三步:检索界面的建立 搜索引擎根据用户输入的检索词,在索搜索引擎根据用户输入的检索词,在索引数据库中快速地检出文档,进行文档与引数据库中快速地检出文档,进行文档与检索的相关度评价,对将要输出的结果进检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。行排序,并将检索结果返回给用户。1 1 搜索引擎搜索引擎概概述述搜索引擎原理搜索引擎原理信息检索 每个搜索引擎都必须向用户提供一个良好的每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括信息查询界面,一般包括分类目录分类目录及及关键词关键词两两种信息查询途径。种信息查询途径。1 1
5、搜索引擎搜索引擎概概述述搜索引擎原理搜索引擎原理信息检索抓取网页抓取网页建立索建立索引数据引数据库库检索界面检索界面 1 搜索引擎概述搜索引擎原理搜索引擎原理搜索器搜索器索引器索引器检索器检索器数据采集数据组织用户检索信息检索搜索引擎的发展搜索引擎的发展元搜索元搜索引擎引擎19951995Yahoo!Yahoo!19941994GopherGopher19931993ArchieArchie19901990第二代搜索第二代搜索目录搜索目录搜索Google1996Baidu1999第三代搜索第三代搜索网页搜索网页搜索 1 1 搜索引擎搜索引擎概概述述信息检索搜索引擎分类搜索引擎分类 按工作方式分
6、:按工作方式分:(1 1)目录式搜索引擎)目录式搜索引擎 也叫也叫“网址大全网址大全”,将网站分门别类,将网站分门别类地存放在相应的目录中,可按关键词搜索,地存放在相应的目录中,可按关键词搜索,也可按分类目录逐层查找。如也可按分类目录逐层查找。如YahooYahoo!(雅虎)、(雅虎)、hao123hao123、新浪分类目录搜索等、新浪分类目录搜索等 1 1 搜索引擎搜索引擎概概述述搜索引擎的分类搜索引擎的分类信息检索雅虎目录式网址搜索引擎界面信息检索搜索引擎分类搜索引擎分类 按工作方式分按工作方式分 (2 2)全文搜索引擎)全文搜索引擎 用户可以搜索一篇文章的任何部分,不用户可以搜索一篇文章
7、的任何部分,不论是标题还是正文。如百度、论是标题还是正文。如百度、GoogleGoogle、必、必应。应。1 1 搜索引擎搜索引擎概概述述搜索引擎的分类搜索引擎的分类信息检索信息检索搜索引擎分类搜索引擎分类 按工作方式分:按工作方式分:(3 3)元搜索引擎)元搜索引擎 指用户同时利用多个引擎进行网络搜指用户同时利用多个引擎进行网络搜索的中介。元搜索引擎接受用户查询请求索的中介。元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结后,同时在多个搜索引擎上搜索,并将结果返回给用户。目前世界上著名的元搜索果返回给用户。目前世界上著名的元搜索引擎有引擎有InfoSpaceInfoSpace、
8、DogpileDogpile、VivisimoVivisimo等。等。1 1 搜索引擎搜索引擎概概述述搜索引擎的分类搜索引擎的分类信息检索InfoSpace元搜索引擎界面信息检索元搜索引擎元搜索引擎觅搜、觅搜、Dogpile信息检索指数确定结果排序信息检索Dogplie信息检索指明出处信息检索常用搜索引擎常用搜索引擎信息检索vGoogle是目前最大的是目前最大的全球性搜索引擎之一。全球性搜索引擎之一。v创始人:斯坦福大学博创始人:斯坦福大学博士生拉里士生拉里佩奇(佩奇(Larry Page)和谢尔盖)和谢尔盖布林布林(SergEy Brin)创)创立。立。2 2 百度百度与与googlegoo
9、gle2 百度与百度与googleGoogleGoogle(谷歌)(谷歌)信息检索v名字由来名字由来v源于数学名词源于数学名词“Googol”,Googol表示一个表示一个 1 后面跟着后面跟着 100 个零。个零。Google Int.使用这使用这一术语体现了公司整合网上海量信一术语体现了公司整合网上海量信息的远大目标。息的远大目标。v使命使命v整合全球信息,使人人皆可访问并整合全球信息,使人人皆可访问并从中受益。从中受益。v价值观:价值观:Dont be evil不作恶不作恶 2 2 百度百度与与googlegoogleGoogleGoogle(谷歌)(谷歌)信息检索信息检索信息检索Goo
10、gle 技术技术v PageRank vPageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术。vGoogle用它来体现网页的相关性和重要性。2 2百度百度与与googlegoogle信息检索Google 技术技术vPageRank通过网络浩瀚的超链接关系来确定一个页面的等级。vGoogle把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。v级别从1到10级,10级为满分。
11、PR值越高说明该网页越受欢迎(越重要)。2 2百度百度与与googlegoogle信息检索Google的PageRank技术链接链接1链接链接210053链接链接1链接链接2链接链接395033信息检索Google 技术技术v超文本匹配分析技术(Hypertex-t Matching Analysis)vGoogle除了考虑检索词出现的次数,还分析关键词的字体、字号、以及字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析。v举例:检索词v A网页的标题中v B网页的正文中 2 2百度百度与与googlegoogleGoogle(谷歌)(谷歌)v
12、1基本搜索基本搜索1 谷歌一般谷歌一般(基本)检索基本)检索默认模糊搜索、默认拆分语句和过长的短语如何精确搜索(短语搜索)通配符*用法点号匹配任意字符:.布尔逻辑与:空格、AND或:OR、|非:-(减号)同义词:数字范围:.Google(谷歌)(谷歌)默默认认模糊搜索、默模糊搜索、默认认拆分拆分语语句和句和过长过长的短的短语语如何精确搜索(短语搜索)如何精确搜索(短语搜索)通配符通配符*用法用法40点号匹配任意字符(也可不用引号)41布尔逻辑 与42逻辑或逻辑非同义词(英文适用)数字范围v2高级搜索高级搜索vSite:表示对搜索的网站进行限制,如新闻”vFiletype:按文件类型搜索文件,包
13、括PDF、WRI、XLS、PPT等vInurl和 all inurl:搜索的关键字包含在URL连接中vIntitle 和 all intitle:搜索的关键字包含在网页中,如intitle 信息检索vlink:搜索所有链接到某个URL地址的网页。“”将找出所有指向 网易主页的网页。Google的检索方式的检索方式Google(谷歌)(谷歌)intitle:搜索范围限制在网页的标题intext:搜索范围限制在网页中的正文inurl:搜索范围限制在URLfiletype:根据文件后缀搜索特定文件类型define:搜索定义信息检索所有检索结词全部包含在检索结果中,但出现的次序不限即将所输入的内容作为
14、一个检索词来检索,不能有空格或符号。只要包含所输入的检索词之一即可,各检索词用空格隔开如何辨别网站的性质.edu 教育学术.gov 官方政府单位.net 网络管理或服务机构.org 财团法人或基金会等非官方的一般机构.int 国际性组织.com 代表商业企业团体与组织 中国科学研究机构v(1)图片搜索v(2)新闻搜索v(3)论坛搜索v(4)地图搜索v(5)学术搜索v(6)图书搜索v(7)购物搜索v(8)视频搜索v(9)大学搜索v(10)博客搜索其他常用搜索服务功能图片搜索图片搜索Google相似图片搜索Google相似图片搜索Google ScholarvGoogle Scholar:Goog
15、le面向研究人员推出,提供可广泛搜索学术文献的简便方法。v可以从一个位置搜索众多学科和资料来源:来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。v帮助用户在整个学术领域中确定相关性最强的研究。vhttp:/Google ScholarvGoogle ScholarGoogle Scholar检索技巧及举例检索技巧及举例简单检索,布尔逻辑,强制检索(适用于高频词)Google 默认逻辑“与”的关系(空格)高级检索,文章、作者、出版物、日期利用Google Scholar的服务功能导入Endnote电子邮件提醒检索结果可以方便地链接到合作图书
16、馆Google ScholarGoogle ScholarGoogle Scholar结果显示 v题名题名 titlev引用次数引用次数 Cited byv相关文献相关文献 Related articlesvBL Direct或指定图书馆或指定图书馆v数据库全文链接数据库全文链接 如如 jstor.org PDF v查看网页查看网页 View as HTML对检索式设置电子邮件提醒相关文献的引用记录直接下载PDF文档对Google Scholar进行设置信息检索百度百度(baidu)v创始人:李彦宏、徐勇创始人:李彦宏、徐勇v名字由来:名字由来:“百度百度”二字源于中二字源于中国宋朝词人辛弃疾
17、的国宋朝词人辛弃疾的青玉案青玉案元元夕夕词句词句“众里寻他千百度众里寻他千百度”,象征着百度对中文信息检索技术象征着百度对中文信息检索技术的执著追求。的执著追求。v使命:不断开发、创新使命:不断开发、创新v 让人们更便捷地获取信息、让人们更便捷地获取信息、找到所求找到所求 2 2 百度百度与与谷歌谷歌信息检索百度技术v百度搜索引擎由四部分组成:蜘蛛程序、百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。监控程序、索引数据库、检索程序。v百度的核心技术:超链分析百度的核心技术:超链分析超链分析技术,是新一代搜索引擎的关键超链分析技术,是新一代搜索引擎的关键技术。超链分析就是通过
18、分析链接网站的技术。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容用户在百度搜索时,越受用户欢迎的内容排名越靠前。排名越靠前。信息检索百度检索方式v(1)简单检索v逻辑与:“空格”、“+”、“&”v逻辑或:“|”v逻辑非:“-”信息检索信息检索所有检索结词全部包含在检索结果中,但出现的次序不限即将所输入的内容作为一个检索词来检索,不能有空格或符号。只要包含所输入的检索词之一即可,各检索词用空格隔开百度的检索技巧(检索语法)v(1)检索词)检索词 site:网站网站将搜索范围限制在某将搜索范围限制在某个特
19、定的网站中个特定的网站中v如如“四六级四六级”v(2)inurl:限定的字符串检索词限定的字符串检索词检索词包检索词包含在含在URL网址中网址中v(3)intitle:限定的字符串检索词限定的字符串检索词检索词包检索词包含在网页标题中。含在网页标题中。v如:如:intitle:四级四级v(4)双引号和书名号)双引号和书名号精确匹配精确匹配信息检索其他常用搜索服务功能v(1)新闻搜索)新闻搜索v(2)贴吧搜索)贴吧搜索v(3)MP3搜索搜索v(4)国学搜索)国学搜索v(5)百度知道)百度知道v(6)相关搜索)相关搜索v(7)实时搜索)实时搜索v(8)百度识图)百度识图信息检索信息检索信息检索百度
20、识图信息检索Graph Search图谱搜索图谱搜索vFacebookFacebook推出推出vGraph Search究竟能做什么?给出答案,而不是通往答案的链接vGraph Search可以搜什么?人、图片、地点、兴趣等 人:我在旧金山的好友都有谁?图片:我朋友们的照片 地点 兴趣:我朋友喜欢的电影v检索语言偏向口语化v基础:社交数据 信息检索信息检索搜索引擎使用技巧v(1)有针对性地选择搜索引擎)有针对性地选择搜索引擎v 根据检索目的根据检索目的v(2)根据要求选择检索方法并细化检索)根据要求选择检索方法并细化检索采用词组提高查准率采用词组提高查准率选用同义词提高查全率选用同义词提高查全
21、率 信息检索搜索引擎使用技巧v(3)使用多个关键词,精确检索)使用多个关键词,精确检索結果結果关键词越明确,搜索结果越精确电影 哈利波特2011年诺贝尔文学奖得主平均输入入1.5个关键词 太少 信息检索信息检索搜索引擎使用技巧v(4)、)、要要“加加”,不要不要“减减”,結果更結果更相相关关要“”卧虎藏龙卧虎藏龙+电视剧卧虎藏龙+电视剧+电影卧虎藏龙+电视剧+电影-音乐不要“”输入的关键词一定不可以出现在結果中卧虎藏龙-音乐知识管理 -site:.com信息检索搜索引擎使用技巧v(5)限定限定查询范围查询范围 結果更精結果更精确确语言:高级检索查询网页语言 偏好設定网域:只在.edu .tw .gov.tw .com .CN日期:一天内、一周内、一月内、一年内(google)文献类型:只在或去除 .ppt .pdf .doc