《搜索引擎的未来发展趋势课件.pptx》由会员分享,可在线阅读,更多相关《搜索引擎的未来发展趋势课件.pptx(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本讲提纲v搜索引擎的发展简史搜索引擎的发展简史v搜索引擎的分类搜索引擎的分类v搜索引擎的技术原理搜索引擎的技术原理v搜索经济的诞生搜索经济的诞生v搜索引擎的未来发展趋势搜索引擎的未来发展趋势1 搜索引擎的发展简史搜索引擎的发展简史-搜索引擎的鼻祖:Archiev1990年由年由Montreal的的McGill University(麦吉尔大学)(麦吉尔大学)学生学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的发明的Archie(Archie FAQ)v实际上是一个可搜索实际上是一个可搜索的的FTP文件名列表文件名列表现代搜索引擎的起源:Wandererv1
2、993年年MIT 的学生的学生Matthew Gray开发了开发了World Wide Web Wanderer,它是世界上第一个利用网,它是世界上第一个利用网页之间的链接关系来监测页之间的链接关系来监测Web发展规模的机器人发展规模的机器人(Robot)程序。)程序。v最开始只是用来统计互联网上的服务器数量,之最开始只是用来统计互联网上的服务器数量,之后发展为也能捕获网址。后发展为也能捕获网址。Yahoov1994.4美籍华人美籍华人Jerry Yang(杨致远杨致远)和和David Filo完成了一套搜索软完成了一套搜索软件。件。v最初最初Yahoo的数据是的数据是手工手工输入的,实际上输
3、入的,实际上只是一个可搜索的目只是一个可搜索的目录。录。v1995年年1月,正式成立月,正式成立Yahoo网站网站 第一个现代意义上的搜索引擎:Lycosv1994.7 Carnegie Mellon University 的的Michael Mauldin 将将 John Leavitt的的蜘蛛蜘蛛程序程序接入到其索引程接入到其索引程序中,创建了序中,创建了Lycos.v提供了前缀匹配和字提供了前缀匹配和字符相近限制、网页自符相近限制、网页自动摘要、数据量相对动摘要、数据量相对较大。较大。Infoseekv1994年底,年底,Infoseek推出,沿推出,沿袭袭Yahoo!和和Lycos的概
4、念。的概念。v友善的用户界面、大量附加服务友善的用户界面、大量附加服务使其使其后来者居上后来者居上。v1995.12与与Netscape的战略性的战略性协议使它变得很强势协议使它变得很强势v2001年年2月,月,Infoseek改用改用Overture的搜索结果的搜索结果第一个元搜索引擎:Metacrawlerv元搜索引擎元搜索引擎(A Meta Search Engine Roundup)。用户提交搜索后,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。v第一个元搜索引擎,是第一个元搜索引擎,是Washingto
5、n大学硕士生大学硕士生 Eric Selberg 和和 Oren Etzioni开发的开发的 Metacrawler。第一个支持自然语言搜索的搜索引擎:AltaVistav1995年年12月出现月出现(AltaVista Public Beta Press Release)。vAltaVista是第一个支持自是第一个支持自然语言搜索的搜索引擎。然语言搜索的搜索引擎。v2003年年AltaVista被被Overture收购,后者是收购,后者是Yahoo的子公司。的子公司。搜索引擎的后来之王:Googlev1995年,佩奇来到斯年,佩奇来到斯坦福读博士,开始网坦福读博士,开始网络链接结构方面的研络
6、链接结构方面的研究项目究项目BackRub。v之后,他和布林提出之后,他和布林提出了了PageRank技术,用技术,用于对网页评级于对网页评级v之后用于搜索引擎,之后用于搜索引擎,改写了搜索引擎的定改写了搜索引擎的定义,建立了义,建立了Google。搜索引擎的后来之王:GooglevGoogle在斯坦福引起了人们的关注。在斯坦福引起了人们的关注。v佩奇开始准备出售该技术,但是没有成功。佩奇开始准备出售该技术,但是没有成功。vSun公司创始人的投资,随后成立公司。公司创始人的投资,随后成立公司。v2000年和年和Yahoo合作,一飞冲天。合作,一飞冲天。v2004年年7月上市,市值月上市,市值2
7、50亿,增长速度超过微软。亿,增长速度超过微软。Google之特点v专注、进取、朴素、低调、神话般的创业故事专注、进取、朴素、低调、神话般的创业故事中文搜索引擎老大:百度v2000.1李彦宏创立了李彦宏创立了百度。百度。v2001.8发布百度测试发布百度测试版。版。v目前是最大的中文搜目前是最大的中文搜索引擎索引擎vMP3搜索特色搜索特色百度的特点v专注于技术专注于技术v专注于中文搜索专注于中文搜索北大天网v由北大计算机系网络由北大计算机系网络与分布式系统研究室与分布式系统研究室开发,于开发,于1997年年10月月29日正式在日正式在CERNET上提供服务。上提供服务。v利用教育网优势,有利用
8、教育网优势,有强大的强大的FTP搜索功能。搜索功能。中国互联网使用率使用率使用率信息渠道信息渠道生活助手生活助手网络新闻77.3%网络求职15.2%搜索引擎搜索引擎74.8%网络教育24.0%写博客19.1%网络购物25.5%交流工具交流工具网络销售4.3%即时通信69.8%网上旅行预订3.9%电子邮件55.4%网上银行20.9%娱乐工具娱乐工具网上炒股14.1%网络音乐68.5%网络影视61.1%网络游戏47.0%2007年7月中国互联网信息中心第20次网络调查报告2 搜索引擎的分类搜索引擎的分类-目录搜索引擎v以人工方式或半自动以人工方式或半自动方式搜集信息方式搜集信息v信息准确、导航质量
9、信息准确、导航质量v缺点是需要人工介入、缺点是需要人工介入、维护量大、信息量少、维护量大、信息量少、信息更新不及时信息更新不及时机器人搜索引擎v由一个称为蜘蛛由一个称为蜘蛛(Spider)的机器人)的机器人程序自动搜索信息程序自动搜索信息v优点:信息量大、更优点:信息量大、更新及时、无需人工干新及时、无需人工干预预v缺点:返回信息过多,缺点:返回信息过多,有很多无用信息。有很多无用信息。元搜索引擎v利用其他搜索引擎返利用其他搜索引擎返回统一的搜索结果。回统一的搜索结果。v返回信息量更大、更返回信息量更大、更全。全。v缺点是不能充分使用缺点是不能充分使用所有搜索引擎的功能所有搜索引擎的功能其他搜
10、索产品v建站时间建站时间 1999.5v世界排名世界排名20v站长年龄站长年龄22岁岁v收购前月收入收购前月收入100万万v收购价格,号称收购价格,号称5000万,实际可能万,实际可能1000万万3 搜索引擎的技术原理搜索引擎的技术原理-搜索引擎的基本要求v接受用户提交的关键字,然后接受用户提交的关键字,然后 在一个在一个可以接受的可以接受的时间时间内返回一个和该用户查询内返回一个和该用户查询匹配匹配的网页信息的网页信息列列表表搜索引擎工作流程网页搜集预处理查询服务网页搜集v网页数据库的基本策略:网页数据库的基本策略:1)定期搜集:2)增量搜集:v网页的抓取策略:网页的抓取策略:1)“爬取”策
11、略:2)维护URL:定期搜集v定期搜索,隔一段时间后对整个网页重新搜集一定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。遍,替换以前的内容。v优点:实现起来较简单优点:实现起来较简单v缺点:开销较大,两次搜集的时间间隔不会很短,缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(时新性(freshness)”不高不高增量搜集v开始时搜集一遍,然后:开始时搜集一遍,然后:v1.搜集新出现的网页搜集新出现的网页v2.搜集更新了的网页搜集更新了的网页v3.发现有网页已经不存在,则从库中删除发现有网页已经不存在,则从库中删除“爬取”策略v将将Web看作是一个有向看作是一个有向图,搜集过
12、程从给定的图,搜集过程从给定的起始起始url集合集合S开始,沿开始,沿着网页中的链接,按照着网页中的链接,按照一定的策略(先深一定的策略(先深/先宽先宽/others)遍历。)遍历。v这个过程象蜘蛛这个过程象蜘蛛(spider)在蜘蛛网)在蜘蛛网(Web)上爬行)上爬行WWW工作原理客户端客户端新浪服务新浪服务器端器端发出请求发出请求发回网页发回网页爬取策略维护URLv系统进行第一次全面的网页搜集之后,维护相应系统进行第一次全面的网页搜集之后,维护相应的的URL集合,以后的搜索基于此集合。集合,以后的搜索基于此集合。v每搜到一个网页,如果它发生变化并有新的每搜到一个网页,如果它发生变化并有新的
13、URL,就将新,就将新URL也放到集合中。也放到集合中。人工添加v网站拥有者主动向搜索引擎提交自己的网址网站拥有者主动向搜索引擎提交自己的网址v系统在一定时间内定向向那些网站派出系统在一定时间内定向向那些网站派出“蜘蛛蜘蛛”程序,扫描并收集有关信息。程序,扫描并收集有关信息。存储网页v搜集到的网页将存储到知识库(搜集到的网页将存储到知识库(repository)中。)中。v知识库包含每个网页的知识库包含每个网页的docID,长度,长度,URL以及以及网页的全部网页的全部HTML。v由于网页数量会很多,所以,网页在存入知识库由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。时要进行压缩
14、处理。预处理v关键词的提取关键词的提取v重复或转载网页的消除重复或转载网页的消除v链接分析链接分析v网页重要程度的计算网页重要程度的计算关键词的提取v什么是倒排文件(什么是倒排文件(inverted file)?)?v需要从网页源文件中提取出能够代表它的内容的需要从网页源文件中提取出能够代表它的内容的一些特征,而关键词就是这种特征最好的代表。一些特征,而关键词就是这种特征最好的代表。v其中涉及到英文的分词和中文的分词。其中涉及到英文的分词和中文的分词。v对一篇网页来说,有效的词语数量一般是对一篇网页来说,有效的词语数量一般是200左右。左右。重复或转载网页的消除v据据2003年的有关数据表示,
15、互联网上网页的重复年的有关数据表示,互联网上网页的重复率平均大约为率平均大约为4。v在预处理阶段,要将重复或转载网页消除掉。在预处理阶段,要将重复或转载网页消除掉。链接分析v链接是分析网页重要的信息链接是分析网页重要的信息v1.链接描述文字准确的反映了网页的内容链接描述文字准确的反映了网页的内容v2.网页之间的链接关系,反映了网页的重要程度网页之间的链接关系,反映了网页的重要程度(PageRank Google)网页重要程度计算vPageRank(Google)v指向一个网页的链接越指向一个网页的链接越多,说明这个网页越重多,说明这个网页越重要。要。v把整个把整个web结构看作一结构看作一个矩
16、阵。个矩阵。N个网页就形个网页就形成一个成一个nn的矩阵。的矩阵。查询服务v查询方式和匹配查询方式和匹配v结果排序结果排序v文档摘要文档摘要查询方式和匹配v查询方式指的是系统允许用户提交查询的方式。查询方式指的是系统允许用户提交查询的方式。查询短语v分词分词对查询短语进行分词v匹配匹配将查询关键词与倒排文件的索引词进行匹配结果排序v按照某种评价方式,将搜索结果以某种顺序显示按照某种评价方式,将搜索结果以某种顺序显示出来。出来。v评价方式评价方式相关性早期采用基于词汇出现频度的方法词在不同文档中出现的频率vPageRank在预处理阶段形成重要性指标,和查询阶段的相关性指标相结合。文档摘要v静态生
17、成方式静态生成方式预处理阶段生成,如取网页的前512个字节,或者取每一段的第一句话。v动态生成方式动态生成方式在查询时,根据查询关键词的位置动态生成。搜索引擎系统的体系结构4 搜索经济的诞生搜索经济的诞生-互联网的重心发展历程网络沟通内容搜索注意力经济(眼球经济)v提供网上图片等各种提供网上图片等各种信息信息v注重提供免费信箱、注重提供免费信箱、聊天室等各种服务聊天室等各种服务v吸引人来,注重会员吸引人来,注重会员数。数。从眼球经济到拇指经济被动主动搜索力经济v拇指变成了十指,被动变拇指变成了十指,被动变成了主动成了主动v搜索成了网络经济的引擎搜索成了网络经济的引擎和发动机和发动机搜索引擎的盈
18、利模式v搜索引擎最初并没有显示出价值,只是一个免费搜索引擎最初并没有显示出价值,只是一个免费的附加服务。的附加服务。vPageRank算法的诞生,使得网络盈利成为可能算法的诞生,使得网络盈利成为可能v根据搜索结果显示相应的广告,这是网络广告的根据搜索结果显示相应的广告,这是网络广告的真正创新真正创新搜索引擎的盈利模式v竞价排名竞价排名1998年Overture推出收费竞价排名服务,谁出的钱多,谁排前面,搜索引擎成了摇钱树。v搜索与购物网站绑定搜索与购物网站绑定时长竞价排名v按天竞价按天竞价v消除恶意点击消除恶意点击搜索等于搜钱v2007年中国搜索引擎市场规模达年中国搜索引擎市场规模达29.0亿
19、元,比上亿元,比上一年增长一年增长108.3%艾瑞咨询艾瑞咨询中国搜索引擎市场份额中美日市场规模对比重构搜索力v2003年年8月,搜索引擎重新回到月,搜索引擎重新回到Yahoo首页的突首页的突出位置。出位置。并不完全是搜索引擎可以赚钱了关键是它还可以整合其现有的业务资源v2004年年8月,搜狐推出了搜索引擎搜狗。月,搜狐推出了搜索引擎搜狗。v2003年开始,微软重组年开始,微软重组MSN部门,并希望在下一部门,并希望在下一代操作系统中集成搜索。代操作系统中集成搜索。v亚马逊推出了亚马逊推出了A9网站,专注于购物搜索网站,专注于购物搜索搜索引擎大战v微软数次提出要收购微软数次提出要收购Googl
20、e.结果被Google挖走李开复vIBM也推出了自己的搜索技术也推出了自己的搜索技术v搜索引擎和门户网站之争搜索引擎和门户网站之争养虎为患不得不养v复杂的竞争合作关系复杂的竞争合作关系中国搜索用户的首选中国高端搜索用户的首选“百度”视频http:/ 群狼共舞搜索鸟网络世界的未来统治者?v目前,目前,Google是当之无愧的世界老大?是当之无愧的世界老大?v但是未来呢?但是未来呢?vGoogle在中国呢?在中国呢?5 搜索引擎的未来发展趋势搜索引擎的未来发展趋势-搜索引擎自身的发展趋势v专业化专业化v主题化主题化垂直搜索引擎v个性化个性化搜索工具条桌面搜索v智能化智能化v本地化本地化基于位置的搜
21、索服务搜索引擎所引发的互联网变化v搜索引擎的革命引发互联网应用模式、商务模式搜索引擎的革命引发互联网应用模式、商务模式和业务形态的革命和业务形态的革命搜索将成为一个网站的必备配置搜索引擎的综合化基于搜索引擎的信息增值业务竞争情报系统、商务搜索、8848的购物搜索、Google信箱搜索引擎的重要性v从内容为王到搜索为王从内容为王到搜索为王v从搜索服务到搜索平台从搜索服务到搜索平台v基于搜索平台的搜索增值服务基于搜索平台的搜索增值服务我的体会v搜索引擎中的土和洋。搜索引擎中的土和洋。v搜索引擎是一个技术性很强的东西,但是又需要搜索引擎是一个技术性很强的东西,但是又需要很多技术之外的东西很多技术之外
22、的东西v搜索引擎是一个很容易垄断的东西,但是又很容搜索引擎是一个很容易垄断的东西,但是又很容易打破垄断的东西。易打破垄断的东西。技术强、成本低、见效快、黏度低v搜索经济刚刚开始,搜索机会多多。搜索经济刚刚开始,搜索机会多多。推荐文献v李晓明李晓明,闫宏飞闫宏飞,王继民王继民(2005).搜索引擎搜索引擎 原理、技术与系统原理、技术与系统.北京:科学出版社北京:科学出版社.v彭鹏彭鹏,梁春晓梁春晓(2004).搜索革命搜索革命.北京:企业管理出版社北京:企业管理出版社.v东山樵夫东山樵夫(2005).百度百度如此专注如此专注.北京:东方出版社北京:东方出版社.v美美 约翰约翰.巴特利巴特利 (2006).搜搜.北京:中信出版社北京:中信出版社.谢谢大家