《垂直搜索选择方法及其评价方法,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《垂直搜索选择方法及其评价方法,搜索引擎论文.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、垂直搜索选择方法及其评价方法,搜索引擎论文最近几年,随着网上信息容量的增加和类型的多样化,作为网上信息检索系统的通用搜索引擎,已不能知足特殊领域、特殊人群的精准化信息需求服务,加之市场需求多元化也决定了搜索引擎的服务形式必将出现细分,出现针对不同行业提供愈加精到准确的垂直搜索服务。然而,据统计,利用垂直搜索次数只是利用 Web 搜索次数的1.56%。面对这种状况,各搜索引擎公司为了知足用户的需求,开展了同时对多个信息源进行垂直搜索,并把从各信息源搜集到的搜索结果进行聚合,再利用 Web 提供应用户的聚合搜索服务。 最早开展聚合搜索业务的是韩国的 Naver,2000 年,Naver 开场了聚合
2、搜索的商业化服务,到 2018 年 6 月,已占韩国国内搜索市场77%的份额,是韩国利用率最高的搜索引擎。当前,Google、Yahoo!、Bing、Baidu 等世界知名的搜索引擎公司也都开展了聚合搜索业务。 但是,这些公司的 Web 搜索引擎公司不是经常性地开展聚合搜索业务。能否施行聚合搜索,除了根据用户的问题需求外,还要根据最新的新闻报道、博客报道的动向来判定。Naver 的特点是不仅提供 Web 上的信息,还提供来自各垂直搜索的相关信息,对各垂直搜索问题分开显示。如当输入 大学 进行搜索时,在页面上分别显示来自词典、知识 iN、知识百科、图像等垂直搜索引擎有关 大学 的结果。与 Nav
3、er 不同,Google、Yahoo!、Bing、Baidu 等是把 Web 搜索的结果和垂直搜索的结果混合显示。Google、Yahoo、Bing 等的聚合搜索,是在 Web 搜索结果前 10 位以追加形式插入垂直搜索结果。 从上述可见,聚合搜索结果的显示方式方法有两种:一个是各垂直搜索分开显示的方式方法;另一个是与 Web 搜索结果混合显示的方式方法。 有报告称这两种搜索结果显示方式方法对用户的点击次数没有太大的影响。但是以混合形式显示时,不管哪种垂直搜索,排在搜索结果上位的更容易被点击,所以把垂直搜索的结果插入哪个位置很重要。 也就是讲,以混合形式显示 Web 搜索结果和垂直搜索结果时,
4、最好把以为重要的垂直搜索结果排在前面。 一 、聚合搜索 的技术 为了实现聚合搜索,重要的是对输入到 Web 搜索引擎的问题混入了哪种垂直搜索的搜索结果,因而,下面重点介绍垂直搜索选择方式方法及其评价方式方法。 1.垂直搜索的选择方式方法。垂直搜索的选择判定使用三个要素,即问题、垂直搜索文集、问题日志。聚合搜索时,或用华而不实的一个要素选择垂直搜索,或用逻辑回归法组合几个要素选择垂直搜索。 1问题。使用问题选择垂直搜索的方式方法,是把问题中能否包含特定的本文关键词语作为判定材料。详细讲,在 Ad Hoc 网指定垂直搜索名和相关的 picture 、movie 、product 、shopping
5、 等单词,以及地名、观光地名等,以本文关键词语作为选择垂直搜索的使用。例如,搜索 digital camera shopping 这一问题时,就以 购物 为本文关键词语把购物垂直搜索作为选择对象,搜索 Dayan Pagoda 问题时,就以 塔 为本文关键词语把图像垂直搜索作为选择对象。 2垂直搜索的文集。使用垂直搜索的文集选择垂直搜索的方式方法,是把输入 Web 搜索的问题同时输入垂直搜索,选择更多与问题相符的检索结果的垂直搜索。由于本方式是把输入 Web 搜索的问题全都送入垂直搜索,所以计算成本较大。因而进行垂直搜索时,不使用含各类垂直搜索的完好索引,而是使用每种垂直搜索独设的简化索引,简
6、化索引是从完好索引节选而成的。 3问题日志。使用问题日志选择垂直搜索的方式方法,是通过问题与垂直搜索的相关度选择垂直搜索。通过直接输入垂直搜索的问题,能反映出用户对该垂直搜索感兴趣的主题,以及每类垂直搜索的问题的倾向性。例如,在垂直搜索 A 中问题 X 的频度高时,判定问题 X 与垂直搜索 A 的关联度高,给问题 X 混入垂直搜索 A 的搜索结果。由于一个问题一般是由几个单词组成,所以把问题分割成若干单词,找出被分割的单词与垂直搜索之间的关联度。另外,被分割的单词,不仅在一个垂直搜索,有时也在多个垂直搜索中频繁出现,此时,为了查全能够选择多个垂直搜索进行查找。 2.聚合搜索的评价。在聚合搜索中
7、为了实现更好的信息聚合,需要熟悉聚合搜索的评价方式方法。 1评价对象和评价条件。聚合搜索的评价,分为由评价者的评价和根据有无点击的评价。由评价者的评价又分为评价对象的不同和有无问题意图两种。评价对象的不同。这种评价是评价者以何为根据判定合适、不合适的问题。即,对给出的问题,有不看搜索结果,判定问题与垂直搜索的关联度;或是看了来自各垂直搜索的结果,判定问题与垂直搜索的关联度两种。前者的方式方法是由评价者给出的评价,只是以问题为对象得出的评价;而后一种方式方法,是以各垂直搜索的搜索结果为对象得出的评价。问题意图的有无。此评价观点有两个,一是有意图,即事先把问题背后的意图告知评价者让其评价;二是无意
8、图,即不告知评价者问题背后的意图,让评价者自个考虑问题背后的意图再行评价。前一个评价方式方法是被信息检索领域竞赛式会议 TREC 和 NTCIR 上采用的,当前,在信息检索评估中被普遍使用。但是在聚合搜索评价方面至今尚无统一的评价方式方法。 2评价方式方法的不同对评价的影响。图卢兹大学的 Kopliku 等人对评价方式方法不同对评价的影响进行调查,本调查以视频、图像、新闻、地图、Wiki、商品、A Q、字典等八个垂直搜索为对象,利用 2007年 TREC 会议上使用的 300 个问题,由 33 个评价者介入评价。 从调查结果看,评价者用实际看到的搜索结果,得出的判定更确切、全面。以视频类垂直搜
9、索为例,只从问题判定,所有问题中有12%合适视频垂直搜索。但在看完检索结果后再判定,所有问题中有 24%合适视频垂直搜索。其次是把问题背后的意图告知评价者的评价和不告知评价者的评价,表示出告知问题背后意图时的评价较局限,不灵敏。例如,当问题为 海南岛 时,告知检索意图是想知道海南岛的地理位置,给出正确解释的垂直搜索是地图、Wiki。但是不告知搜索意图时,可以从图像垂直搜索和动画垂直搜索获得正确解释,由此可见,不告知搜索意图时,评价者的视野更广泛,使用正确解释的垂直搜索的种类也增加。 3搜索结果的多样性。图卢兹大学的 Kopliku 等人还对聚合搜索结果的多样性进行调查。调查显示:只合适 Web
10、 搜索的问题占19%,只合适垂直搜索的问题占 16%,超过 80%的问题合适垂直搜索,而且 65%的问题合适多个垂直搜索。进一步,对于合适多个垂直搜索的问题最合适的垂直搜索进行调查,依次是 50%问题合适Web 搜索、23%问题合适 Wiki、10%问题合适 Q A、6%问题合适动画。结论是:进行一个垂直搜索,不能有多样性的搜索结果;若进行聚合搜索能够实现一个垂直搜索不能实现的多样性。 二、聚合搜索的课题与将来 关于聚合搜索的研究,近年来比拟盛行,牵涉的课题也是多方面的,华而不实作为新的方向性的研究,有新闻搜索的选择方式方法,以及用户属性推断的应用。 1.新闻搜索的选择方式方法。为了把随时变化
11、的信息源混入聚合搜索中,利用者必须知道 如今正在查找什么? Yahoo!的 Diaz 提出有效聚合新闻搜索结果的方式方法。例如,输入 Yahoo! 这一问题,以关于Yahoo!的事件为起点,不是搜索导航性的问题,而是搜索新闻事件方面存在的问题,在这种情况下不能用 2.1 讲述的方式方法选择新闻搜索。 Diaz 提出了把 问题能否忽然发生的? 用该问题进行新闻搜索,排在顶端的新闻报道是数分钟之前登录的新的报道吗? 作为判定基准。进一步,从被聚合的新闻搜索结果的点击率,对能否继续聚合做动态性补充。与 Diaz 方式方法一样,微软也提出了针对最新新闻报道选择新闻搜索的方式方法。这个方式方法是利用在近
12、期 7 日内的新闻报道和博客报道中出现的本文关键词语选择新闻搜索。 Yahoo!的 Diaz 们进一步提出,不是把新闻报道和博客报道,而是把 Twitter 的微博报道作为选择的方式方法。假定记述微博的 URL 是近期关注的新闻和 Web 页面,把 URL 上的报道内容排在上位以表示其重要性。详细讲,以 Twitter 为对象进行试验,把 URL 上报道发送者的 Tweet 数、Retweet 数、Follow 数等各类信息输入学习器,抽出有用的 URL。以上这些能够作为选择新闻搜索的指标使用。 2.用户属性推断的应用。假如能够推断 Web 搜索用户的专业性,即可实现包括垂直搜索的各种应用。根
13、据微软的 White 等人的调查,提出从输入 Web 搜索的问题中,能够判定出用户是计算机专家、金融专家、医学专家、法律专家的方式方法。详细讲,就是用输入 Web搜索的问题长度、问题中专业术语的含有度、一次搜索提出的问题数、访问 Web 页面数、对话时间等进行等级分类。有实验报告称对计算机专家的判定,再现率 50%时能到达 80%的精准度。而其余三类专家再现率 50%时精准度为 60%下面。假如判定专家的精准度提高,能够作为选择垂直搜索的一个要素使用。 以下为参考文献 1Liu,N.;Yan,J.;ChenZ.Aprobabilistic model based approach for blendedsearch,Proceedings of 18th International World Wide Web Conference.2018. 2Murdok,V.;Lalmas,M.Workshop on Aggregated search ACM SIGIRForum.2008,422.