《用户日志的相关搜索研究.docx》由会员分享,可在线阅读,更多相关《用户日志的相关搜索研究.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、用户日志的相关搜索研究(信息技术杂志)2015年第二期1基于用户日志的相关搜索模型1.1基本思想搜索引擎查询日志中的session是指某一用户为了检索到某个信息,而在一段时间内采取的连续搜索行为Q1,Q2,Q3,。在以往平台使用的相关搜索中,由于考虑到用户使用的检索条件多为关键字的形式(这里将查询条件中,一个查询词组或者查询字定义为一个关键字),所以仍然使用的方式是关键字和文本信息相匹配的方法4。本文的背景是研究适宜某集团业务使用的设计实现,该套系统不仅针对公众开放,同时设计也需知足内部客服员工的使用。对于集团内部的使用就对设计有了特殊要求,比方:客服员工在接受问询的时候可能会很迅速地改变查询
2、目的,这就使得Session的划分很难根据常规的时间方法来实现。Jansen,DHe在实验中获得,当时间在10分钟15分钟之间的时候,划分Session,Session内包含的信息趋于稳定,这是一个适宜的临界取值区间。但这并不适用本文的状况。根据实际情况尝试将Ses-sion时间划分碎片化,将所有日志信息分割为微小单位,建立得到相关搜索的扩展集合。在扩展集合的基础上为用户提够检索推荐5。1.2模型描绘首先要清楚初始数据的关联关系,如今用一个查询关系图来描绘这些待用关键字。关键字既有的关系:q=Wq,Eq是用来描绘查询内容。Wq是用户生成的查询关键字集合w1,w2,w3,Eq=e是有向边的集合,
3、它代表关键字wiwj的联络。同时有v反映关键字wiwj边的关联价值,也是对e的评价。根据Session的特点,已经知道在同一Session下看作是同一用户的操作行为。用户在发送检索需求时,并不能两到三次的检索行动就一定到达目的需求。所以,这经过中,用户可能发生屡次对关键字的修正,将这形象的比作为一个沿着从零开场的时间链条单方向行为。最终建立的扩展集合是总结所有用户发生的单方向链条,所以其他用户在检索一个目的时,可能是从其他用户的非零时间切入,这就使得整体查询关系图变的交织复杂。这对建立可扩展集合很不利。本文需要发现并建立明晰明了的关键字关系,所以将复杂的检索关系切割,让它们成为唯一的关系对,而
4、不是关系链条。由于本文是面向领域专一的集团业务,所以数据量的大小是一个可承受条件。本文将得到的唯一关系对表述为elate=Query1,Query2,在描绘这对关系的时候,需要加上一些必要的注释因子,将这些注释因子看作关系对的属性,所以关系对能够表示为elate=Query1Query2,Object,这里的Object是这对关系的注释因子6。这个表达式是本文对唯一关系对进行处理和表达方式。图1是表示相关词对处理形式。1.3扩展集合规则设立根据实际需要,需要设定一个对现实需求有帮助的Session时间划分阈值7,在经过人们对集团用户使用习惯的统计分析,设定15秒的阈值为所需要的适宜Sessio
5、n时间划分。在马尔科夫模型中,在给定当前知识或信息的情况下,过去的历史状态对于预测将来状态是无关的。如今有随机变量的数列X1,X2,X3,这些变量的范围,即他们所有可能取值的集合,Xn的值则是在时间n的状态,在一定时间阈值内发生的状态偏移也是连续的,Xn+1是在时间n+1的状态,Xn+1不仅在时间上,在相关性上也是Xn的一个延续8。如此就知道了需要建立的可扩展集合的外部状态,在每次获取用户的关键字同时,本文会获取的信息包括SessionID,关键字发生时的时间Time(t),用户点击的UL。设定了扩展集合的时间准入,即它的Session时间阈值。由于用户日志的数据量宏大,必须对它继续挑选。我们
6、设定了一系列的度量值。或者wiwj不为空,显示是用户对关键字的替换修正。这两种修正关系表示关键字间是有价值的。此时的标记初始设置为1。当0时,以为它符合我们数据的有意义要求,是有价值的。1.4关键字权重设定在建立的扩展集合,不但需要使用模型的关键字对,同时需要每个关键字的属性描绘,既是前文讲到的Object10。此时,要考虑的是怎样反响这些关键字的关联强弱,也是影响它反响给用户的排名权重,本文将权重记为K。在Object属性中有一个描绘是heat。它的作用是标记用户日志中发现该条数据的重复程度,在权重公式中记为h。反映检索相关程度的权重公式:例如:在扩展集合中有q0,q1q0,q2,q1属性h
7、eat为10,为5,q2属性heat为15,为8。这个时候它们的权重就分别为1.7333和2.1333。权重数值较高的关键字选项q2在展示结果中会排列在q1前面。基于用户日志的可扩展集合生成流程步骤如下:Step1在接收到用户每一个检索需求时,记录下用户提交的信息,封装为一个对象。Step2将对象逐次入队列操作,同时对队列进行出队列操作。在出队列操作时要经过建立的中间字典挑选。在中间字典中要判定有无该条ses-sionid数据,没有新存入;有,则判定,。Step3在判定合法性时,不符合要求新存入中间字典,删除原有中间字典中对应数据。全部符合要求的数据到扩展集合中,重复的改变原有数据的heat值
8、,不重复,进行新存入集合操作。在属性描绘中的属性heat和增加新数据时候,都要求作下标记留作以后入库时候的增量更新使用。Step4在中间字典中,数据的合法性时间都很短,但它在内存中数据量是一个无限增长的经过,所以设定特别钟对它进行一次清理操作,保持系统的轻巧性。在天天用户操作较少时刻,进行定时操作,将数据分析存入文本和数据库。2实验结果为了验证本文系统设计的有效性,我们将设计完成的系统和原有未经优化改良的集团检索系统进行性能比照。本文没有采用集团公司的语料进行测试,而是在网络取网易,新浪和搜狐等知名中文门户网站信息,抓取10000个文档,建立索引测试。测评系统的性能标准,实验为系统设定了两个评
9、价标准。一个是准确率(Precision),另一个是召回率(ecall)。由于研究已表明一般用户查看检索结果时主要查看系统提供的前两页,以及本系统设计的特性,本实验通过分析返回结果的前20条记录来评价查准率。召回率实验通过人工标记的办法,对两个系统分别测试,并进行比比照较。实验选取10组一样的检索词条检索返回结果评定精准率。由图2可看得出原有的系统性能准确度平均值为0.575,而优化后的系统在该指标上的平均值为0.803。优化改良的系统比原有的系统在Precision指标提高了36.9%。从实验结果能够看出指标ecall有很大提升,图3显示查全率从0.729提升到0.871,提升了19.4%。
10、总体而言,经过本文的优化和改良,明显的提高了原有使用系统的性能。3结束语在实验经过中发现系统才开场启用的时期存在一个问题,即用户日志的数据量缺乏产生的影响。这将使本文的模型建立和运用无法得到最好的效果,此时能够结合局部文档相关反应技术的方法,在文档集上建立相应的文档扩展集合,根据一定的排名方法,将两个扩展集合中的关键字,根据一定比例链接起来,提交给用户做相关搜索使用11。在系统逐步成熟时,能够考虑建立单一的模型,供用户在使用中选取适宜的相关推荐。本系统运行结果的相关到达率到达了一定精度,十分是本文建立在基于用户日志上的扩展集在建立的经过中,有本人的挑选办法。本文分析数据相关性程度到达需求时,就能够推断这是一个稳定结果良好的相关搜索检索方式。