《个性化推荐服务中用户兴趣模型研究.docx》由会员分享,可在线阅读,更多相关《个性化推荐服务中用户兴趣模型研究.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、个性化推荐服务中用户兴趣模型研究 摘要:本文提出了一种利用用户阅读页面集的内容信息和阅读行为信息,隐式地创建用户爱好描述文件的方法。通过对用户阅读的web页面进行爱好度分析,并与对用户阅读网页时的阅读行为分析相合,得到了用特征矩阵表示的用户爱好模型。并采纳层次聚类算法和k-means聚类算法相结合的综合聚类算法进行聚类,得到用爱好分类树表示的用户爱好模型。由于采纳的是隐式创建用户描述文件的方法,削减了因用户参于而带来的系统噪声,保证了所创建的用户爱好模型的精确性。关键词用户爱好模型;阅读内容;阅读行为;爱好分类树人们正在寻求一种将用户感爱好的信息主动举荐给用户,对不同的用户供应不同的服务策略和
2、服务内容的服务模式,即特性化服务的信息方式。用户爱好模型是特性化服务系统的关键部分,用户爱好描述的精确与否干脆确定着特性化举荐服务的质量好坏。本文提出了一种利用用户阅读页面集的内容信息和阅读行为信息,隐式地创建用户爱好描述文件的方法。该方法以用户阅读Web页面的内容信息和行为信息作为数据源,采纳Web挖掘方法分析得到较精确的用户爱好描述,削减了由于用户参加而带来的系统噪声,保证了所创建的用户爱好模型的精确性。1基于web阅读内容和行为分析相结合的用户爱好模型整个用户爱好模型的创建过程包括Web阅读内容分析和Web阅读行为分析两部分,流程图如图1所示。图1用户爱好模型创建流程图Web阅读内容分析
3、,就是采纳Web聚类分析方法对用户已阅读的Web页面集进行内容聚类,得到用户感爱好的页面集;Web阅读行为分析是对用户阅读页面时的行为信息进行分析,得到用户对单一页面的爱好浓度。将二者相结合,就得到了用户感爱好的主题类别及对每类主题的爱好度,即用爱好分类树表示的用户爱好模型2基于web阅读内容的用户爱好分析本文中用户爱好模型描述所基于的web阅读内容是指用户阅读页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于web服务器端,首先依据用户的阅读日志记录,得到单一用户的阅读历史页面URL,然后从数据库服务器中取出这些URL对应的web页面,作为对阅读内容爱好描述的数据源。2
4、.1对阅读网页信息的数据预处理与数据库中的结构化数据相比,web文档具有有限的结构,即使具有一些结构,也是着重于格式而非文档内容。此外,文档的内容是人类所运用的自然语言,计算机很难处理其语义。Web文本信息源的这些特别性使得现有的数据挖掘技术无法干脆应用于其上。这就须要对文本进行预处理,抽取代表其特征的元数据,作为文档的中间表示形式。近年来应用较多且效果较好的特征表示法是向量空间模型(VectorSpaceModelVSM)法。在VSM中,将文本文档看成由一组词条构成,对于每一词条,依据其在文章中的重要程度给予肯定的权重。因此,全部用于挖掘的页面文档都可以用词条特征矢量表示。要将文本表示为向量
5、空间中的一个向量,就先要将文本分词,由这些特征词作为向量的维数来表示文本,最初的向量表示完全是0、l形式,即,假如文本中出现了该词,那么文本向量的该维为l,否则为0。这类方法无法体现这个词在文本中的作用程度,所以0、l渐渐被更精确的词频代替,词频分为肯定词频和相对词频。肯定词频,即运用词在文本中的出现频率表示文本;相对词频为规一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种TF-IDF公式,我们可采纳一种比较普遍的TF-lDF公式:我们把用于挖掘的页面文档作为一个文档集合。这样对于文档集合D=中的任一文档,采纳向量空间模型表示为:=其中m为文档特征向量的个数,为文档的第i个特征向量
6、,为文档中的权值。2.2页面相像度函数采纳向量空间模型表示的数据,必需选择计算两个特征矢量之间相像性的相像度函数。现在常用的方法有欧几里德距离、曼哈坦距离和夹角余弦函数。我们在这里采纳夹角余弦函数。但是在计算时可能会遇到用于比较的两个特征矢量长度不一样,我们可以采纳添零补齐的方法使两者长度一样。夹角余弦函数如下:其中,C(X,Y)表示页面X与Y的相像度,与表示X与Y对应的特征词的权值。页面X与Y值越相像,C(X,Y)值越大;反之则越小。3基于阅读行为的用户爱好分析探讨表明,用户许多阅读行为都能很好地反映用户的爱好。文献6指出用户的许多动作都能示意用户的喜好,如查询、阅读页面和文章、标记书签、反
7、馈信息、点击鼠标、拖动滚动条、前进、后退等。文献7的探讨指出用户访问时的停留时问、访问次数、保存、编辑、修改等动作能够揭示用户爱好。这些行为原委怎样反映用户的爱好,我们须要对其进行量化估算。3.1阅读行为的分类从表面上看能揭示用户对网页P爱好度d(P)的阅读行为许多,但我们分析发觉,起关键作用的是两种行为:在网页P上的阅读时间t(P)(简称T行为)和翻页/拉动滚动条的次数v(P)(简称V行为)。缘由有三:1)查询、编辑、修改等行为必定增加网页阅读时间和翻页次数,因此能够通过后者间接的得到反映。2)执行了保存、标记书签等动作的页面,若真为用户关切,通常以后会被多次调出来重新阅读,故可体现为访问次数。3)点击鼠标动作不被考虑,因为简洁动作不能有效揭示用户爱好。3.2阅读行为参数的计算为了找到T,V与网页爱好度的定量关系,通过分析和试验,确定采纳一元线性回来方法作为网页爱好建模分析的工具。线性回来分析方法是在分析探讨对象改变趋势的基础上建立函数模型,从而探讨对象之间存在的相互依存关系。