基于Web日志挖掘的客户访问兴趣分析.pdf

上传人:qwe****56 文档编号:69623675 上传时间:2023-01-07 格式:PDF 页数:8 大小:507.01KB
返回 下载 相关 举报
基于Web日志挖掘的客户访问兴趣分析.pdf_第1页
第1页 / 共8页
基于Web日志挖掘的客户访问兴趣分析.pdf_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《基于Web日志挖掘的客户访问兴趣分析.pdf》由会员分享,可在线阅读,更多相关《基于Web日志挖掘的客户访问兴趣分析.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第3 6 卷第5 期2 0 0 9 年9 月华北电力大学学报J o u r n a lo fN o a hC h i n aE l e c t r i cP o w e rU n i v e r s i t yV d 3 6 N o 5S e p,2 0 0 9基于W e b 日志挖掘的客户访问兴趣分析李中1,苑津莎1,徐小彩2(1 华北电力大学电气与电子工程学院,河北保定0 7 1 0 0 3;2 繁昌供电公司,安徽芜湖2 4 1 2 0 0)摘要:数据预处理是w e b 日志挖掘中的一项关键技术,如何分析客户访问兴趣是w e b 挖掘中的一个重要研究课题。概述了w e b 日志挖掘的概念、

2、方法和步骤,重点分析了数据预处理的主要步骤及其实现技术,考虑客户访问路径和浏览时间长度等因素,给出并计算分析了网站用户的访问兴趣的方法。汽修之家网站日志的实际测试结果表明了该方法的有效性。关键词:W e b 日志挖掘:数据预处理;访问兴趣中图分类号:T P 3 9 1文献标识码:A文章编号:1 0 0 7 2 6 9 1(2 0 0 9)0 5 0 0 8 2 0 7A n a l y s i so fu s e r sb r o w s i n gi n t e r e s tb a s e do nw e bl o gL IZ h o n 9 1,Y U A NJ i n s h a l,

3、X UX i a o-e a i 2(1 S c h o o lo fE l e c t r i c a la n dE l e c t r o n i cE n g i n e e r i n g,N o r t hC h i n aE l e c t r i cP o w e rU n i v e r s i t y,B a o d i n g0 7 1 0 0 3,C h i n a;2 F a n c h a n gE l e c t r i cP o w e re o m p a n y,W u h u2 4 1 2 0 0,C h i n a)A b s t r a c t:D a

4、 t ap r e p r o c e s s i n gi st h ek e yt e c h n o l o g yo fW e bl o gm i n i n g a n dh o wt Om i n eu s e rb r o w s i n gi n t e r e s tp a t t e r n si sa ni m p o r t a n tr e s e a r c ht o p i c T h i sp a p e ro u t l i n e sb a s i cm e t h o d o l o g yo fW e bl o gm i n i n g,m l p h

5、a s i z i 咏t h et e c h n i q u ei np r e p r o c e s s i n go fw e bl o gm i n g a n du s e rb m w s i n gi n t e r e s tw a si n v e s t i g a t e di nw h i c hu s e rb r t)、j v s i n gp a t ha n dd u r a t i o no fp a g ea 0 _ o s 鹤a r et a k e ni n t oa c c o u n t R e a le x p e r i m 即tr e s u

6、 l t so nt h ew v c w x i u l 2 3 c o r nl o gf i l es h o wt h ee f f e c t i v e n e s so ft h i sm e t h o d K e yw o r d s:w e bl o gm i n i n g;d a t ap r e p r o c e s s i n g;b r o w s i n gi n t e r e s t0引言I n t e r n e t 的迅速发展,W e b 挖掘(W e bM i n i n g)因此成为一个热门研究领域 1,2 。W e b 挖掘是数据挖掘技术在W e

7、 b 环境下的应用,是集W e b 技术、数据挖掘技术、信息科学等多个领域的一项技术。W e b 挖掘的数据源可以分为以下3种类型 2,3 :(1)W e b 内容数据,如H T M L 标记的W e b文档;(2)w e b 结构数据,如W e b 文档内的超链接;(3)客户访问数据,如服务器l o g 日志信息。收稿E l 期:2 0 0 9 0 1 0 3相应地,W e b 挖掘也可分成3 类:W e b 内容挖掘(W e bC o n t e n tM i n i n g),W e b 结构挖掘(W e bS t r u c t u r eM i n i n g)和W e b 日志挖掘

8、(W e bl o gM i n i n g)。目前重点研究的是W e b 日志挖掘。本文论述了W e b 日志挖掘基本概念、步骤和主要任务,结合对汽修之家(h t t p:W 确r x i u l 2 3 c o r n)网站W e b 日志挖掘的过程,剖析了W e b 日志数据预处理过程和客户访问兴趣分析的步骤及其实现技术。最后,对本文的工作进行了总结。1W e b 日志挖掘W e b 日志挖掘是对客户访问W e b 时在服务器留下的访问记录进行挖掘,其主要的数据源有服务器的日志(包括服务器日志、引用日志和代 万方数据第5 期李中,等:基于W e b 日志挖掘的客户访问兴趣分析理日志)、w

9、 e b 站点拓扑结构和站点文件、客户注册数据、客户调查信息以及c o o k i e s 等。W e b日志挖掘的研究的围绕着分析W e b 站点性能、理解客户意图和改进w e b 站点设计3 个应用方面进行,常用的技术主要有关联规则分析、序列模式分析、分类与聚类分析、路径分析等 4,5 ,W e b日志挖掘过程一般过程如下所述 3,6,7 。(1)数据预处理。对原始w e b 日志文件中的数据进行提取、分解、合并,转化为适合进行数据挖掘的数据格式,保存到关系型数据库表或数据仓库中;(2)模式发现。用数据挖掘、统计、机器学习和模式识别等各个领域的方法和算法,针对w e b 数据的特性,从数据

10、预处理所形成的客户使用记录中发现隐藏的模式、规则。常用的实现算法有统计分析、关联规则、聚类、分类、序列模式等;(3)模式分析。针对实际应用,对挖掘出来的模式、规则进行分析,过滤掉没有意义的规则或模式,把客户感兴趣的规则或模式转化成知识,应用到具体领域中。汽修之家W e b 日志挖掘的目的是从w e b 服务器日志文件中提取客户访问信息,分析网站单一客户和群体客户的兴趣分布情况,为网站客户提供个性化服务和改进网站设计提供依据。本文主要从数据预处理和客户访问兴趣分析两个方面,对各个环节的任务、问题和实现技术展开分析。2 数据预处理数据预处理是w e b 日志挖掘中的关键技术之一。预处理的目标是将包

11、含在多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象。预处理的结果是客户会话集合,包含了访问w e b 的客户、请求的页面序列、访问时间等信息。它一般包括数据清理、客户识别、会话识别和路径补充4 个步骤吲6。2 1日志数据当访问者访问w e b 服务器时,服务器方将会产生3 种类型的日志文件:(1)服务器日志(W e bl o g),记录着客户访问该站点时每个页面的请求。常用的3 种公开标准的口志文件格式分别是:N C S A 的普通日志格式(C o m m o nL o gF o r m a t,C L F)、N C S A 的扩展型日志格式(E x t e n d e dL

12、o gF o r m a t,E C L F)和W 3 C 的扩展日志文件格式(E x t e n d e dL o gF i l eF o r m a t,E x L F)。C L F 出现最早,数据量也最少,是A p a c h e、N C S A、I I S 和N e t s e a p e 等采用的默认格式;(2)信息错误日志(E r r o rl o g),存取请求失败的数据,例如:丢失连接,授权失败,或超时;(3)曲奇日志(C o o k i el o g s),C o o k i e 是由W e b 服务器产生的用于自动标记和跟踪站点的访问者的记号,C o o k i e 由客户

13、端持有,服务器方可采用C o o k i e 方式跟踪单个客户。服务器E t 志详细记录了客户访问站点的信息。服务器及其参数设置的不同,记录的信息也有所不同,通常包括:客户的I P 地址、时间戳(客户访问日期和时间)、客户请求方法、被请求文件的U R L、超文本传输协议(H,n、P)的版本号、返回码(请求的状态,成功或错误码)、传输字节数、用户代理(客户使用的浏览器和操作系统的类型)、参考页的U R L(客户从该页发出当前文件的请求)等。服务器日志中每条记录被称作项或条目(e n t r y),每一项以时间戳递增排列。2 2 数据净化(D a t aC l e a n i n g)数据净化是指

14、删除w e b 日志中与挖掘任务不相关的数据,包括删除、合并某些记录,处理客户请求页面发生错误的记录等内容。通常W e b 日志中与数据挖掘相关的一般有用户I P 地址、用户I D、请求的U R L、访问时间及日期等信息,与挖掘无关的信息可忽略删除。删除S c s t a t u s 中显示出错的记录和客户请求方法中不是G】玎的记录,此外,要删除与客户访问行为无关的图片、音频等信息,其方法是检查U R L 的后缀,删除后缀为g i f,j P g,j p e g,G I F,J P G,J P E G 等的记录(注:当W e b 挖掘做网络流量分析或页面缓冲与预取提供支持时,需做其他处理),还

15、要删除不会对后面的分析处理造成影响的后缀名为c g i 和j S,J S 的脚本文件,但对于主要包含图形或音视频的站点,日志中的该类信息可能代表了客户的显式请求,不能做简单的删除处理【7 I。依据上述方法,针对挖掘任务,对汽修之家的W e b 日志进行数据净化后的日志记录如表1。万方数据8 4华北电力大学学报2 0 0 9 年q x 照2 2 0 1 8 1 2 0 0 8 6 31:0 8:3 2q x w X-j g i d 2 1 3 0 51 9 1 7 7w x n r p h pqxsq872172 0 0 8-6-31。:0 8:3 2 b k n r j P h Di d 51

16、 1 4 0 51 7 8 1 1 2h DS o g o u+w e b+s p i d e r 4 0(+h t t p:w w w s o g o u c o m d o c s 一h d p w e b m a s t e r s h t m*=0 7)M o z i l l a 4 0+(c o m p a t i b l e;+M S I E+6 0:+W i n d o w s+N T+5 1;+S V l;+N E T+C L R+1 1 4 3 2 2;+I n f o P a t h 1)s h 0“dM o z i l l a 4 0+(c o i n p a t i b

17、 l e;+h t t p:s h a u c e 1 2 1 1 3 w w w x i u l 2 3 o 眦2 0 0 8 6 31:0 8:3 3s h o u l 0 85 3 8 9M S l E+6 o;+W i 幽髑+N T+q x w x q x w x-r a gq x s c j s p h p?i d=5 6 8 6 15:+)2 3 用户识别(U s e rI d e n t i f i c a t i o n)可以访问一个服务器,也可以访问多个服务器日志中的客户I P 地址和C o o k i e 标识能够用等,这些情况导致用户识别比较困难9。来分辨客户,一般采用客

18、户I P 地址来标识不同考虑上述因素,本文采用日志和站点相结合的用户。C o o k i e 是站点根据用户浏览器写入其本的方法,使用以下一些启发式规则,简化用户的地的一个唯一标识,客户在再次向服务器请求页识别:面时,该标识被附加在请求中返回给服务器,故(1)如果客户的I P 地址不同,则认为是不此可用于客户身份识别,但难以处理不同用户使同的客户;用同一台计算机和用户删除C o o k i e 的情况8。由(2)如果I P 地址相同但浏览器版本或操作于涉及隐私,很多客户可能拒绝被写入C o o k i e,系统不同,则认为是不同的客户;机器内对C o o k i e 的容量限制等问题,使该方法

19、难(3)如果客户所请求的页面和以前访问的所以大规模、准确地使用。有页面不存在直接的超链接关系,则认为具有相对于客户I P,由于本地缓存、代理服务器和同I P 地址的客户是不同的客户。防火墙的存在,使得识别每一个用户变得很复杂:不同客户使用同一个代理服务器;同一个客户可能在不同的机器上访问W e b 服务器;同一客户可以用一个浏览器,也可以用多个浏览器;基于以上规则,对汽修之家W e b 日志中客户访问信息,完成用户标识,每个用户分配一个唯一用户I D 号码。表2 示意了客户识别的结果。表2 用户识别结果T a b 2R 嚣u l t so fu s 日i d e n t i f i c a t

20、 i o n2 4 会话识别(S e s s i o nI d e n t i f i c a t i o n)用户会话(S e s s i o n)是指客户对服务器的一次有效访问,是客户在一时间段内访问的一组连续的页面访问的序列。一次用户会话就是单个客户在W e b 上页面浏览的点击流(C l i c kS t r e a m)。通过用户的点击流,可以获得该用户在网站中的访问行为和访问兴趣。w e b1 3 志中存储大量的访问信息,时间跨度大,用户可能在此期间多次访问了该站点,会话识别就是将用户多次访问的页面划分成多次用户会话。会话的划分有多种算法,有的基于时间进行划分,有的则依据站点的拓扑

21、结构【1 0 J。基于时间的划分方法,是通过设置一个客户在站点的持续时间或页面的停留时间阂值(T i m e o u t)来识 万方数据第5 期李中,等:基于W e b 日志挖掘的客户访问兴趣分析别用户会话。如果相邻的两个页面的时间差超过给定的时间阈值,则认为两个页面分属两个不同的会话序列。对基于时间阀值的划分方法,有学者从不同的角度出发,提出了相应的改进优化措施 1 卜l3 J。本文采用会话持续时间不超过阀值t(3 0m i n)的划分方法。根据2 3 用户识别的结果,将净化后的W e b 日志的单个客户的访问记录按时间排序,形成客户访问页面序列,再依据时间阀值进行划分,将同一客户的会话序列

22、分成不同时间段的多个会话序列,每一会话通过会话编号进行标识。按时间顺序将所有的会话序列组织在一起,构成用户会话表(见表3),表中的U R L 访问的页面中的p 0,p 3 0 等表示了网站的各个页面,如首页标为p 0,汽修网校标为p 2。表3 用户会话表T 曲3U s e rs e s s i o r lt a b l e蓄苫m PI P 地址=藉访怒缈112233448 7 2 1 7 1 7 8 1 7 2p 0,p 3 0,2 0 2 1 6 0 1 7 9 1 3 8p 0,p 5 8,2 2 0 1 8 1 1 9 1 7 7p l,p 3 0,6 1 1 3 5 1 6 8 1 6

23、 1p 0,p 3 1 1,0 7 8,2 3,一2 7,0 3,3,2 5,2 1,6 5,2 5 路径补充(P a t hC o m p l e t i o n)由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些页面请求。路径补充就是补全访问日志中没有记录的客户请求,确保获得客户完整的访问路径。路径补充通常遵循以下原则:(1)如果当前访问的页面和以前访问的某个页面存在超链接关系,那么可以确定这个客户是通过B a c k 按钮从本地缓存中调出该页面的历史记录链接到当前的页面;(2)如果已访问的多个页面和当前页面存在超链接关系,那么认为客户通过多个页面中最近被访问的页面链接到当前的

24、页面。通过上述各步,日志预处理后得到的的用户会话表,该表包含了用户I D、用户I P 地址、用户请求的页面及请求发生的顺序以及每一页浏览的时间等信息。3 客户访问兴趣分析随着w e b 数量的增加,正确理解客户意图和兴趣,实现个性化、智能化的W e b 服务变得越来越重要。根据客户访问行为发现客户兴趣,寻找隐含的规律是目前的一个研究热点。有关学者针对这一问题,从不同的角度,运用不同的方法,进行了分析和研究 1 4-1 7 。用户访问W e b 站点,是对某种东西感兴趣、带有目的性。分析访问客户在页面上兴趣分布,对于理解和分析用户的特性,开展针对性的广告服务,改进W e b 站点结构设计等方面,

25、具有重要的意义。网站用户访问时,存在如下基本事实和特性:(1)客户沿着不同的路径访问w e b 站点;(2)每个w e b 页面隐含有一个或一些不同的关键字,这些关键字可以代表该页面的内容;(3)客户访问带有目的性,会访问感兴趣的页面,并且访问时间相对较长。访问事实反映了各个客户的访问特性,这些事实的叠加,就反映出群体客户的访问特性。基于上述论述,在分析文献 1 8 有关定义和方法的基础上,本文展开对单个客户和群体客户的访问兴趣的研究。3 1 基本定义为便于分析客户访问兴趣,首先给出有关概念的定义和解释1 1 8J。定义1:关键宇口:用于表征一个w e b 页面的内容,是对一个W e b 页面

26、内容的简要概括描述。一个页面可以含有一个或多个关键字。客户访问的内容就可通过他所访问的页面所具有的关键字集合来表征。定义2:w e b 站点关键字模型C G=(W,E,K):C G 为一个有向图,其中w 为w e b 页面的集合,E 为页面之间的超链接集合,K 为每个页面所放关键字集的集合。每个页面可放置不同的关键字,一个关键字可分布在不同的页面中。定义3:一个用户U 所访问的关键字事务趺:一个用户访问事务是由该用户所访问的页面构成,每个页面可以由一组关键字集表征,可得到简化的用户访问事务:t“=(1)每个u r i 都是由一些关键字口组成,每个u r i 的关键字集表征为集合k,则有:玻“=

27、k l,k 2,k。,(2)定义4:一个通过u r i 的用户访问关键字事 万方数据华北电力大学学报2 0 0 9 年务娩(u r i。):如果u r i,为用户访问事务中的第s个被访问页面,那么通过u r i。的用户访问关键字事务为趺“(u r i。)=,1 s m(3)定义5:一个通过u r i。的用户访问关键字支持度s u p p o r t“(u H;,盯):在一个通过u r i;的用户访问关键字事务珐“(u r i;)中,用户对某关键字盯的访问次数。定义6:一个通过u H。的用户访问关键字集K S“(u r i,):在一个通过u r i。用户访问事务娩“(u r i。)中,由某一个用

28、户所访问的关键字和访问该关键字的次数构成的集合组成(设整个站点内共有口1,盯2,a M 共M 个关键字):K S”(u r i,)=(口1,s u p p o r t”(u r i,盯1),(a M,s u p p o r t“(u r i;,a M)定义7:一个通过u r i,的用户访问关键字时长l e n g t h“(u r i,):设用户对一个页面“以f的访问时长为l e n g t h”(u r i f),如果该页面具有,个关键字d 1,盯2,o s,该客户在该页面对关键字的访问时间长度为l e n g t h”(u r i i,a;)=f l e n g t h“(“r i i,仃

29、i)ifl 厂一 乃1 8m 狮i(4)【O,i f 巩i sn o ti nu r i i在一个用户访问关键字事务趺“中,用户对一个关键字d i 访问的总时长s u i n“(u r i。,口j)为s u l n“(M 纸,乃)=著l e n g t h 噶,a t),i f 删汹i nr(5)、l=5、J,【0,i fu r i si si nt“定义8:一个用户访问兴趣集P(u r i,):在一个通过u r i,的用户访问关键字事务娩(u r i,)中,由该客户所访问的关键字,访问该关键字的次数,访问该关键字的总时长所构成的集合组成(设整个站点内共有仃1,口2,a M 共M 个关键字):

30、P(u r i,)=(盯1,s u p p o r t“(u r i,a 1),S U l T I“(u r i。,盯1),(a 2,s u p p o r t“(u r i s,a 2),S t l l l l“(u r i,a 2),(a M,s u p p o r t“(u r i,a M),s u m“(u r i s,a M)一个用户u r i。页面的兴趣集P(u r i,),可反映出该客户通过该页面对各个关键字的兴趣分布:p U(玛l“一。):哥坚垫坠业(6)S U l T I“(u r i s,a m)m=i如果对群体用户的通过页面的兴趣进行叠加,可以反映出群体用户通过该页面对所

31、有关键字的兴趣分布:?Ls u m“(u r i。,乃)p(a ju r i。)=可旺l-一(7)s u m”(u r i,a m)“=1m=l且满足如下约束:旦P(a ju r i,)=1J=1公式(6)与(7)所定义的兴趣分布,能够分别反映出个体与群体用户在该页面对某个关键字的兴趣对比大小。本文在汽修之家网站客户兴趣分析过程中,首先分析、构建汽修之家w e b 站点关键字模型。其关键字的依照网站的内容与结构,分成3 个大类(故障、品牌以及保养美容),每大类划分为多个的子类,所有关键字依据划分标准归人到各个子类中。然后基于上述定义,根据用户会话表,对网站客户的访问兴趣进行分析。3 2 单个客

32、户访问兴趣分析本文对I P 地址为6 0 2 8 1 6 4 8 4 的用户,根据该用户一周(从2 0 0 8 0 5 2 8 到2 0 0 8 0 6 0 3)的访问数据,分析其访问兴趣。分析过程:(1)根据预处理后的用户会话表,分析、抽取得到该客户在此一周内的访问的关键字事务t k“;(2)由用户访问关键字事务,计算用户访问关键字支持度s u p p o r t“(u r i。,盯);分析并得到用户访问关键字集K S“(u r i,);(3)计算用户访问关键字时长s u p p o r t“(M 纸,乃);(4)求得该用户访问兴趣集P(u r i:),依据公式(6),计算该用户的兴趣分布。

33、表4 是对用户访问数据中3 类关键字计算支持度统计后的排序结果;表5 是对网站中品牌子类关键字计算支持度统计后的排序结果;表6 显示了用户访问的所有关键字访问时长;表7 是用户的在该时段访问的兴趣分布情况。万方数据第5 期李中,等:基于w e b 日志挖掘的客户访问兴趣分析表43 类关键宇的支持度T a b 4S u p p o r td e g r e eo ft h r e ek e yw o r d s表5 汽车品牌的支持度T a b 5S u p p o r td e g r e eo ft h ea t r t o品牌别克丰田日产帕萨特奇瑞宝马支持度3 3 42 7 52 5 82

34、5 21 4 6 5 2表6 单个用户访问关键字时长T a b 6T i m el e n g t ho fk e yw o r d sb r o w s i n g浏芝篙芸产n关键字萋霎茎关瓮?长5 3(q x 跚b k n r 型凳萎i;:竺;p h pi d=1 4 9 0 6)嚣基蠢:曩q x w x-j g w x n r 传感器10 1 5 2综合分析上述各表,该用户基于关键字的访问兴趣集中于汽车的故障(发动机、气缸等),并且特别关注别克等中级轿车,可推理该用户是一名汽车维修人员。核查该用户的注册信息,显示该用户是汽修之家网站的汽修网校的学员,验证了该方法的有效性。3 3 群体用户

35、访问兴趣分析群体用户对某一页面的兴趣的叠加,能够反映群体用户对页面中各个关键字的兴趣分布。对一天的(2 0 0 8 0 6 0 2)的日志数据进行分析,选取其中所有访问网页q x s q b k n r p h pi d=1 4 6 3 6 的用户,分析群体用户访问兴趣。分析基本过程是,根据预处理得到的用户会话表,分析计算当天访问该网页的所有用户所访问的网页的关键字访问时长。根据公式(7),计算群体用户通过该页面对所有关键字的兴趣分布。统计分析表明共计2 3 名用户对该网页进行了访问,兴趣分布结果记录在表8 中。表8 群体用户访问关键字兴趣分布T a b 8B r o w s i n gi n

36、 t e r e s to ft h ek e yw o r d so fu s e l S用户14 8 11 2 2 85 4 61 6 8 96 4 3用户21 6 32 6 36 2 81 2 2 53 5 6ii;i用户2 33 6 55 2 64 1 81 3 5 43 3 5关键字时长4 5 6 48 5 4 71 2 5 2 36 7 5 67 8 4 1m i n群体用户访7 8 2 6 4问关键字总时长m i n关键字兴趣5 8 31 0 9 21 6 08 6 31 0 0 2筮布(2根据表8,说明群体用户分布对关键字制动兴趣相对较大,即访问该网页的用户对特别关注有关制动的

37、知识。根据这一结论,可以帮助理解用户的访问热点,调整网页内容,改进W e b 站点的结构,开展有针对性广告业务等。4结论W 曲日志挖掘,是对服务器上的w e b 日志文件进行研究,发现用户的访问行为、频度、内容、兴趣等信息,通过对用户的访问模式挖掘,改善网站的设计,进而实现为用户提供个性化服务。本文介绍了W e b 日志挖掘的基本过程,结合实例重点分析了数据预处理和用户访问兴趣的分析过程,该方法计算简便、宜于实现,有一定的推广价值。诚然,本文方法没有利用用户的注册信息,不适合有准确用户注册信息的数据挖掘应用,单一用户多I P 地址上网的识别等问题还有待进一步的研究。参考文献:1 E t z i

38、 o n iO T h ew o r l d、j l,i d ew e b:(沁a g m i r eo rg o l dm i n e J C o m m u n i c a t i o n so ft h eA C M,1 9 9 6,3 9(1 1):6 5 6 8 2 韩家炜,孟小峰W e b 挖掘研究 J 计算机研究与发展,2 0 0 1,3 8(4):4 0 5 4 1 4 3 郭岩,白硕,于满泉W e b 使用信息挖掘综述 J 计算机科学,2 0 0 5,3 2(1):1 7 4 周斌,吴泉源,高洪奎用户访问模式数据挖掘的模型与算法研究 J 计算机研究与发展,1 9 9 9,3

39、6(7):8 7 0 8 7 5 5 刘炜,陈俊杰一种W e b 使用模式挖掘模型的设计 万方数据华北电力大学学报2 0 0 9 年 J 计算机应用研究,2 0 0 7,2 4(3):1 8 4。1 8 6 6 R o b e r tC o o l e y,B a m s h a dM o b a s h e r,J a i d e e pS r i v a s t a v a D a t ap r e p a r a t i o nf o rm i n i n gw o r l d 诵d ew e bb r o w s i n gp a t t e r n s J K n o w l e d

40、 g ea n di n f o r m a t i o ns y s t m a s,1 9 9 9,1(1):5 3 2 7 J a i d e e pS r i v a s t a v a,R o b e r tC o o l e y z,M u k u n dD e s h p a n d e,e ta 1 W e bu s a g em i n i n g:d i s c o v e r ya n da p p l i c a-t i o n so fu s a g ep a t t e r n sf r o mw e bd a t a J A C MS I G K D DE x p

41、 l o r a t i o n s,2 0 0 0,1(2):1 2 2 3 8 赵伟,何丕廉,陈霞,等w e b 日志挖掘中的数据预处理技术研究 J 计算机应用,2 0 0 3,2 3(5):6 26 4 6 7 9 吴强,梁继民,杨万海W e b 日志挖掘预处理中的用户识别技术 J 计算机科学,2 0 0 2,2 9(4):6 4 6 6 1 0 M y r aS p i l i o p o n l o n,B a m s h a dM o b a s h e r,B e t t i n aB e r e n d t,e ta 1 Af r a m e w o r kf o rt h e

42、e v a l u a t i o no fs e s s i o nr e o o n s t r u c t i o nh e u r i s t i c s i nw e bu s a g ea n a l y s i s J I N F O R M SJ o u r n a lo nC o m p u t i n g,2 0 0 3,1 5(5):1 7 1 1 7 9 1 1 殷贤亮,张为W e b 使用挖掘中的一种改进的会话识别方法 J 华中科技大学学报(自然科学版),2 0 0 6,3 4(7):3 3 3 5 1 2 陈子军,王鑫昱,李伟一种W e b 日志会话识别的优化方法

43、J 计算机工程2 0 0 7,3 3(1):9 5 9 7 1 3 朱晋华,陈俊杰w e b 日志预处理中会话识别的优化 J 太原理工大学学报,2 0 0 8,3 9(2):1 1 1 1 1 4,1 2 2 1 4 周皓峰,朱扬勇,施伯乐一个基于兴趣度的关联规则采掘算法 J 计算机研究与发展,2 0 0 2,3 9(4):4 5 0 4 5 7 1 5 张文东,易轶虎基于兴趣相似性的W e b 用户聚类 J 山东大学学报(理学版),2 0 0 6,4 1(6):5 45 7 1 6 杨明花,古志民基于兴趣点的会话相似性测量研究 J 北京理工大学学报,2 0 0 6,2 6(4):3 3 0

44、3 3 1 1 7 邢东山,沈钧毅,宋擒豹从W e b 日志中挖掘用户浏览偏爱路径 J 。计算机学报,2 0 0 3,2 6(1 1):1 5 1 8 1 5 2 3 1 8 王实基于W e b 访问信息挖掘的推荐方法研究 D 北京:中国科学院计算技术研究所,2 0 0 1 作者简介:李中(1 9 7 0 一),男,讲师,主要研究方向为人工智能,电气设备故障诊断。数据挖掘。万方数据基于Web日志挖掘的客户访问兴趣分析基于Web日志挖掘的客户访问兴趣分析作者:李中,苑津莎,徐小彩作者单位:李中,苑津莎(华北电力大学电气与电子工程学院,河北,保定,071003),徐小彩(繁昌供电公司,安徽,芜湖,

45、241200)刊名:华北电力大学学报英文刊名:JOURNAL OF NORTH CHINA ELECTRIC POWER UNIVERSITY年,卷(期):2009,36(5)参考文献(18条)参考文献(18条)1.Etzioni O.The world wide web:Quagmire or gold mineJ.Communications of the ACM,1996,39(11):65-68.2.韩家炜,孟小峰.Web挖掘研究J.计算机研究与发展,2001,38(4):405-414.3.郭岩,白硕,于满泉.Web使用信息挖掘综述J.计算机科学,2005,32(1):1-7.4.周

46、斌,吴泉源,高洪奎.用户访问模式数据挖掘的模型与算法研究J.计算机研究与发展,1999,36(7):870-875.5.刘炜,陈俊杰.一种Web使用模式挖掘模型的设计J.计算机应用研究,2007,24(3):184-186.6.Robert Cooley,Bamshad Mobasher,Jaideep Srivastava.Data preparation for mining world wide webbrowsing patternsJ.Knowledge and information systems,1999,1(1):5-32.7.Jaideep Srivastava,Rober

47、t Cooleyz,Mukund Deshpande,et al.Web usage mining:discovery andapplications of usage patterns from web dataJ.ACM SIGKDD Explorations,2000,1(2):12-23.8.赵伟,何丕廉,陈霞,等.Web日志挖掘中的数据预处理技术研究J.计算机应用,2003,23(5):62-64,67.9.吴强,梁继民,杨万海.Web日志挖掘预处理中的用户识别技术J.计算机科学,2002,29(4):64-66.10.Myra Spiliopoulou,Bamshad Mobash

48、er,Bettina Berendt,et al.A framework for the evaluation ofsession reconstruction heuristicsin web usage analysisJ.INFORMS Journal on Computing,2003,15(5):171-179.11.殷贤亮,张为.Web使用挖掘中的一种改进的会话识别方法J.华中科技大学学报(自然科学版),2006,34(7):33-35.12.陈子军,王鑫昱,李伟.一种Web日志会话识别的优化方法J.计算机工程.2007,33(1):95-97.13.朱晋华,陈俊杰.Web日志预处

49、理中会话识别的优化J.太原理工大学学报,2008,39(2):111-114,122.14.周皓峰,朱扬勇,施伯乐.一个基于兴趣度的关联规则采掘算法J.计算机研究与发展,2002,39(4):450-457.15.张文东,易轶虎.基于兴趣相似性的Web用户聚类J.山东大学学报(理学版),2006,41(6):54-57.16.杨明花,古志民.基于兴趣点的会话相似性测量研究J.北京理工大学学报,2006,26(4):330-331.17.邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径J.计算机学报,2003,26(11):1518-1523.18.王实.基于Web访问信息挖掘的推荐方法研究D.北京:中国科学院计算技术研究所,2001.本文链接:http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁