数据挖掘原理与算法ppt课件.ppt

上传人:飞****2 文档编号:19302185 上传时间:2022-06-06 格式:PPT 页数:51 大小:399.50KB
返回 下载 相关 举报
数据挖掘原理与算法ppt课件.ppt_第1页
第1页 / 共51页
数据挖掘原理与算法ppt课件.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《数据挖掘原理与算法ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与算法ppt课件.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2022年6月6日星期一1第七章第七章 WebWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一2Web挖掘的价值n从大量的信息中发现用户感兴趣的信息从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着:因特网上蕴藏着大量的信息,通过简单的大量的信息,通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息” ,Web挖掘可以发现潜在的、丰富的关联信息。n将将WebWeb上的丰富信息转变成有用的知识:上的丰富信息转变成有用的

2、知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。n对用户进行信息个性化:对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务。 2022年6月6日星期一3第七章第七章 WebWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb

3、内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一4Web挖掘的类型nWeb挖掘依靠它所挖掘的信息来源可以分为:nWeb内容挖掘(Web Content Mining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。 nWeb访问信息挖掘(Web Usage Mining):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。nWeb结构挖掘(Web Structure Mining):Web结构挖掘是

4、对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。2022年6月6日星期一5第七章第七章 WebWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一6Web挖掘的含义nWeB挖掘是一个看宽泛的概念,可以简单地描述为:n针对包括Web页面内容、页面之间的结构、

5、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。 2022年6月6日星期一7Web挖掘与信息检索n两种截然不同的观点:nWebWeb上的信息检索是上的信息检索是WebWeb挖掘的一个方面挖掘的一个方面:Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题,是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。nWebWeb挖掘是智能化的信息检索挖掘是智能化的信息检索:对于IR领域的研究人员来说, Web挖掘是IR研究向着智能化的方向发展的结果。n信息检索可能经

6、常被说成是Web挖掘的初级阶段,是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。 2022年6月6日星期一8WebWeb挖掘与信息抽取挖掘与信息抽取nWeb上的IE的研究目的是希望从众多的Web文挡中抽取可供分析的信息,与Web挖掘的关系也有不同的观点:nIEIE是是WebWeb挖掘整个过程的一部分:挖掘整个过程的一部分:这是因为Web上的数据一般是半结构化或无结构的,因此需要进行规格化的信息抽取这样的预处理。nWebWeb挖掘是挖掘是IEIE的一个特殊技术:的一个特殊技术:既然IE是希望把Web蕴藏的信息抽取出来,那么W

7、eb挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。n信息抽取经常被说成是Web挖掘的一个预处理阶段,那是因为在数据挖掘领域,Web挖掘的更广义的理解应该是一个知识提取的完整过程。 2022年6月6日星期一9第七章第七章 WebWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一10Web挖掘的主要数据源nWeb挖掘的数据来源是宽泛的:凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。n由于这些对象的数据形式及含义的差异

8、,其挖掘技术会不同。一些比较有代表性的数据源有:n服务器日志数据:Web访问信息挖掘的主要数据源。2022年6月6日星期一11服务器日志数据n对Web服务器的访问,服务器方将会产生3种类型的日志文件:nServer logs:记录用户的访问时间、IP地址以及请求等信息。nError logs:存取请求失败的数据,例如丢失连接、授权失败或超时等 nookie logs:Cookie是由web服务器产生的记号并由客户端持有,用于识别用户和用户的会话。 FieldDescriptionDateDate, time, and timezone of requestClient IPRemote hos

9、t IP and / or DNS entryUser nameRemote log name of the userBytesBytes transferred (sent and received)ServerServer name, IP address and portRequestURI query and stemStatushttp status code returned to the clientService name Requested service nameTime takenTime taken for transaction to completeProtocol

10、 versionVersion of used transfer protocolUser agentService providerCookieCookie IDReferrerPrevious pageServer logs的一个格式示意2022年6月6日星期一12在线市场数据在线市场数据n在线市场数据是指和市场活动相关的信息。例如一个电子商务站点,存储相关的电子商务信息。n从内容上说,不同目的商务网站有不同的商务信息。但是,这类数据通常是用传统的关系数据库结构来存储数据。n在线市场数据是业务数据,是进行业务相关分析的主体。用户的挖掘目标只有结合在线市场数据分析才能达到目的。2022年6月

11、6日星期一13WebWeb页面页面nWeb页面是网站信息的主体,但是它们的主要信息不可能像关系型数据库那样规整,因此Web页面的内容组织形式的分析是研究Web挖掘的具体方法的基础。n目前的Web页面大多满足HTML标准,现有的Web挖掘方法大多是针对Web页面开展的。n1 9 9 8 年 W W W 社 团 提 出 了 X M L 语 言 标 准(eXtensible Markup Language)。该标准通过把一些描述页面内容的标记(tag)添加到HTML页面中,用于对HTML页面内容进行自描述。基于XML规范的挖掘研究也是一个重要的研究分支。2022年6月6日星期一14第七章第七章 We

12、bWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一15Web内容挖掘的主要方法n一种Web内容挖掘的分类方法是分为代理人方法和数据库方法。n代理人方法代理人方法使用软件系统(代理)来完成内容挖掘。例如,n智能检索代理超越了简单的检索机制使用通过关键智能检索代理超越了简单的检索机制使用通过关键词之外的技术来完成检索,可以利用用户模版或其词之外的技术来完成检索,可以利用用户模版或其关心的知识领域等来实现信息的抽取。关心的知识领域等来实现

13、信息的抽取。n信息过滤利用信息检索技术、连接结构的知识和其信息过滤利用信息检索技术、连接结构的知识和其他方法来分析和分类文档。他方法来分析和分类文档。n个性化个性化WebWeb代理使用有关用户的喜好的信息来指导它代理使用有关用户的喜好的信息来指导它们的检索。们的检索。n数据库方法数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统,可以通过多种查询语言来获得Web的信息来完成信息的抽取。2022年6月6日星期一16文本挖掘是Web内容挖掘的基础n文本挖掘(TD)的方式和目标是多种多样的,基本层次有:n关键词检索:最简单的方式,它和传统的搜索技术类似。n挖掘

14、项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。n信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。n自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。 n Clusteringion Classification Term association Keyword Natural language processing图7-1文本挖掘体系示意2022年6月6日星期一17搜索引擎与Web内容挖掘n传统的搜索引擎(Searching Engine)效率低下。由于是基于Web中超文本结构分解的:它从一个网页开始的,通

15、过查阅和记录这个网页的所有连接并把它们排列起来,然后再从找到的新页面继续开始重复工作。n利用数据挖掘技术来改进搜索引擎是有价值的。这种价值体现在许多方面。例如,n通过对搜索结果进行关联分析或聚类等,对结果进行清洗和浓缩。n面向主题进行搜索,即只检索与某一主题有关的页面。n聚焦用户感兴趣的页面,在有限的资源下使有效内容挖掘力度提高。n基于搜索引擎的挖掘工作有下面一些重要方面:n利用超文本链接结构进行页面内容分类,使搜索引擎检索的页面符合用户的兴趣。n有些页面包含很多链接,而这些链接的页面是用户感兴趣的,因此它们需要被检索。n采用合理而高效的方法对被选择的页面进行内容分析和挖掘。2022年6月6日

16、星期一18虚拟的虚拟的WebWeb视图视图n一个有效的解决在Web中大量无结构数据的方法是在这些数据之上建立一个MLDB(Multiple Layered Database)。这个数据库是多层次的, 每层索引都比它下一层要小。对于最底层来说,需要了解Web文档结构,而最高层则有着完善的结构并可以通过类似SQL的查询语言进行访问或挖掘。nMLDB提供一个被称为VMV(Virtual Web View)的视图机制,Web中的感兴趣的结构被浓缩在这个视图中。n等级概念(近意词组、词汇和语义联系等)将帮助归纳过程来架构更高层的MLDB。 2022年6月6日星期一19个性化与个性化与WebWeb内容挖掘

17、内容挖掘n通过个性化,网页的内容和组织将更加适合用户的需要。个性化服务是Web挖掘技术的重要目标之一。n通过个性化,基于用户所关心内容的广告会被发送到潜在的用户。当一个特别的用户访问一个站点时,会有一个特别为它定制的广告出现,这对那些可能购买的用户来说是一个极大的诱惑。nWeb内容挖掘的目的之一是基于页面内容相似度进行用户分类或聚类的,个性化的建立是通过用户过去的检索内容分析而建立起来的。自动的个性化技术可以通过过去的需要和相似用户的需要来预知特定用户将来的需要。2022年6月6日星期一20WebWeb页面内文本信息挖掘页面内文本信息挖掘n挖掘的目标是对页面进行摘要和分类。n页面摘要:对每一个

18、页面应用传统的文本摘要方法可以得到相应的摘要信息。n页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。n在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:n每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。n每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值

19、为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。n对中文页面来说,还需先分词然后再进行以上两步处理。n这样构造的二维表表示的是这样构造的二维表表示的是WebWeb页面集合的词的统计信息,最终就可页面集合的词的统计信息,最终就可以采用以采用Naive BayesianNaive Bayesian方法或方法或k-Nearest Neighbork-Nearest Neighbor等方法进行分类挖等方法进行分类挖掘。掘。n在挖掘之前,一般要先进行特征子集的选取,以降低维数。在挖掘之前,一般要先进行特征子集的选取,以降低维数。2022年6

20、月6日星期一21WebWeb页面内多媒体信息挖掘页面内多媒体信息挖掘n多媒体挖掘是一个大研究分支,总的挖掘过程是先要应用多媒体信息特征提取工具,形成特征2维表,然后就可以采用传统的数据挖掘方法进行挖掘。n在特征提取阶段,利用多媒体信息提取工具进行特征提取。一般地,信息提取工具能够抽取出image和video的文件名、URL、父URL、类型、键值表、颜色向量等。对这些特征可以进行如下挖掘操作:n关联规则发现:例如,如果图像是“大”的而且与关键词“天空”有关,那么它是蓝色的概率为68%。n分类:根据提供的某种类标,针对特征集,利用决策树可以进行分类。2022年6月6日星期一22第七章第七章 Web

21、Web挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一23Web访问信息挖掘的特点nWebWeb访问数据容量大、分布广、内涵丰富和形态多样访问数据容量大、分布广、内涵丰富和形态多样n一个中等大小的网站每天可以记载几兆的用户访问信息。n广泛分布于世界各处。n访问信息形态多样。n访问信息具有丰富的内涵。nWebWeb访问数据包含决策可用的信息访问数据包含决策可用的信息n每个用户的访问特点可以被用来识别该用户和网站访问的特性。n同一类用户的访问

22、,代表同一类用户的个性。n一段时期的访问数据代表了群体用户的行为和群体用户的共性。nWeb访问信息数据是网站的设计者和访问者进行沟通的桥梁。nWeb访问信息数据是开展数据挖掘研究的良好的对象。nWebWeb访问信息挖掘对象的特点访问信息挖掘对象的特点n访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。n访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。n每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。n用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。 2022年6月6日星期一24Web访问信息挖掘的意义n通过分析日志文件,可

23、以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的结构,最终为用户提供一个方便快捷信息获取环境。有三方面的应用具有代表性:nWeb服务方主要根据自己的领域知识设计Web页面的结构,而群体用户根据各自的访问兴趣访问这些页面,那么服务方的结构设计是否合理?怎样的设计以便利于群体用户的访问,更加吸引访问者?这些问题的解决是Web访问信息挖掘的主要目的。n群体用户的访问存在哪些特点?如果掌握了这些特点,那么就可以利用其开展进一步的商务活动。n对于每一个新的Web站点的访问者,都会在曾经访问的群体用户中找到一些最相似的相同的访问者,那么那些访问者的访问就可

24、以给这个新的访问者提供推荐,以便利于该访问者的进一步访问。 2022年6月6日星期一25典型的商业价值n面向群体访问者,能够:面向群体访问者,能够:n提供高效访问:减少有用信息的检索时间,提高在大负载下的服务性能。n吸引访问者。n保持访问者:如果网站具有更好的结构设计,就能留住用户。n避免访问者离开:找到离开原因,改进网站的结构设计。n地区/行业/阶层的分析:根据交易者留下的信息,可以知道访问者所在的地区、所属的行业或阶层。n防止访问者迷航:访问者不能找到相应的访问目标,或者面对复杂的页面结构不知所措,那么遇到了迷航的问题。改进页面的结构设计是必要的。n群体推荐:针对群体用户的访问偏好,推荐他

25、们感兴趣的东西。n针对性服务:如在合适路径上,就可以放置相应内容的广告。n面向群体每一个访问者,能够:面向群体每一个访问者,能够:n个性化推荐。n用户建模:根据已有群体用户的访问,推断当前用户的特征。n个性化推销(Direct Marketing):识别出对某种产品或服务的可能购买者,对其推荐相应的产品或服务。2022年6月6日星期一26Web访问信息挖掘的数据源n由于Web世界的分布性,用户访问行为被广泛地分布记录在Web服务器、用户客户端,和代理服务器中。在各个分布地点的不同的用户访问信息表征了不同类型的用户访问行为。挖掘工作必须针对数据的特点来决定相应的挖掘任务。用户访问信息的分布简单归

26、结为:n服务器方:一般地,在一个Web服务器上,服务器日志记录了多个用户对单个站点的用户访问行为。n客户方:一般地,在客户端计算机上,客户端的代理记录了单个用户对单个站点或单个用户对多个站点的用户访问行为。客户端的Cache记录了用户访问内容。客户端的BookMark也记录了单个用户对单个站点的访问偏好。n客户端代理服务器:代理服务器记录了多个用户对多个站点的访问行为,同时代理服务器内部的Cache记录了多个用户对多个站点的访问内容。2022年6月6日星期一27服务器方访问信息n一个Web服务器日志(Server log)反映出多个用户对单个站点的访问行为。n一个从实际Web服务器上采集的Lo

27、g文件片段: IP AddressUser IDTimeMethod/URI/ProtocolStautsSize159.226.219.52- -10/Dec/1998:12:34:16 -0600GET /images/lchzhi.gif HTTP/1.120044851159.226.219.52- -10/Dec/1998:12:34:32 -0600GET /graduate.htm HTTP/1.12007403159.226.219.52- -10/Dec/1998:12:34:32 -0600GET /images/sxwys2.jpg HTTP/1.120018481203

28、.141.89.99- -10/Dec/1998:12:34:48 -0600GET /result.htm HTTP/1.020012302159.226.219.52- -10/Dec/1998:12:34:58 0600GET /structure.htm HTTP/1.1200367159.226.219.52- -10/Dec/1998:12:34:58 0600GET /struc-index.htm HTTP/1.1 2004370159.226.219.52- -10/Dec/1998:12:34:58 0600GET /struc-content.htm HTTP/1.120

29、012047159.226.219.52- -10/Dec/1998:12:34:58 0600GET /images/znkfsys.jpg HTTP/1.1200225742022年6月6日星期一28代理服务器端访问信息n代理服务器端的访问信息包括用户访问日志和在Cache中被访问的页面信息。n一个代理服务器日志的例子(基于WindowsNT4.0的代理服务器): 200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -

30、, , 159.226.39.2, 80, 200, 582, 1376, http, tcp, GET, http:/ -, Inet, 304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , 159.226.39.2, 80, 270, 2101, 1254, http, tcp, GET, http:/ -, VCache, 304, 0200.121.2.88, HEADSWANG Mozilla

31、/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, NTPROXY, -, , 159.226.39.2, 80, 171, 449, 1110, http, tcp, GET, http:/ -, Inet, 304, 0200.121.2.88, HEADSWANG, Mozilla/4.0 (compatible; MSIE 4.0; Windows 95), Y, 99-3-28, 15:57:44, W3Proxy, N T P R O X Y , - , w w w . i c t . a

32、c . c n , 1 5 9 . 2 2 6 . 3 9 . 2 , 8 0 , 2 1 1 , 4 5 5 , 8 2 6 , h t t p , t c p , G E T , http:/ -, Inet, 304, 02022年6月6日星期一29Web访问信息挖掘的预处理nWeb访问信息挖掘的基础和最烦琐的工作是数据的预处理。预处理用户访问信息是整个数据准备的核心工作,也是开展下一阶段Web访问信息挖掘的基础。预处理阶段主要的工作是识别用户访问事务和访问片断。nWeb Usage Mining在预处理阶段主要的工作有:n数据清洗:数据清洗:由于数据表示、写入的对象差异以及用户的兴趣和

33、挖掘算法对数据要求的不同,对于Web日志中的数据需要确定合理的数据清洗策略 。n识别用户访问事务:识别用户访问事务:在对Web日志数据进行数据挖掘之前,需要把对Web页的访问序列组织成逻辑单元以表征事务或用户会话。2022年6月6日星期一30数据清洗n合并数据:在给定挖掘时间段后,数据清洗需要合并Web服务器上的多个日志文件,并且解析每个文件,将其转化到数据库或特定格式的数据文件中。n剔除不相关的数据:在Web日志中一些存取记录可能对挖掘来说是不必要的,例如图形文件,压缩文件等的存取可能对面向文本挖掘的用户不需要考虑,所以应该被剔除。通过检查后缀gif、jpeg、zip、ps等就可以实现。n代

34、理访问的处理:由于搜索引擎或其他一些自动代理的存在,日志中存在大量的由它们发出的请求。因此从日志中识别代理(Agent)或网络爬虫(Crawler or Spider)对站点的访问是必须的。n正规化URI(Uniform Resource Identifier) :由于各种默认情况的存在,需要进一步正规化URI。n数据项解析:CGI数据项必须被解析在不同的域中,并被解析为对的形式。2022年6月6日星期一31识别用户访问事务n在Web日志中,用户的访问事务并不是一个显然的结果,需要专门的算法来进行识别和生成。找到相应的事务集,才能对这个事务集进行关联规则和序列模式发现等挖掘工作。n n 时间窗

35、C大小的界定是一个经验值(有人建议30分钟较为合适)。定义定义7-1 设L为用户访问日志,其中的一个项lL包括用户的IP地址l.ip,用户的标识符l.uid,被存取页的URI地址l.url,长度为l.length以及存取访问的时间l.time,存取访问的时长l.timelength,访问事务被定义为:这里C是一个固定的时间窗。timeltimeltimelengthlCtimeltimeluiduidlipiplLlmkforwherelengthltimelengthltimelurll.uidl.ipl.lengthlh.timelengtl.timel.urll.uidl.ipluidi

36、pttktktktktkttkttktktmtmtmtmtmtmtttttttt.,. ,. ,. , , 1 , ).,.,.,.,( ,., ),( ,1111111112022年6月6日星期一32其他信息的预处理技术其他信息的预处理技术1 1导航内容片断导航内容片断 在一些电子商务网站中,需要知道用户到达一个内容页之前是经历哪些导航页的。例如,一个用户访问事务为:N1,N2,N3,C1, N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4,其中N为导航页,C为内容页。识别导航内容片断就是要从用户访问事务中识别出:n片断1:N1,N2,N3,C1。n片断2:N4,

37、N5,N6,C2。n片断3:N7,N8,C3。n片断4:N9,N10,N11,N12,C4。2 2最大前向访问序列最大前向访问序列 所谓用户最大前向访问序列是指在用户访问回退之前一直被访问的页面序列。每个最大前向访问序列就构成一个访问片段。定义该片断的优点是有利于发现用户感兴趣的事务。显然在用户访问事务中寻找最大前向序列必须要依据Web站点的拓扑结构。 2022年6月6日星期一33在在WebWeb访问挖掘中的常用技术访问挖掘中的常用技术1 1路径分析路径分析n路径分析最常用的应用是用于判定在一个路径分析最常用的应用是用于判定在一个WebWeb站点中最频站点中最频繁访问的路径,这样的知识对于一个

38、电子商务网站或者信繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。息安全评估是非常重要的。2 2关联规则发现关联规则发现n使用关联规则发现方法可以从使用关联规则发现方法可以从WebWeb访问事务集中,找到一访问事务集中,找到一般性的关联知识。般性的关联知识。 3 3序列模式发现序列模式发现n在时间戳有序的事务集中,序列模式的发现就是指找到那在时间戳有序的事务集中,序列模式的发现就是指找到那些如些如“一些项跟随另一个项一些项跟随另一个项”这样的内部事务模式。这样的内部事务模式。 4 4分类分类n发现分类规则可以给出识别一个特殊群体的公共属性的描发现分类规则可以给出识别一

39、个特殊群体的公共属性的描述。这种描述可以用于分类新的项。述。这种描述可以用于分类新的项。 5 5聚类聚类n可以从可以从Web UsageWeb Usage数据中聚集出具有相似特性的那些客户。数据中聚集出具有相似特性的那些客户。在在WebWeb事务日志中,聚类顾客信息或数据项,就能够便于事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。开发和执行未来的市场战略。 2022年6月6日星期一34WebWeb访问信息挖掘的要素构成访问信息挖掘的要素构成1 1数据来源数据来源n数据的来源分为服务器,代理服务器,和客户端。2 2数据类型数据类型n数据的类型主要分为结构,内容,访问信息,

40、用户概貌文件。3 3用户的数量用户的数量n用户的数量表现为:或者数据集只由一个用户的信息构成,或者数据由多个用户的信息构成。4 4站点的数量站点的数量n在数据集中的Web站点的个数表现为:或者在数据集中只记录单个站点的信息,或者记录多个站点的信息。5 5服务对象服务对象nWeb访问信息挖掘的结果由Web服务方进行应用。应用的结果即服务对象可以是当个单个用户,或群体用户。单个用户即意味着个性化。6 6挖掘手段挖掘手段nWeb访问信息挖掘所采用的各种数据挖掘方法,例如关联规则发现,聚类,分类,统计等等。2022年6月6日星期一35利用利用WebWeb访问信息挖掘实现用户建模访问信息挖掘实现用户建模

41、n由于Web网站的特性,对网站的经营者和设计者而言,无法直接了解用户的特性。然而对访问者个人特性和群体用户特性的了解对Web网站的服务方而言显得尤为重要。幸运的是可以通过数据挖掘的方法得到用户的特性。n“用户建模”(Modelling Users)是指根据访问者对一个Web站点上Web页面的的访问情况,可以模型化用户的自身特性。在识别出用户的特性后就可以开展针对性的服务。用户建模主要有三种途径。 n推断匿名访问者的人口统计特性 n在不打扰用户的情况下,得到用户概貌文件 n根据用户的访问模式来聚类用户根据用户的访问模式来聚类用户2022年6月6日星期一36利用利用WebWeb访问信息挖掘发现导航

42、模式访问信息挖掘发现导航模式n发现导航模式(发现导航模式(Discovering Navigation PatternsDiscovering Navigation Patterns)是是WebWeb访问信息挖掘的一个重要的研究领域。用访问信息挖掘的一个重要的研究领域。用户的导航模式是指群体用户对户的导航模式是指群体用户对WebWeb站点内的页面站点内的页面的浏览顺序模式。的浏览顺序模式。n用户导航模式的主要应用在改进站点设计和个性用户导航模式的主要应用在改进站点设计和个性化推销等方面。化推销等方面。n1 1改进改进WebWeb站点的结构设计站点的结构设计n2 2个性化行销(个性化行销(Dir

43、ect MarketingDirect Marketing):):n3 3利用关联规则发现算法发现导航模式利用关联规则发现算法发现导航模式n4 4利用模板发现导航模式利用模板发现导航模式n5 5利用超文本概率文法发现导航模式利用超文本概率文法发现导航模式2022年6月6日星期一37利用利用WebWeb访问信息挖掘改进访问效率访问信息挖掘改进访问效率1 1WebWeb服务器推送技术服务器推送技术2 2自适应网站自适应网站3 3应用导航模式的结果改进应用导航模式的结果改进WebWeb站点的访问效率站点的访问效率4 4改进改进WebWeb服务器的性能服务器的性能表表7-107-10改进改进WebWe

44、b站点访问效率方法的比较站点访问效率方法的比较方法特点优点缺点Web服务器推送技术Bin Lan相关的文档会被服务器提前推送到Proxy上。存在冗余推送问题。自适应网站Perkowitz M.通过增加索引页来帮助用户进行访问,以改进访问效率。这些索引页难于被用户理解。应用导航模式的结果改进改进Web站点的访问效率Myra Spiliopoulou 基于规则的动态Web站点。规则需要人工判定。改进Web服务器的性能Cohen E. AlmeidaSchechter通过对页面的特性的挖掘,改进服务器的效率。改进集中于页面这一级,不涉及更高级的逻辑结构改进。2022年6月6日星期一38利用利用Web

45、Web访问信息挖掘进行个性化服务访问信息挖掘进行个性化服务在Web站点开展个性化(Personalization)服务的总的思路和步骤是:n模型化页面和用户;n分类页面和用户;n在页面和对象之间进行匹配;n判断当前访问的类别以进行推荐。而且,个性化系统一般分为两个部分:离线部分和在线部分。表7-11个性化方法的比较方法特点缺点离线聚类和动态链接结合可以实时个性化地为用户提供推荐。 随着用户访问长度的增加,可供推荐的元素会趋于零。基于关键词学习引入时间特性为用户提供推荐。需要用户人工干预,无法做到自动。识别感兴趣的链接建立代理服务器识别用户的访问兴趣提供推荐。用户兴趣的实效性考虑不够。自动定制不

46、同用户访问界面利用用户建模技术自动定制不同的用户访问界面。“推论”依赖于用户所在的领域,适应性不好。利用客户端代理进行个性化客户端的代理,完全为个人服务。冗余搜索过大。聚类推荐可以实时个性化地为用户提供推荐。 聚类的个数是人为事先给定的,不能随着每个用户的访问特性而动态调整。2022年6月6日星期一39利用利用WebWeb访问信息挖掘进行商业智能发现访问信息挖掘进行商业智能发现表7-12商业智能方法的比较方法特点Buchner其贡献在于首次在Web访问信息挖掘的基础上提出了商业智能的发现的框架;其不足在于发现的知识局限于用户确实发生的购买行为,而对用户潜在的购买兴趣无法发现。Yun C.优点是

47、挖掘了迁移和购买行为之间的内在关系。缺点是发现的知识局限于用户确实发生的购买行为,对用户潜在购买兴趣无法发现。SurfAid,Accrue,NetGenesis,Aria,Hitlist,WebTrends优点是通过分析页面的点击率来为推断商业智能提供Web流量分析。缺点是无法发现高级的商业职能。2022年6月6日星期一40利用Web访问信息挖掘进行用户移动模式发现 n在移动计算环境中,一个新的挖掘方法,即用户的移动模式挖掘被提出。挖掘的结果可以用于开发数据的分配模式以改变移动系统的总的性能。首先,对移动环境中的一些日志数据进行挖掘,可以得到频繁用户移动模式。然后,根据挖掘结果和数据的特性设定

48、个人数据分配模式。n根据不同层次的挖掘结果,有两种个人数据分配模式:n利用集合层次的用户移动模式(DS模式);n利用路径层次的用户移动模式(DP模式)。AGDHCB12345678910Partition1Partition2图7-2在一个移动计算系统中移动模式的例子2022年6月6日星期一41利用Web访问信息挖掘进行用户移动模式发现 利用Web访问信息挖掘进行用户移动模式发现可以分为如下三个主要步骤:n数据收集阶段:从各个服务器的日志集合中判断最大的移动序列和移动对的出现次数。n挖掘阶段:从第一步的结果集中的每w个最大移动序列中判断大项移动序列。考虑到新近的移动模式,设立w为一个回顾因子,

49、一个可调整的窗口。n产生模式阶段:根据第二步的得到的大项移动序列,判断用户的移动模式。2022年6月6日星期一42利用协作推荐的方法实现实时个性化推荐 基于协作筛方法的Web站点实时个性化系统的结构如图7-3所示。图7-3基于协作筛方法的Web站点实时个性化系统n整个处理过程分为两部分:n离线部分:包括数据准备、得到推荐池、建立协作筛。n在线部分:推荐引擎。Web站点用户访问日志数据准备协作筛推荐引擎(s11,t11),(s12,t12),.,(s1k,t1k).用户交互Web服务器当前用户带有时长的访问页面集.推荐页面集(s21,t21),(s22,t22),.,(s2k,t2k)(sf1,

50、tf1),(sf2,tf2),.,(sfk,tfk)(s11,t11),.,(s1k,t1k),.,(s1m,t1m)(s21,t21),.,(s2k,t2k),.,(s2m,t2m)(sf1,tf1),.,(sfk,tfk),.,(sfm,tfm)2022年6月6日星期一43第七章第七章 WebWeb挖掘技术挖掘技术 内容提要内容提要nWeb挖掘的意义nWeb挖掘的分类nWeb挖掘的含义nWeb挖掘的数据来源 nWeb内容挖掘方法 nWeb访问信息挖掘方法 nWeb结构挖掘方法 2022年6月6日星期一44页面重要性的评价方法页面重要性的评价方法n在设计搜索引擎等服务时,对Web页面的链接结

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁