数据挖掘在Web中的应用案例分析(4页).doc

上传人:1595****071 文档编号:37183922 上传时间:2022-08-30 格式:DOC 页数:4 大小:151.50KB
返回 下载 相关 举报
数据挖掘在Web中的应用案例分析(4页).doc_第1页
第1页 / 共4页
数据挖掘在Web中的应用案例分析(4页).doc_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《数据挖掘在Web中的应用案例分析(4页).doc》由会员分享,可在线阅读,更多相关《数据挖掘在Web中的应用案例分析(4页).doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-数据挖掘在Web中的应用案例分析-第 4 页数据挖掘在Web中的应用在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?挑战的背后机会仍存,所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“

2、无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。问题:1. 根据你所学的知识,思考从网站中所获取的大量数据中,我们能做哪些有意义的数据分析? 基于WEB 使用的挖掘,也称为WEB 日志挖掘(Web Log Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们

3、前面所举的例子正属于这一种类型。 基于WEB 内容的挖掘:非结构化 半结构化文本文档 超文本文档Bag of words n-grams 词短语 概念或实体 关系型数据TFIDF 和变体机器学习统计学(包括自然语言处理)归类 聚类发掘 抽取规则 发掘文本模式 建立模式. 基于WEB 结构的挖掘:半结构化 数据库形式的网站 链接结构超文本 文档链接边界标志图 OEM 关系型数据 图形Proprietary 算法 ILP (修改后)的关联规则发掘高频的子结构 发掘网站体系结构 归类 聚类. 基于WEB 使用的挖掘:交互形式服务器日志记录 浏览器日志记录关系型表 图形Proprietary 算法 机

4、器学习 统计学 (修改后的)关联规则站点建设 改进与管理 销建立用户模式.2. 根据你所学的数据挖掘知识,谈谈哪些数据挖掘技术可以应用于Web中,以这些数据挖掘技术可以完成哪些功能?Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在:(1) 对网站的修改能有目的有依据稳步的提高用户满意度发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修

5、改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。(2) 测定投资回报率 测定广告和促销计划的成功度 找到最有价值的ISP 和搜索引擎 测定合作和结盟网站对自身的价值(3) 提供个性化网站 对大多数WEB 应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是WEB 站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式)向用户动态的提供要浏览的建议自动提供个性化的网站。3. 通过对问题(1)和(2)的回答,你认为用户和网站经营者分别可以得到什么好处?Web数据挖掘在电子商务方面的应用 W

6、eb挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web的客户访问信息进行挖掘。对客户进行分类分析。应用聚类分析对客户进行分组,并且分析组中客户的共同特征,这样就可以让商家更好了解自己的客户,向客户提供更有针对性的服务。其次是找到潜在的客户。在对Web的客户访问信息的挖掘中,利用分类技术可在因特网上找到未来的潜在客户。最后保留客户的驻留时间。对于客户而言,在网上每个销售商对于客户来说都是样的,如何尽量使客户在自己的网上驻留

7、更长的时间,这样对于商家才能有更多客户和更大的利润空间。 Web数据挖掘在网络教育中的应用 教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差异性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供。是通过将传统的数据挖掘M Web结合起来。进行Web数据挖掘,即从Web文档和Web活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构。提高站点效率,更好地为网络教育服务。 在网站设计中的应用 在网站设计方面中的

8、应用,主要是通过对网站内容的挖掘。特别是对文本内容的挖掘,可以有效地组织网站信息。如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息。从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。附: Web数据挖掘中常用的技术:数据挖掘领域常用的分类聚类技术、关联规则技术 序列模式技术和Web特有的路径分析技术等。 分类聚类技术 数据分类技术可以通过挖掘数据中的某些共同特性从而对数据项进行分类。在Web数据挖掘中,分类技术可以根据捕获的Web访问用户的个人信息或共同的访问模式得出访问某一服务器文件的用户特征。常用的数据分类技术有:判定树

9、归纳、贝叶斯分类和贝叶斯网络、神经网络、基于案例的推理、遗传算法、粗糙集方法和模糊集方法。 聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。聚类分析技术能用于对Web上的文档进行分类,已发现信息。聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对某些簇做进一步的分析。常用的聚类算法大体上可以划分为几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。 关联规则挖掘技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。在Web挖掘中,关联规则挖掘就是要挖掘出用户在一个访问会话期间从服务器上访问的页面或

10、文件之间的联系,这些页面之间可能并不存在直接的引用关系。最常用的算法是Aprior算法,它从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。 时间序列模式挖掘技术 时间序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,用户的访问是以一段时间为单位记载的。经过数据净化和事件交易确认得到一个间断的时间序列,这些序列所反映的用户行为有助于帮助商家印证其产品所处的生命周期阶段。 路径分析技术 用路径分析技术进行Web数据挖掘时,最常用的是图。因为Web可以用一个有向图来表示,G=(V,),是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点V的入边表示对V的引用,出边表示V引用了其它的页面。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 单元课程

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁