《网站日志分析的具体方法和步骤基础_计算机-网站策划.pdf》由会员分享,可在线阅读,更多相关《网站日志分析的具体方法和步骤基础_计算机-网站策划.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、.-.jz*日志挖掘分析的方法 日志文件的格式及其包含的信息 2006-10-17 00:00:00202.200.44.43 218.77.130.24 80 GET/favicon.ico Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-;+rv:1.8.0.3)+Gecko/20060426+Firefox/1.5.0.3。访问时间;用户IP 地址;访问的URL,端口;请求方法(“GET、“POST等);访问模式;agent,即用户使用的操作系统类型和浏览器软件。一、日志的简单分析 1、注意那些被频繁访问的资源 2、注意那些你上不存在资源的请求。常
2、见的扫描式攻击还包括传递恶意参数等:3、观察搜索引擎蜘蛛的来访情况 4、观察访客行为 应敌之策:1、封杀某个 IP 2、封杀某个浏览器类型Agent 3、封杀某个来源Referer 4、防盗链 5、文件重命名 作用:.-.jz*1.对访问时间进展统计,可以得到效劳器在某些时间段的访问情况。2.对 IP 进展统计,可以得到用户的分布情况。3.对请求 URL 的统计,可以得到页面关注情况。4.对错误请求的统计,可以更正有问题的页面。二、挖掘 根据所挖掘的数据的类型,可以将数据挖掘分为以下三类:容挖掘(Content Mining)、构造挖掘(Structure Mining)、使用挖掘(Usage
3、 Mining)也称为日志挖掘。容挖掘。容挖掘是指从文档的容中提取知识。容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,文本挖掘已经有了比拟实用的功能。文本挖掘可以对上大量文档集合的容进展总结、分类、聚类、关联分析,以及利用文档进展趋势预测等。文档中的标记,例如和 等蕴含了额外的信息,可以利用这些信息来加强文本挖掘的作用。构造挖掘。构造挖掘是从的组织构造和关系中推导知识。它不仅仅局限于文档之间的超构造,还包括文档部的构造。文档中的 URL 目录路径的构造等。构造挖掘能够利用网页间的超信息对搜索引擎的检索结果进展相关度排序,寻找个人主页和相似网页,提高搜索蜘蛛在网上的爬
4、行效率,沿着超优先爬行。构造挖掘还可以用于对页进展分类、预测用户的使用及属性的可视化。对各个商业搜索引擎索引用的页数量进展统计分析等。使用记录挖掘。使用记录挖掘是指从的使用记录中提取感兴趣的模式,目前使用记录挖掘方面的研究较多,中的每个效劳器都保存了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究日志记录中的规律,来识别的潜在用用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对
5、错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进展日志挖掘;可以根据用户访问的记录挖掘用户的兴趣关联规那么,存放在兴趣关联知识库中,作为对用户行为进展预测的依据,从而为用户预取一些页面,加快用户获取页面的速度,分析这些数据还可以帮
6、助理解用户的行为,从而改良站点的构造,或为用户提供个性化的效劳。通过对效劳器日志量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,日志挖掘主要被用于个性化效劳与定制、改良系统性能和构造、站点修改、商业智能以及特征描述等诸多领域。三、日志挖掘的方法 一首先,进展数据的预处理。从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进展适当的处理才能进展挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点构造信息,把 URL 路径补充成完整的访问序列;然后划分学习
7、者,并把学习者的会话划分成多个事务。二其次,进展模式发现 一旦学习者会话和事务识别完成,就可以采用下面的技术进展模式发现。模式发现,是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关等多种方法。路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定上的频繁用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情
8、况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*访问路径,从而调整和优化构造,使得用户访问所需网页更加简单快捷,还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。例如:70%的学习者在访问/E-Business/M2时,是从/EB开场,经过/E-Business/Si
9、mpleDescription,/E-Business/M1;65%的学习者在浏览 4 个或更少的页面容后就离开了。利用这些信息就可以改良站点的设计构造。关联规那么。使用关联规那么发现方法,可以从的访问事务中找到的相关性。关联规那么是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规那么发现的问题:x=y 的蕴含式,其中 x,y 为属性值对集(或称为工程集),且 XY 空集。在数据库中假设 S%的包含属性值对集 X 的事务也包含属性值集 Y,那么关联规那么 X=Y 的置信度为 C%。序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项这样的部事务模式。它
10、能发现数据库中如“在某一段时间,客户购置商品 A,接着会购置商品 B,此后又购置商品 C,即序列 ABC 出现的频率高之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。分类分析。发现分类规那么可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规那么。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。例如:在/E-Business/M
11、4 学习过的学习者中有 40是 20左右的女大学生。用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些
12、信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*聚类分析。可以从访问信息数据中聚类出具有相似特性的学习者。在事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差异尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有 kmeans、DBSCAN 等。聚类分析是把具有相似特征的用户或数据项归类,在管理过聚类具有相似浏览行为的用户。基于模糊理论的页面聚类算法与客户群体聚类算法的模糊聚类定义一样,客户访问情况可用
13、 URL(Uj)表示。有 Suj=(Ci,fSuj(Ci)|Ci C,其中 fSuj(Ci)0,1是客户 Ci 和 URL(Uj)间的关联度:式中 m 为客户的数量,hits(Ci)表示客户 Ci 访问 URL(Uj)的次数。利用 Suj和模糊理论中的相似度度量 Sfij定义建立模糊相似矩阵,再根据相似类XiR 的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关页面。统计。统计方法是从站点中抽取知识的最常用方法,它通过分析会话文件,对浏览时间、浏览路径等进展频度、平均值等统计分析。虽然缺乏深度,但仍可用于改良构造,增强系统平安性,提高访问的效率等。协同过滤。协同过滤技术采用最近邻技术
14、,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。三最后,进展模式分析。模式分析。基于以上的所有过程,对原始数据进展进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及建立的决策提供具体理论依据。其主要方法有:采用 SQL 查询语句进展分析;将数用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注
15、情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*据导入多维数据立方体中,用 OLAP 工具进展分析并给出可视化的结果输出。分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规那么等 四、关联规那么 一关联规那么 顾名思义,关联规那么association rule挖掘
16、技术用于于发现数据库中属性之间的有趣联系。一般使用支持度support和置信度confidence两个参数来描述关联规那么的属性。1.支持度。规那么YX 在数据库D中的支持度(support)是交易集中同时包含X,Y的事务数与所有事务数之比,记为Y)support(X)(supYXport。支持度描述了X,Y这两个项集在所有事务中同时出现的概率。2 置信度。规那么YX 在事务集中的置信度(confidence)是指同时包含X,Y的事务数与包含X的事务数之比,它用来衡量关联规那么的可信程度。记为 )(sup/)(sup)(XportYXportYXconfidence 规 那 么 A C:支 持
17、 度=support(A C)=50%,置 信 度=support(A C)/support(A)=66.6%二Apriori 方法简介 Apriori 算法最先是由 Agrawal 等人于 1993 年提出的,它的根本思想是:首先找出所有具有超出最小支持度的支持度项集,用频繁的(k1)-项集生成候选的Transaction-id Items bought 10 A,B,C 20 A,C 30 A,D 40 B,E,F Frequent pattern Support A 75%B 50%C 50%A,C 50%用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不
18、存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*频繁 k-项集;其次利用大项集产生所需的规那么;任何频繁项集的所
19、有子集一定是频繁项集是其核心。Apriori 算法需要两个步骤:第一个是生成条目集;第二个是使用生成的条目集创立一组关联规那么。当我们把最小置信度设为 85%,通过关联规那么的形成以及对应置信度的计算,我们可以从中得到以下有用的信息:1.置信度大于最小置信度时:我们可以这样认为,用户群体在浏览相关网页时,所呈列的之间是有很大关联的,他们是用户群的共同爱好,通过网页布局的调整,从某种意义上,可以带来更高的点击率及潜在客户;2.置信度小于最小置信度时:我们可以这样认为,用户群体对所呈列之间没太多的关联,亦或关联规那么中的在争夺用户。五、中日志挖掘容 1的概要统计。的概要统计包括分析覆盖的时间、总的
20、页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。2容访问分析。容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。3客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者、来自的 IP 地址以及访问者使用的搜索引擎。4访问者活动周期行为分析。访问者活动周期行为分析包括一周 7 天的访问行为、一天 24 小时的访问行为、每周的最多的访问日、每天的最多访问时段等。用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还
21、包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*5主要访问错误分析。主要访问错误分析包括效劳端错误、页面找不到错误等。6栏目分析。栏目分析包括定
22、制的频道和栏目设定,统计出各个栏目的访问情况,并进展分析。7商务扩展分析。商务扩展分析是专门针对专题或多媒体文件或下载等容的访问分析。8有 4 个方向可以选择:对用户点击行为的追踪,click stream研究;对网页之间的关联规那么的研究;对中各个频道的浏览模式的研究;根据用户浏览行为,对用户进展聚类,细分研究;如果你能够结合现有的互联网产品和应用提出一些自己的建议和意见,那就更有价值了。9发现用户访问模式。通过分析和探究日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的效劳质量,并改良效劳器系统的性能。(10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成局部。六、相关
23、软件及算法 一相关软件:1.数据挖掘的专用软件 wake。2.用 OLAP 工具 3.已经有局部公司开发出了商用的用户访问分析系统,如 Trends 公司的merceTrends 3.0,它能够让电子商务更好地理解其访问者的行为,帮助采取一些行动来将这些访问者变为顾客。merceTrends 主要由 3 局部组成:Report Generation Server、Campain Analyzer和 house Builder。用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为
24、应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*4.Accrue公司的 Accrue Insight,它是一个综合性的分析工具,它能够对的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮
25、助采取措施来提高顾客对于的忠诚度,从而建立长期的顾客关系。二相关算法:1.运用各种算法进展数据挖掘:GSP 算法,Prefixspana算法,2.关联规那么分析:Apriori、FP-growth算法等。3.Apriori算法及其变种算法 4.基于数据库投影的序列模式生长技术database project based sequential pattern growth 5.Wake算法、MLC+等 6.PageRank算法和 HITS 算法利用页面间的超信息计算“权威型Authorities网页和“目录型Hubs网页的权值。构造挖掘通常需要整个的全局数据,因此在个性化搜索引擎或主题搜索引擎研
26、究领域得到了广泛的应用。7.参考检索引擎的挖掘算法,比方 Apache 的 lucene等。七、日志分析的价值或应用 在自己的上安装了统计的代码,如 Google analytics、量子统计、百度统计、zz、51.la等,这些工具可以统计的流量,也就是上访客可看到的所有页面的访问量,但是这些统计工具都不能统计你主机上资源的原始访问信息,例如某个图片被谁下载了。如果你的遭到了攻击、非法盗链和不良请求等,通过分析原始访问日志能大概分析出端倪来,例如:往主机上传了一个 mp3,不幸被百度 mp3 收录,引用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请
27、求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*来大量的盗链,导致我的主机流量猛增!通过分析日志,可以找出问题根源,删除了那
28、个 mp3,主机流量也降下来了。分析访客来源Referer。这一段是告诉我们访客是从哪里来到这一个网页。有可能是其他页,有可能是来自搜索引擎的搜索页等。通过这条来源信息,你可以揪出盗链者的网页。日志分析软件都能提供关于效劳器的浏览量、统计所有页面和相关文件被显示的次数、访问最多的网页、客户端访问最频繁的文件、访问者的IP 分布、每日访问统计、每周每月等的统计结果。1.访问者访问时段分析。结合 IP 地址和时段之间的关系可以将来访者大致的身份作一个根本的判断。如按上班前、工作期间、下班后、节假日等,可以针对访客的初步性质安排适宜的容,如产品信息和广告;2.访问者地区分布。分析通过将访问者的 IP
29、 地址转换为地理区间可以分析出来访者的大致地理分布围。相关产品推荐。通过以上的关联分析,有了用户频繁访问路径和之间的兴趣度,可以构建个性化推荐系统模型。对于实证例子,我们可以在置信度高于最低置信度的相关之间,建立某种信息快速互联的桥梁,亦或是在网页规划中,充分考虑之间的关联关系,从而为更人性化、合理化的网页设计提供决策依据。如:当客户浏览/newimg/num1.gif 时,有 0.91的概率会浏览/newimg/num4.gif,那么,在两者之间就存在很高的关联性,从而我们有必要对这两个建立某种跟严密的联系。个性挖掘:针对单个用户的使用记录对该用户进展建模,结合该用户根本信息分析他的使用习惯
30、、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化效劳。用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外
31、的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*系统改良:效劳数据库、网络等的性能和其他效劳质量是衡量用户满意度的关键指标,用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改良缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点平安性,这在电子商务环境下尤为重要。站点修改:站点的构造和容是吸引用户的关键。用法挖掘通过挖掘用户的行为记录和反应情况为站点设计者提供改良的依,比方页面连接情况应如何组织、那些页面应能够直接访问等。智能商务:用户怎样使用站点的信息无疑是电子商务销售商关
32、心的重点,用户一次访问的周期可分为被吸引、驻留、购置和离开四个步骤,用法挖掘可以通过分析用户点击流等日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进展特征描述。备注及参考(Data Mining 不是一种无中生有的魔术,也不是点石成金的炼金术,假设没有够丰富完整的数据,是很难期待 Data Mining 能挖掘出什么有意义的信息的。)用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访
33、情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系.-.jz*用的操作系统类型和浏览器软件一日志的简单分析注意那些被频繁访问的资源注意那些你上不存在资源的请求常见的扫描式攻击还包括传递恶意参数等观察搜索引擎蜘蛛的来访情况观察访客行为应敌之策封杀某个封杀某个浏览器类可以得到用户的分布情况对请求的统计可以得到页面关注情况对错误请求的统计可以更正有问题的页面二挖掘根据所挖掘的数据的类型可以将数据挖掘分为以下三类容挖掘构造挖掘使用挖掘也称为日志挖掘容挖掘容挖掘是指从文档了比拟实用的功能文本挖掘可以对上大量文档集合的容进展总结分类聚类关联分析以及利用文档进展趋势预测等文档中的标记例如和等蕴含了额外的信可以利用这些信来加强文本挖掘的作用构造挖掘构造挖掘是从的组织构造和关系