web数据挖掘技术分析与研究.pdf-淘文阁

资源描述

《web数据挖掘技术分析与研究.pdf》由会员分享，可在线阅读，更多相关《web数据挖掘技术分析与研究.pdf（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、web 数据挖掘技术分析与研究 web 数据挖掘技术分析与研究 1Web 数据挖掘面临的问题目前面向 Web 的数据挖掘面临的问题，主要有两个方面：1.1 数据库环境的异构型 Web 上的每个站点就是一个数据源，数据源之间是异构的，外加上各个站点的信息和组织的不同，Web 网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘，首先，要解决各个站点之间的异构数据集成，提供用户统一界面，从复杂的数据源中取得所需的有用的信息知识。其次，有关 Web 上的数据查询。1.2 数据结构的半结构化 Web 上的数据比较复杂，各个站点的数据都独立设计，具有动态可变性。虽然 Web 上的数据形成半结构化

2、数据。这些问题是进行Web 数据挖掘所面临的最大困难。2XML 技术在 Web 数据挖掘中的优势 Web 数据的异构使 Web 数据挖掘变得十分困难,通过 XML 可以解决这个问题。因为 XML 文档具有很好的自我描述性，他的元素、子元素、属性结构树可以表达极为丰富的语义信息，能够很好的描述半结构化的数据，因此在网络数据集成、发送、处理和显示的方面。开发人员能够用 XML 的格式标记和交换数据。XML 在三层架构上为数据的处理提供了有用的途径。利用 XML，Web 设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。基于 XML 的 Web 数据挖掘技术，能

3、够使不同来源的结构化的数据很容易地结合在一起，解决 Web 数据挖掘的难题。2.1XML 技术在 Web 数据挖掘中具体作用利用 XML 技术我们在 Web数据挖掘中可以完成以下几点：2.1.1 集成异构数据源 XML 是一种半结构化的数据模型，可以完成和关系数据库中的属性一一对应，从而实施精确地查询与模型抽取。XML 可以搜索多个不同数据库的问题，以实现集成。2.1.2 和异构数据进行交换在 Web 数据挖掘程中，用户需要和异构数据源进行数据交换，XML 通过自定义性及可扩展性来标识各种数据，从而描述从各站点搜集到的 Web 页中的数据。XML 的出现解决了数据查询的统一接口。2.1.3

4、过滤信息并显示 XML 描述数据本身，可以使得定义的数据以不同的方式显示，对获取的信息进行裁减和编辑以适应不同用户的需求。以不同的浏览形式提供给不同的用户。3 基于 XML 的 Web 数据挖掘模型我们通过对 XML 及 Web 数据挖掘的分析，设计了一个基于 XML 的Web 数据挖掘模型通过提供一个 Web 数据挖掘的集成环境，提高数据挖掘系统的整体性能。工作流程如下：系统根据用户要求搜集Web 资源，经数据转换器处理成相应的 XML 数据存储，提供给挖掘器使用；挖掘器则根据要求从选取相应的算法挖掘，输出挖掘结果；用户根据自己的满意度，获得需要的挖掘结果，调整挖掘要求进入新一轮数据挖掘。

5、通过系统的维护我们可以加入新的挖掘算法，实现升级。3.1 各模块具体功能 3.1.1 数据收集从 Web 站点上采集数据并存储，获得挖掘内容。针对异构数据源，可以多种方式提出相关需求，挖掘的重点是 Web 内容和 Web 使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理，转变成统一处理的数据结构，构建日志数据库。3.1.2 转换器对检索得到的数据用 XML 技术进行预处理，建立半结构化数据模型，抽取其特征的元数据，用结构化的形式保存，为挖掘模块提供所需的数据。3.1.3 挖掘器不同的挖掘算法有不同适用情况，挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去

6、选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入，知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库，以插拔的形式组织存放各种挖掘算法。314 结果生成与评估以直观的方式提交挖掘结果，便于用户的评估。通过模式分析和兴趣度度量，若结果使得用户满意，数据挖掘结束，输出用户感兴趣的内容；否则可以在此重新提出挖掘要求，重新挖掘。3.2 系统各模块实现方法 3.2.1 数据收集数据的收集也涉及数据挖掘的技术，其过程是：通过人工输入办法，给出查询主题，找到相关的 Web 页,然后,通过相应的数据挖掘的算法对训练数据集提炼，利用提炼出的数据模式,进行更大范围的搜索，以获取更多的数据源。最

7、终形成较新和有效 XML 文档。3.2.2 数据的转换处理数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web 页面转换成 XML 格式,并使用相关工具处理 XML 结构数据检要把HTML 中含有的与主题无关的标记过滤掉,然后转化到 XML 的格式存储。目前 Web 页面到 XML 文档的转换,有两部分数据构成:一是 XML数据，二是非 XML 数据。XML 数据,可以直接将它们提交给下一个模块。对于非 XML 数据,本文的实现方法是用到 Tidy 以改正 HTML 文档中的常见错误并生成格式编排良好的等价文档，还可以使用 Tidy 生成 XHTML(XML 的子集)格式的文档。通

8、过构造相应的 Java 类完成将数据从 HTML 到 XML 的转换。3.2.3 挖掘方法（1）文本分类：文本分类是指按预先定义的主题类别，把集合中的每个文档确定一个所属类别。这样，用户能够方便地浏览文档，并限制搜索范围来使查找更为容易。利用文本分类技术对大量文档进行快速、有效地自动分类。有关的算法通常采用 TFIDF 和NaiveBayes 等方法。（2）文本聚类：文本聚类与分类的不同之处在于，聚类不需要预先定义好的主题类别，它是将把文档集合分成若干个簇，要求同簇内文档内容相似度最大，而不同簇间的相似度最小。Hearst 等人研究表明聚类假设，即与用户查询相关的文档通常会聚类比较靠近，而远离

9、与用户查询不相关文档。可以利用文本聚类技术把搜索引擎检索结果分成若干个簇，用户只要考虑那些相关的簇，就能够缩小所需要浏览的结果数量。目前，常用的文本聚类算法,分为两种：以G-HAC 等算法为代表的层次凝聚法，以 k-means 等算法为代表的平面划分法。（3）关联分析：关联分析是指从文档集合中发现不同词语之间关系 Brin 提出一种从大量文档中查找一对词语出现模式算法，在Web 上寻找作者和书名的模式，从而发现数千本在 Amazon 网站上查找不到的新书。（4）模式评价：Web 数据挖掘中十分重要的过程就是模式评价。常用的方法有预留法和交叉实验法，将数据分成训练集和测试集两部分，学习和测试反复进行，最后用一个平均质量模型来确定模型质量的好坏。（5）预留法：从数据集合随机抽取预定大小一个子集作为测试集，其他数据则作为训练集。（6）交叉验证法：把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集，在每次循环中，选取其一个子集作为测试集，其它子集并集则作为训练集。4 结束语 XML 技术不仅为 Web 上的数据交换提供了一个标准,而且能够更好的表示数据内容，以及数据的含义。随着 XML 的兴起和完善，Web页面会蕴涵更多的结构化和语义的信息，因此,基于 XML 技术的数据挖掘已成为目前 Web 挖掘的研究热点。当然 Web 数据挖掘这一研究领域还有待于进一步研究。

展开阅读全文