《web数据挖掘技术及其在网络教学中的应用(7页).doc》由会员分享,可在线阅读,更多相关《web数据挖掘技术及其在网络教学中的应用(7页).doc(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-web数据挖掘技术及其在网络教学中的应用-第 6 页网络教学中学生个性化信息服务研究摘要:个性化的网络教学系统是一个智能化的系统,通过对学生学习的情况、需求、能力、进度、兴趣等进行分析,为每位学习个体提供个性化的学习方案。web挖掘为其实现个性化的服务提供了有效地工具。本文介绍了web数据挖掘技术及其在网络教学中的应用,提出了基于web日志挖掘的模型,并对该系统的主要实现模块进行了分析。关键字:web日志挖掘;网络教学;个性化1 引言随着计算机技术和信息技术的发展,以网络为载体、利用数字电子化方式开展的教学活动逐渐成为了目前最为重要的教学形式,这种教学形式的真正优势在于能为学习者个体提供个性
2、化的学习安排,而这种个性化的教育服务也势必会进一步促进网络教学的发展。2 web数据挖掘web数据挖掘,是在web环境下数据挖掘技术的应用,是从web的超链接结构、网页内容和使用日志中提取有用的模式和隐含信息。web上信息的表现具有多样性,这也就决定了web挖掘任务同样也具有多样性。根据处理对象的不同,web挖掘一般可以分为web内容挖掘、web结构挖掘和web日志挖掘三类。本课题重点研究web日志挖掘。web日志挖掘的主要任务是从web的服务器日志中抽取有意义的信息和模式。web日志挖掘处理的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括网络服务器访问记录、代理服务器日志记录、
3、浏览器日志记录、注册信息、用户对话等。对这些数据进行挖掘和分析可以帮助理解用户的行为,进而改进载体站点的结构或者为用户提供个性化的服务。那么在网络教学中应用web日志挖掘就可以通过挖掘相应站点的日志文件获取学习者的访问内容、停留时间、访问频度等,从而发现其学习访问模式等有用信息,进一步提升整个网络教学的品质。web日志挖掘的研究围绕着分析web站点性能、理解用户意图和改进web站点设计三个应用方面进行,常用的技术主要有统计分析、关联规则分析、序列模式分析、聚类与分类分析等。web日志挖掘一般分为数据预处理、模式发现和模式分析三个基本阶段。2.1 数据预处理阶段服务器端数据、客户端数据和代理服务
4、器端数据收集都是web日志挖掘的数据源。数据预处理阶段的主要任务是将各种数据源得到的使用信息、内容信息和结构信息转换成适合数据挖掘和模式发现所需要的数据模型。数据预处理是在将日志文件转化为数据库文件之后进行的,是为了得到可用于挖掘的可靠和精确的数据。这个过程一般分为数据清洗、用户识别、会话识别和路径补充4个步骤。1)数据清洗是指删除日志文件中一些与挖掘任务无关的数据,包括删除、合并某些记录,处理用户请求访问失败的记录等内容。2)用户识别的主要任务是处理多个用户通过代理服务器或防火墙访问站点的情况,是将用户和请求页面相关联的过程。3)会话识别的任务就是把属于同一个用户的同一次访问请求识别出来,也
5、就是将用户的访问记录划分成单个的会话。一般采用超时识别。4)路径补充就是根据引用日志和网络拓扑结构把访问日志中没有记录的用户补充到用户会话文件之中,确保获得用户完整的访问路径。2.2 模式发现阶段模式发现阶段是web日志挖掘的核心部分。经过数据预处理之后,应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术等,来处理“消噪”后的数据,最终发现用户的访问模式和规律。2.3 模式分析阶段web日志挖掘的最后一步就是模式分析。通过模式挖掘之后,生成的规则数目庞大,表达晦涩,得不到很好的利用,这就需要对模式发现过程产生的规则和模式进行过滤,通过模式分析和应用技术处理之,选择用户易
6、于理解和棘手的方式显示出来。常用技术有可视化技术、联机分析技术和智能查询机制等。3 网络教学中的web数据挖掘方法3.1 关联分析关联分析是寻找在同一个事件中出现的不同项的相关性。关联分析发现关联规则,运用在web挖掘环境中的关联规则是指发现用户会话中经常被用户一起访问的页面集合,这些页面之间没有顺序关系。购物篮分析就是一个非常典型的关联规则应用,该应用通过发现顾客放入“购物篮”中不同商品之间的联系来分析顾客的购买习惯。在web中,关联规则作为启发式规则,可以发现学习者对内容页面之间的访问关系,调整页面之间的结构关系,预测学习者可能访问的内容,使其最快捷地访问到感兴趣的内容。在网络教学中就可以
7、利用关联分析寻找各门课程之间的内在联系,根据a课程与b课程在一起浏览的情况,推导出和在一起是起着积极作用还是负面影响,进而可以选定课程之间的关联,及时制定策略建立或删除和课程之间的关联。3.2 分类分析分类分析是预先定义好几个类,然后将数据项映射到某个类中去。在web日志挖掘中使用分类能够将用户配置文件归属到特定的用户类别,建立数据各特定类别的用户概图。例如把学生的知识能力水平分成入门级、初级、中级和高级,利用分类技术将学习者投射到某一个级别中,为每个级别提供相应的个性化资源和学习支持服务,还可以用于远程协作的学习小组分配。可以利用有监督的归纳学习算法来实现这种分类。3.3 聚类分析分类与聚类
8、是不同的两种方法,分类中的类及相关属性是预先定义好的,其目的是运用分类算法将没有划分类别的数据标记为特定的类标号;而聚类中的类别事先并没定义,其目的是将大量的个体数据,根据属性之间的相似性,将原始数据集合划分为若干个子集。在网络教学中聚类是一个重要的方面,它帮助网站设计人员从用户数据库中发现不同的用户群,并且用学习模式来刻画不同的用户群的特征。通过聚类分析可以帮助网站设计者更好地了解自己的用户,使教学活动能够在一定程度上满足学生的要求。3.4 序列模式分析序列模式指在事务之间寻找相应的时序关系,在时序数据集中发现在时间上具有先后顺序的数据项。根据序列模式的特点,利用序列模式分析技术我们可以对用
9、户的浏览趋势进行分析,在网络教学中学生的课程学习是循序渐进的,且具有一定的关联和前后顺序,进行序列模式分析可以预测学生的未来访问模式,且有助于针对特定用户群安排特定内容,可以解决远程教育中针对各种层次学生进行因材施教的问题。4 基于web挖掘的个性化网络教学系统网络教学作为一种基于web的,以远程方式进行的教学活动,打破了过去教师、学生面对面、共集一堂的时间和空间的限制,使更多的人能够享受到有限的社会教育资源,而引入个性化后的网络教学将是一个智能化的系统,可以更多且及时地了解到学生的状况、需求、能力差异、学习进度、兴趣爱好,并动态地根据这些因素调整学习计划及进度,让学生得到针对其个性化的教育。4.1 系统模型基于web