《2022年web数据挖掘技术及其在网络教学中的应用.docx》由会员分享,可在线阅读,更多相关《2022年web数据挖掘技术及其在网络教学中的应用.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络教案中同学个性化信息服务讨论摘要: 个性化地网络教案系统是一个智能化地系统, 通过对同学学习地情形、需求、才能、进度、爱好等进行分析, 为每位学习个体供应个性化地学习方案 .web 挖掘为其实现个性化地服务供应了有效地工具 . 本文介绍了 web数据挖掘技术及其在网络教案中地应用, 提出了基于 web日志挖掘地模型 , 并对该系统地主要实现模块进行了分析 .关键字:web 日志挖掘;网络教案;个性化1 引言随着运算机技术和信息技术地进展 , 以网络为载体、利用数字电子化方式开展地教案活动逐步成为了目前最为重要地教案形式, 这种教案形式地真正优势在于能为学习者个体供应个性化地学习安排, 而这
2、种个性化地训练服务也势必会进一步促进网络教案地进展.2 web 数据挖掘web数据挖掘 , 是在 web环境下数据挖掘技术地应用 , 是从 web地超链接结构、网页内容和使用日志中提取有用地模式和隐含信息.web 上信息地表现具有多样性 , 这也就打算了 web挖掘任务同样也具有多样性 . 依据处理对象地不同 ,web 挖掘一般可以分为 web内容挖掘、 web结构挖掘和 web日志挖掘三类 . 本课题重点讨论 web 日志挖掘 .web日志挖掘地主要任务是从 web地服务器日志中抽取有意义地信息和模式 .web 日志挖掘处理地是在用户和网络交互地过程中抽取出来地其次手数据 . 这些数据包括网
3、络服务器拜访记录、代理服务器日志记录、浏览器日志记录、注册信息、用户对话等. 对这些数据进行挖掘和分析可以帮忙懂得用户地行为, 进而改进载体站点地结构或者为用户供应个性化地服务 . 那么在网络教案中应用 web 日志挖掘就可以通过挖掘相应站点地日志文件猎取学习者地拜访内容、停留时间、拜访频度等 , 从而发觉其学习拜访模式等有用信息, 进一步提升整个网络教案地品质.web日志挖掘地讨论环围着分析 web站点性能、懂得用户意图和改进 web站点设计三个应用方面进行 , 常用地技术主要有统计分析、关联规章分析、序列模式分析、聚类与分类分析等.web 日志挖掘一般分为数据预处理、模式发觉和模式分析三个
4、基本阶段.2.1 数据预处理阶段服务器端数据、客户端数据和代理服务器端数据收集都是web 日志挖掘地数据源 . 数据预处理阶段地主要任务是将各种数据源得到地使用信息、内容信息和结构信息转换成适合数据挖掘和模式 发觉所需要地数据模型 . 数据预处理是在将日志文件转化为数据库文件之后进行地 , 是为了得到可用于挖掘地牢靠和精确地数据 . 这个过程一般分为数据清洗、用户识别、会话识别和路径补充 4 个步骤.1)数据清洗是指删除日志文件中一些与挖掘任务无关地数据 ,包括删除、合并某些记录 , 处理用户恳求拜访失败地记录等内容.2 )用户识别地主要任务是处理多个用户通过代理服务器或防火墙拜访站点地情形
5、, 是将用户和恳求页面相关联地过程.3 )会话识别地任务就是把属于同一个用户地同一次拜访恳求识别出来 , 也就是将用户地拜访记录划分成单个地会话 . 一般采纳超时识别 .4 ) 路径补充就是依据引用日志和网络拓扑结构把拜访日志中没有记录地用户补充到用户会话文件之中 , 确保获得用户完整地拜访路径 .2.2 模式发觉阶段模式发觉阶段是 web 日志挖掘地核心部分 . 经过数据预处理之后 ,应用一种合理地挖掘算法或综合应用不同地算法, 如关联规章分析、聚类和分类技术等 , 来处理“消噪”后地数据 , 最终发觉用户地拜访模式和规律 .2.3 模式分析阶段web日志挖掘地最终一步就是模式分析 . 通过
6、模式挖掘之后 , 生成地规章数目巨大 , 表达晦涩 , 得不到很好地利用 , 这就需要对模式发觉过程产生地规章和模式进行过滤 , 通过模式分析和应用技术处理之, 挑选用户易于懂得和麻烦地方式显示出来. 常用技术有可视化技术、联机分析技术和智能查询机制等 .3 网络教案中地 web数据挖掘方法3.1 关联分析关联分析是查找在同一个大事中显现地不同项地相关性. 关联分析发觉关联规章 , 运用在 web挖掘环境中地关联规章是指发觉用户会话中常常被用户一起拜访地页面集合 , 这些页面之间没有次序关系. 购物篮分析就是一个特别典型地关联规章应用, 该应用通过发现顾客放入“购物篮”中不同商品之间地联系来分
7、析顾客地购买习惯. 在 web中, 关联规章作为启示式规章 , 可以发觉学习者对内容页面之间地拜访关系 , 调整页面之间地结构关系 , 猜测学习者可能拜访地内容 , 使其最快捷地拜访到感爱好地内容 . 在网络教案中就可以利用关联分析查找各门课程之间地内在联系, 依据 a 课程与 b 课程在一起浏览地情形 , 推导出和在一起是起着积极作用仍是负面影响 , 进而可以选定课程之间地关联 , 准时制定策略建立或删除和课程之间地关联 .3.2 分类分析分类分析是预先定义好几个类 , 然后将数据项映射到某个类中去 .在 web日志挖掘中使用分类能够将用户配置文件归属到特定地用户类别, 建立数据各特定类别地
8、用户概图. 例如把同学地学问才能水平分成入门级、初级、中级和高级 , 利用分类技术将学习者投射到某一个级别中 , 为每个级别供应相应地个性化资源和学习支持服务, 仍可以用于远程协作地学习小组安排 . 可以利用有监督地归纳学习算法来实现这种分类 .3.3 聚类分析分类与聚类是不同地两种方法 , 分类中地类及相关属性是预先定义好地, 其目地是运用分类算法将没有划分类别地数据标记为特定地类标号;而聚类中地类别事先并没定义, 其目地是将大量地个体数据, 依据属性之间地相像性 , 将原始数据集合划分为如干个子集 . 在网络教案中聚类是一个重要地方面 , 它帮忙网站设计人员从用户数据库中发觉不同地用户群
9、, 并且用学习模式来刻画不同地用户群地特点. 通过聚类分析可以帮忙网站设计者更好地明白自己地用户,使教案活动能够在肯定程度上满意同学地要求.3.4 序列模式分析序列模式指在事务之间查找相应地时序关系, 在时序数据集中发觉在时间上具有先后次序地数据项 . 依据序列模式地特点 , 利用序列模式分析技术我们可以对用户地浏览趋势进行分析, 在网络教案中同学地课程学习是循序渐进地 , 且具有肯定地关联和前后次序 , 进行序列模式分析可以猜测同学地将来拜访模式, 且有助于针对特定用户群支配特定内容 , 可以解决远程训练中针对各种层次同学进行因材施教地问题 .4 基于 web挖掘地个性化网络教案系统网络教案
10、作为一种基于web地, 以远程方式进行地教案活动 , 打破了过去老师、同学面对面、共集一堂地时间和空间地限制, 使更多地人能够享受到有限地社会训练资源 , 而引入个性化后地网络教案将是一个智能化地系统 , 可以更多且准时地明白到同学地状况、需求、才能差异、学习进度、爱好爱好 , 并动态地依据这些因素调整学习方案及进度 , 让同学得到针对其个性化地训练 .4.1 系统模型基于 web挖掘地个性化网络教案系统设计思想是:通过猎取学习者在 web上地个人信息、学习行为信息和web日志数据 , 如拜访频度、内容、拜访时间长短及偏好 , 经过数据预处理、模式发觉找出有用地规章和模式进行综合分析 , 结合
11、教案资源学问库地信息,得出学习者学习过程地一般模式规律 , 对学习内容和进度进行自动组合, 重构页面间链接 , 为学习者供应良好地个性化服务, 使学习者更好地进展自我 . 依据上述地设计思想 , 提出一种基于 web日志挖掘地个性化远程训练系统模型 , 如图 1 所示.4.2 系统结构4.2.1 数据预处理模块数据预处理模块负责对服务器端地拜访日志进行预处理, 以得到满意 web日志挖掘要求地事务数据 . 主要是依据挖掘任务进行数据清洗、用户识别、会话识别和事务识别 .1)数据清洗 数据清洗是整个预处理地基础 , 主要是将有噪声地、不一样地、冗余地数据从 web拜访日志中清除或合并 . 可以采
12、纳纵向缩减和横向缩减进行清洗 , 例如当学习者对某个页面发出访问恳求时 , 这个页面中地图形、脚本、图像等资源就会被自动下载,并写入日志数据中 , 但在网络教案网站中 , 只有包含教案内容地html 文件与用户会话有关 , 而后缀名为 .jpg,.gif和.jpeg地图片文件, 后缀名为 .wav 地音频文件以及后缀名为.js和.cgi地脚本文件都属于噪声信息 . 这时我们就可以利用纵向缩减中地后缀过滤法进行数据清理 .2 ) 用户识别 用户识别是为了得到同一用户拜访地全部路径地集合 . 用户识别在对用户进行拜访模式挖掘或聚类分析时尤为重要 , 由于群体是由个体组成地 , 只有对个体有了具体地
13、熟悉才能清晰地识别群体特点 .3 )会话识别 一个会话是学习者从进入到离开网络教案站点这段时间内地一组网页拜访, 可以依据学习者登陆系统、完成学习、最终退出地过程来识别会话.web 日志中储备着大量地拜访信息 , 时间跨度大 , 一名学习者可能在此期间多次拜访了该站点 , 那么会话识别地意义就在于可以将不同时间段内地学习者拜访区分开 , 将学习者多次拜访地页面划分成多次用户会话. 会话地划分有多种方法 , 有基于时间划分地 , 有基于站点拓扑结构划分地 . 而最为常用地方法就是通过设置一个用户在站点地连续时间或页面停留时间阈值来识别用户会话, 假如恳求时间超过阈值就认为新会话开头 .4 )路径
14、补充:由于本地缓存和代理服务器缓存地存在 , 使得难以识别学习者拜访地网页序列 , 而路径补充就是补全那些不完整地学习者拜访序列. 路径补充可以遵循一些原就, 比如通过在网页地标志中设置过期时间 , 使得本地缓存失效 , 这样就可以保证 web日志记录中储存了用户地真实拜访路径;仍可以结合拜访日志、引用日志、代理日志和网站拓扑结构来实现路径补充. 在完成数据预处理之后会就能得到网络教案系统中地web拜访事务数据库 , 学习者对网络教案站点地拜访情形都将储备在web拜访事务数据库中 , 每一个事务是一组内容页面地集合, 代表着学习者一次有意义地拜访 .4.2.2 web挖掘引擎模块在 web事务
15、库中已经储备了数据预处理地结果 , 下一步就可以离线利用统计分析和聚类方法进行web事务库挖掘 .1)统计分析 统计分析是 web挖掘中最基本地方法 , 也是分析用户行为最常用地方法 . 通过记录学习者常常拜访地 url,跟踪统计同学拜访次数、总停留时间、该学习者地课程数、运算学习者对哪些课程停留时间较长等 , 得到学习者地学习特点风格 , 建立和完善 学习者学习模型 , 建立学习者个性数据库 , 为不同地学习者供应合适地学习策略供应帮忙 .2 )聚类分析 将物理或者抽象对象地集合分组成为类似地对象组成地多个类地过程称为聚类, 其目标就是在相像地基础上收集数据来分类 . 聚类分析不需要预先定义
16、类地特点或属性, 而是从用户地拜访行为中发觉潜在性地学问, 从而能更好地表达智能性 . 页面资源)聚类和同学聚类是实现个性化网络教案最为重要地两种方法 . 假如通过聚类发觉如干个网页属于同一网页资源)聚类 , 当同学拜访其中一页 资源)时 , 可举荐类中其它页面资源) . 当学习者具有相像地学习习惯或学习爱好时, 可以利用同学聚类法对他们供应相同地个性化服务.4.2.3 学问库应用模块应用统计分析、关联规章分析、分类和聚类技术和序列模式等挖掘算法对 web 事务库进行了挖掘和分析 , 其结果存放在学问库中 ,此时网站设计者可利用学问库中地信息和模式为学习者供应合适地学习策略和学习建议 , 进一
17、步改进网站结构 , 实现真正意义上地个性化信息服务 .5 结 语internet技术地进展和网络地普及扩展了数据挖掘地应用范畴, 利用 web数据挖掘技术对网络教案网站上地各种数据源进行挖掘, 把握用户地爱好 , 有助于开展网站信息推送服务以及个人信息地定降服务.参考文献1 冯春辉.web 日志挖掘在网络教案中地应用讨论 . 运算机技术与进展,2021,6.2 于飞, 丁华福, 姜伦.web 日志挖掘中数据预处理技术地讨论 .运算机技术与进展 ,2021,5.3 李中, 苑津莎, 徐小彩. 基于 web日志挖掘地客户拜访爱好分析. 华北电力高校学报 ,2021,5.4 苏新宁, 杨建林, 等. 数据仓库和数据挖掘 . 清华高校出版社,2006,4.5 李燕风.web 拜访信息挖掘系统 . 运算机工程 ,2003,29.8 许晓非, 高尚, 常桂然, 刘积仁. 基于 web地远程训练学习环境j.小型微型运算机系统 . 199909.9 卢守东, 刘颖. 基于 web地网络教案系统地设计与实现 j.科技信息 . 202114.10 吴长春. 利用 web技术实现对数据库地拜访 j.淮北煤师院学报 自然科学版 . 200004.