《基于MOOCs大数据的学习分析和教育测量介绍_张羽.pdf》由会员分享,可在线阅读,更多相关《基于MOOCs大数据的学习分析和教育测量介绍_张羽.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第34卷第4期201 3年8月清华大学教育研究TSINGHUA JOURNAL OF EDUCATION Vol.34,Ncx 4 Aug.2013 基于MO OCs大数据的学习分析和教育测量介绍0 张羽李越(清华大学教育研究院,北京10 0 084)摘要:大规模在线开放课程区别于传统的远程教育和网络公开课,是基于课程与教学论以及网络和移动通讯技术发展起来的新兴在线课程形式。这类新型在线课程重在教学设计和研究,运用了丰富的教学模式,并采集网络大数据进行学习分析,以提高教学质量、完善网络课程系统。本文从大数据的定义和分析方法、学习分析和教育测量新思路、以及问题与挑战的 角度对此进 行介绍和探讨。
2、本文认为对网络课程大数据的分析和研究将大大推动教育测量和学习分析的发展,促进教育质量的提升,但面临的挑战和困难也不容忽视。关键词:大规模开放在线课程;大数据;学习分析;教育测量中 图分类号:G40-051 文献标识码:A 文章编号:10 01-4519(2 013)04-0 022-05 一、弓I言大规模在线开放课程(Massive Open Online Course,MO OCs)是基于课程与教学论以及网络和移动通讯技术发展起来的新兴在线课程形式。基于MOOCs的教学还包括翻转课堂和混合式教学,本文主要侧重网上学习环节所产生的大数据(big data)和教育测量形式。一方面,MO OCs为
3、解决稀缺优质教育资源问题、促进教育公平提供了新的可能性(2);另一方面,学校、教师和学习者更被MO OCs优化教学设计、提高学习效果以及促进自主学习和创新的潜质所深深吸弓|。MOOCs课程不仅在设计之初就参考教学论和学习理论的研究成果,更是在授课过程中不断采集学习者的各种数据,通过各种数据分析方法总结学习者特征、预测学习者下一步所需要的教学内容和形式,从而实现因材施教,达到传统实体课堂很难达到的效果。根据Gartner?公司2012年的最新定义,大数据具有如下三个特征:量大(Volume)、产生得快(Ve?locity)、多样(Variety)。第一,由于一门课程的学习者规模远远超出传统实体课
4、堂,可以达到上万人,甚至几十万人,因此样本量很大,而且很多文本和日志文件,往往超出典型的数据库软件所能捕捉、存储、管理和分析的数据量?。第二,大数据往往是在学习者学习过程中自然发生的数据,因此是即时产生,而不是事后花大量时间去搜集。第三,大数据的类型非常丰富详尽。例如,针对学习者在网络课堂环境中 的各个学习环节,都可以跟踪采集详细、精确的学习行为数据,包括看视频的时间长度、课堂测验的准确率和通过率、网络讨论的发帖数量和质量等,这样的数据在传统实体课堂中是很难精确采集的。基于这种网络课程数据库的分析,首先打破了传统的教育测量模式。传统的教育测量主要是对学习收稿日期:2 013-0 7_20 作者
5、简介:张羽,山东曹县人,清华大学教育研究院讲师,博士,研究方向为教育经济学、教育 政策评估、教育公平;李越,安徽巢湖人,清华大学教育研究院教授,研究方向为教育经济与管理、教育评估?本文的数据挖掘部分得到徐蔵博士和向睿博士的指导,特此致谢。苏艽,罗燕.技术神话还是教育革命?MO OCs对高等教育的冲击J.清华大学教育研究,2013,(4).http:/en.wikipedia.org/wiki/Big_data.MarieBienkowski,FengMing yu,Barbara Means,Enhancing Tea ching and Learning Through Educationa
6、l Data Mining and Learning Analyt ics:An Is sue Brief,”U.S.Department of Ed ucation,Offic e of Educatio nal Technology(2 012).基于MOOCs大数据的学习分析和教育测量介绍?23?结果的测量,最具代表性的测量方式就是标准化考试。但教师和未来的劳动力市场雇主并不了解学习者在学习过程中的表现,例如学习速度、领悟能力、与其他学习者的互动与合作等。网络课程所跟踪的数据则可以让教师更好地了解学习者的学习行为特征,让未来的雇主结合学习行为和学习结果更加全面地评估学习者。因此,MO O
7、Cs平台可以应用此类教育测量结果为高校的教授和研究机构、业界的雇主等推荐人才。例如,17岁的阿莫尔?巴韦(Amol Bha ve)来自印度贾巴尔普尔市。他在edX电路与电子学课程中的考试得分在前3%之列,因此被MIT录取。此外,这种对学习过程的评估极大的促进了学习分析(lear ning analytics)和教育数据挖掘(educa?tional data mining)的发展和应用。教师和教育研究者可以通过对过程性数据的分析总结学习者特征、预测学习者下一步所需要的教学内容和形式,从而实现因材施教,达到传统实体课堂很难达到的效果。例如:适应性学习系统就是建立在对学习行为的数据采集和分析基础上
8、,及时向教师反馈学习者的学习效果,并向学习者推荐下一步的学习策略(包括学习内容的难度、学习环节的形式和顺序等)。一、大数据的分析方法简介大数据的“量”是一个动态的主观标准:指的是超出典型的数据库软件所能捕捉、存储、管理和分析的数据量0)。随着软件和硬件技术的进步,对大数据量的大小也会有更新的定义。大数据区别于传统数据的地方有三:首先传统的数据是根据研究需要有目的地采集的变量,所采集变量都含有重要信息。而大数据里边的信息含量一般要低一些(大部分采集的数据没有什么用)。其次因为大数据的详尽性,里边总有有用的信息,可以通过数据挖掘等方法提炼出规律和知识。而我们很难从传统数据中提炼出超出研究设计的知识
9、。再次传统数据往往是抽样数据,通过样本推断整体。而大数据则是覆盖所有人,不需要再做这类推断。近年来,大数据像山洪一样流入全球各个领域,包括医疗、公共管理、零售业、制造业等。工厂生产的数字化、各类商业交易数据、个人智能手机、电脑等都在无时无刻地产生着呈指数增长的大数据。商业公司首先开始使用大数据来优化生产和交易 的各个环节并创造价值。在公共财政紧缩的时代,政府也开始利用大数据分析来提高效率、更好的分配和利用纳税人的钱。例如,麦肯锡在一份报告?中评估了大数据可以为美国医疗部门带来每年3千亿美元的收益并提高0.7%的生产效率;制造业对大数据的应用可以使产品发展和装配成本减少一半。大数据的分析方法比较
10、多,主要包括机器学习(machine learning)、数据挖掘(data mining)、预测模型(predictive modeling)、数据的可视化(data visualization)、分组比较、优化(optimiz atio n)等。其中,机器学习是“近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算机、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从已知数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物
11、特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DN A序列测序、语音和手写识别、战略游戏和机器人运用。,数据挖掘主要分为监督式学习(supervised learning)与非监督式学习(unsupervised le arning)。非监督式学习涉及关系分组(Af finity Gro uping,作关系性的分析)与购物篮分析(Market Basket Analysis)、聚类(Clustering)与描述(Description)等概念。监督式学习包括分类(Clas sification)、估计(Estimation)、MarieBienkowski,FengMingyu,
12、Barbara Means?“Enhancing Teaching and Learning Through Educ atio nal Data Min?ing and Learnir Analytics:An Issue Brief,U.S.Department of Educ ation,Offic e of Educational Technology(2 012).JamesManyika,Michael Chui,Br ad Brown,et al.,“Big data:The Next Frontier for Innovatio n Competitio n,and Produ
13、ctivity,McKinsey Glo bal Ins titute(2011).http:/zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0.?24?清华大学教育研究(2013年第4期)预测(Prediction)等。?预测模型则是通过建立模型来预测产出变量的过程。回归分析(Regression)是预测模型常用的一种方法。例如在教育数据挖掘中,我们可以建立学生行为模型,通过现有数据(已掌握的知识、动机、元认知、态度等)预测学生未来的行为。可以通过领域模型分析学习内容和最优的学习J猶序。还可以通过实验设计和回归模型评估不同的
14、教学法设计对学习效果的影响。可视化是分析大数据的一个有效途径。由于数据量很大,传统的统计报表很难清晰直观地反映数据的主要特征,而可视化则帮 助人们直观、快捷地从数据中发现规律。例如,标签云(tag cloud)是把文字加权可视化的一种方法。在大篇幅的文字材料中,出现次数越多的词汇字号越大,出现次数越少的词汇字号越小,从而让人们很容易识别出最突出的概念。对于课程讨论区的帖子的分析就可以使用这个方法。历史流(history flow)则可以把一个多人参与编写的文档的演变过程很形象地展示出来。MOOCs之所以被寄以变革教育的厚望,一个重要原因是当代科技的进步可以实现已有教育心理学和课程论对教学设计的
15、要求,并可以在大规模教学的同时实现因材施教。具体实现的方法就是学习分析(learning analytics)和教育数据挖掘。学习分析是一个跨学科的研究领域,涉及学习科学、心理学、信息科学、统计学、计算机科学等。学习分析的一个重点是监测和预测学生的学习表现,尽早发现问题并实施干预?。学习分析的重要研究工具包括因果推断?的计量方法和数据挖掘等。数据挖掘可以识别成功学生和失败学生(例如不及格)的特征差异,例如课堂测验的通过率、在讨论区的参与程度等。学习分析可以藉此设计更灵活的课程内容和形式来帮助可能不及格的学生?。虽然人们经常把学习分析和数据挖掘相提并论,但二者有着不同的侧重点。如果说教育数据挖掘
16、是把学习碎片化到一个一个的要素进行分析,学习分析则是从整个系统的角度出发帮助人们做学习/教学决策。教育数据挖掘侧重新的数据分析模型和方法,但学习分析则更强调利用已有的模型来回答影响学生学习系统和组织学习系统的重要问题。学习分析使得教师和学校可以根据学生的现有水平和能力量体裁衣、因材施教地为学生订制教育计划?。教育数据挖掘强调对学生进行系统自动生成的反馈,但学习分析则强调人性化量体裁衣,例如设计适应学生水平和能力 的教学内容、对于学习有困难的学生进行干预、提供反馈等。图1描述了学习者在MO OCs平台学习过程中教师和系统通过学习分析和数据挖掘对学习者进行的相应的课程内容和教学环节顺序的调整方案(
17、例如:_ unn,图1 MOO Cs的适应性学习系统降低内容难度、提供先修课程内容等另一方面,教?ht tp:/zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%9 8.EDUCAUSE.,“Next Generatio n Learning Challenge s:Learner Analytics Premises,“http:/www.educause.edu/Re-sourc es/NextGenerationLe arningChalleng/2150 2 8.参见:张羽.教育政策定量评估方法中的因果推断模型以及混合方法的
18、启示D.清华大学教育研究,2 013,(3).这也是诊断性评估的目的。L.Johnson,R.Smith,H.Willis,A.Le vine,and K.Haywo o d,The 2011 Horizon Report.Austin,TX:The New Media Consortium,http:/net.educause.edu/ir/libr ary/pdf/HR2 011.pd f.2011.例如:观看视频的时间、是否答对题目、答了几遍才答对、答题前的准备时间、答题时是否使用提示、是否参与课堂讨论区的讨论、交作业情况和作业得分等。二、基于MOOCs的学习分析和教育测量思路因材施教的
19、干预。首先,学习者对预先设计好的教学内容和形式进行学习和体验,在这个过程中,系统会监测和测量学习者的学习表现?,并产生大量数据。之后,一方面,系统会根据已有的数据挖掘结果对学习者的特征进行一个归类,并通过预测模型自动提出基于MOOCs大数据的学习分析和教育测量介绍?25?师和研究者基于数据挖掘结果和学习分析,对学习有困难的学生进行干预。可以说,这是一个基于教学设计的、以学习者为中心的、以证据(过程性测量和教育结果测量)为依据的适应性学习系统。学习分析对数据的要求包括结构化的数据和非结构化的数据、乃至多媒体数据。结构化数据往往指量化数据,包括作业和测验成绩、标准化考试成绩、学习过程中自然发生的诸
20、如时间、次数等数据。非结构化数据一般指量化的质性数据,包括讨论区的帖子,作业内容、小组报告的编写过程和内容等。这些数据构成了教育测量的新方向,例如文本挖掘(text mining)?过去的教育测量主要是对教育产出的测量,即考试分数。即便已有的过程性测量也是通过调査问卷让学生追忆的对学习行为的粗略描述。但基于MO OCs的教育测量则可以精确跟踪和记录学习者在网络平台学习实时发生的行为。这种教育测量质量的飞跃必然会带来教育研究质量和提升、研究范围的拓展以及研究深度的挖掘。表1教育数据挖掘和学习分析的主要应用应用领域研究问题所 需数据用户知识模型学生已经掌握了哪些内容(例如 具体的技能、概念、过程性
21、知识、高阶思维能力)?学生测验结果(正确、不正确、部分正确),答题前所需准备时间,是否需要提示,重复答错题目的次数、错选哪个选项学生运用到的能力基于在学习系统内的表现和标准化测验对学生学习表现的测量用户行为模型学生的行为类型对他们的学习意味着什么?学生是否有学习动力?学生测验结果(正确、不正确、部分正确),答题前所需准备时间,是否需要提示,重复答错题目的次数、错选哪个选项教室和学校环境的变化用户体验模型学生对他们的学习体验是否满意?问卷填答数据在后续学习单元和课程中的选择、行为和表现用户描绘学生可以被分为哪些类型?学生测验结果(正确、不正确、部分正确),答题前所需准备时间,是否需要提示,重复答
22、错题目的次数、错选哪个选项领域模型某 个话题 应该 在哪些节点上被 分成不同的模块?这些模块的讲授 顺序应该是怎样的?学生测验结果(正确、不正确、部分正确),以及学生在不同大小的模块中的表现领域模型分类学不同问题之间 的联系,以及能力和问题之间 的联系学习要素分析和教学原理分 析哪些要 素 有利于提 髙学习效果?哪些学习原理是有效的?整个的课程设计效果如何?学生测验结果(正确、不正确、部分正确),以及学生在不同大小的模块中的表现领域模型分类学不同 问题之间 的联系,以及能力和问题之间的联系趋势分析随时间变化的趋势是怎样的?取决于研究者感兴趣的信息,一般至少要有三个时间点的数据数据包括:入学信息
23、、生源信息、学位、完成情况、高中信息等适应性和个性化对于学生的下一步学习行动有什么建议?对于后续选课学生,应如何改善他们的学习体验?应该如何对学生的学习体 验进行即时调整?取决于所提建议的领域关于学生、课程的历史数据学生学业表现数据来源:Bienkowski et al.(2012)?26?清华大学教育研究(2013年第4期)Bienkowski等人列出了教育数据挖掘和学习分析的主要应用,见表1。此外,越来越多的MOOCs 嵌入了教育视频游戏或虚拟实验室环境作为学习和实践的网络平台。学生在玩教育视频游戏时会自然产生大量日志文件,我们也可以用数据挖掘和学习分析等方法对这种数据进行分析,从而对学生
24、的表现和特征进行评估,对后续的教学环节进行改进。三、挑战和展望尽管基于MOOCs的大数据分析给我们展现了一幅提高教育质量的美好蓝图,但实现这一系列的数据采集和分析面临着政策和技术两方面的挑战。在政策方面,首先要解决的是大数据挖掘和学习分析的分析者和管理者的严重匮乏。据麦肯锡报告?估算,美国本土各个行业总共缺少1419万髙端数据分析专家,并缺少150万的大数据分析员和管理者。教育领域的数据挖掘起步较晚,中国的教育数据挖掘更是刚刚开始,因此人才缺乏是一个重要的 限制。政策制定者和机构管理者应该及时制定激励和支持措施,培养和吸引大数据分析者和管理者投身到教育研究中来。尤其是培养一批懂教育的计算机技术
25、员和懂计算机的教育学家,让这两个传统上截然不同的学科进行交叉,也是一个很重要的挑战。其次,是数据共享的政策保障。把MOOCs大数据库与机构的学生信息数据库、教师信息数据库、各类考试成绩等合并是数据管理和研究的趋势,因为这将帮助我们对学习者做出整体的 系统的分析。但是,这个任务非常艰巨,需要从政策层面上激励和保障各个部门的配合。再次,个人隐私保护是实现数据采集和分析的重要前提条件。建立这样巨大的数据库,对每个学习者有着从个人背景到学习行为到最终学业表现的详细信息。一旦在个人隐私保护方面出现问题,数据挖掘和学习分析则面临巨大的法律和道德压力。最后,由于大数据分析和传输对硬件和软件的要求很高,为了保
26、证教育数据的挖掘和学习分析的顺利进行,还应该保证有足够的硬件和软件资源。在技术方面,如何实现数据共享?、如何实现隐私保护、如何把上述学习分析很好的嵌人到MOOCs 系统中,帮助教师和教育管理者实现因材施教等理念?这都是亟待解决的问题。Learning Analytics and Ed ucation As ses sment Based on Big Data Gene rated by MO OCs ZHAN G Yu LIYue(Institute of Education f Tsinghua University f Beijing 9100 084)Abstra ct:MO OCs
27、emphasize cour se design and resear ch,employ divers e teaching styles,and col?lect big data for le arning analytics to improve teaching quality and the online course system.This paper discusses the definition and analysis of big data,new ideas of le arning analytics and education assess?ment,and pr
28、oblems and challenge s.I t concludes that studies on online cours e big data wi ll significantly improve the development of education assessment and learning analytic s,as well as education quality.Meanwhile,however,the challenge and dif ficulties cannot be ignored.Key words:MOOCs;big data;learning
29、analytics;education asses sment Marie Bienkowski,FengMingyu,Barbara Me ans,“Enhancing Teaching and Learning Thro ugh Educational Data Min?ing and Learning Analytics:An Is sue Brie f,”U.S.Department of Education,Office of Educational Technology(2 012).D.Kerr and GREGORY K.W.K.CHUNG,“Identifying Key F
30、eatur es of Student Performanc e in Educational Video Games and Simulations through Cluster Analysis,Journal of Educational Data Mining 4,1(2 012):144-182.JamesManyika,Michael Chui,Brad Brown,et al.,“Big data:The Next Frontier for Inno vation,Competition,and Productivity,McKinsey Global Institute(2 011).各类数据分布在不同的部门和系统中,而且数据格式也不一定一致。因此,实现不同系统、部门之间的数据库 合并以及数 据格式的标准化也是亟待解决的问题。