《学生一卡通消费大数据贫困生挖掘-精品文档.docx》由会员分享,可在线阅读,更多相关《学生一卡通消费大数据贫困生挖掘-精品文档.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学生一卡通消费大数据贫困生挖掘摘要:贫困生的赞助工作是当前高校学生管理的重要工作之一。随着大数据在各个领域广泛而深化的应用,善用大数据技术挖掘并认定贫困生,真正实现精准扶贫,是大数据在教育领域深度应用的体现。构建了学生主题分享数据仓库,设计了学生主题ETLExtractionTransformationLoading工作流功能架构图,选取学生主题应用场景之一贫困生精准赞助进行数据分析。获得了学生就餐习惯、消费行为、在校情况及消费指数和贫困生挑选等。为学校将来大面积、规模化和动态施行校园大数据,精准扶贫决策支持及学情分析打下了良好的基础。关键词:大数据分析;一卡通;贫困生认定;精准赞助随着高等教
2、育规模的迅速扩大,各个高校的贫困生数量也在不断攀升。教育部的一项调查显示,目前高校中存在经济困难的学生占在校学生的15%-30%1。因而,越来越多的研究关注怎样解决贫困生问题2。有的研究关注能否为贫困生争取有益的条件,例如国家层面的助学贷款;学校层面的校级奖学金和提供助学岗位等3;有的研究则借助信息技术的手段,建立贫困生信息管理系统,实现信息的登记、查询、计算和分析4。这些研究固然提高了贫困生管理工作的效率,但怎样通过分析这些数据得到一些知识或规律,进而帮助有关贫困生工作人员完善目前的贫困生赞助体系,制定合理科学的赞助政策是一项有重要意义的工作5。在这种驱动下,如今越来越多的研究把数据挖掘方法
3、引入到高校贫困生资格认证分析中。例如,采用改良的K-Means聚类算法对高校学生的校园卡消费数据进行分析,基于聚类结果计算每个学生的贫困程度,用来辅助高校赞助决策工作6;还有研究采用支持向量机SupportVectorMachine,SVM对学生校园一卡通的消费数据进行分析,将学生按贫困与非贫困分类,在高校赞助决策工作中给予一定辅助7。这些方法大多是在一个数据集上运用数据挖掘算法得出规则,挖掘的结果在一定程度上能够为贫困生认定工作提供辅助和决策。但没有系统的搭建全方位、统一的数据主题,以提升数据质量和分享程度,运算出更准确的结果进而更好地支持数据挖掘和决策。2015年召开的党的十八届五中全会明
4、确提出了施行“国家大数据战略8。在(2018年度国家自然科学基金项目指南)9专门开拓教育研究通道研究教育的难题,旨在推动以自然科学范式和手段,十分是让传统教育科学与信息科学、神经科学、认知科学相穿插,研究教育的基本理论和基础问题,支撑现代的教育。电子科技大学大数据研究中心-教育大数据研究所在贫困生精准赞助、图书推荐、成绩预测领域做了很多创始前沿性的工作10。文章正是在这种“数据驱动学校,分析变革教育的大数据时代背景下11,结合我校正在构建的数据资产管理平台,对主题数据进行全面梳理,搭建统一的学生数据主题,以提高数据分析结果。详细做法是采集一卡通系统736名学生近三个月的255822条就餐数据和
5、与学生主题相关的其他六大应用系统中的信息经过清洗并建模。通过对这些数据规模化的分析后运算出结果以支持贫困生决策。1学生主题数据建模早在2010年我校就引入了数据交换平台和分享库,在一定程度上解决了业务系统之间数据互联互通问题。但在实际建设经过中,它只是充当了数据交换中转站的角色。为了知足学校对数据挖掘和决策支持需求,需要构建校级数据仓库DataWare原house。通过数据仓库的建立,职能部门可对现有系统的数据进行有效的清洗和整合并加以重组,进而在此基础上做应用场景的分析。如以学生主题为例,我们把与学生主题有关的业务系统接入数据中心。如图1所示,通过数据整合及分层设计构建了学生主题域的数据仓库
6、。其中操作型数据存储层OperationalDataStore解决源系统快速接入的问题,避免从源系统做频繁和重复数据抽取;数据仓库层EnterpriseDataWarehouse根据业务驱动,面向主题整合,保留明细和历史数据并且模型相对稳定,但是会随着源系统和数据业务标准的变化,ETLExtractionTransformationLoading会随之变化。应用数据层是面向应用的个性化定制。构建好了一个主题模型框架后,需要在适当的时候逐步实现物理化。贫困生挖掘分析的ETL工作流功能构造如图2所示。图中选取了与学生信息相关的六大核心业务系统,经过ETL处理后以学号为主关键字把学生的信息整合成一张
7、表信息。以保证基于学生的消费数据模型进行贫困生挖掘分析的有效性。2学生消费数据建模经过学生主题数据仓库建模后,采集了学生一张表信息集,我们把涉及到学生消费数据建模所需要的数据集输入大数据分析专家软件Datist,并对敏感信息如身份证号脱敏处理以及对学生基本信息和就餐交易数据进行了从身份证中解析性别和籍贯信息和对交易记录中的日期进行数据预处理后,再添加就餐饭点信息和就餐星期信息以及设置条件“设在饭堂吃饭得到学生消费数据模型如图3所示。模型分析了长期不在饭堂吃饭、大额消费即单餐消费超30元和贫困生单月消费总额三种情况。Datist是服务于大数据时代场景式Context数据整合与融合的功能强大的软件
8、产品。该软件根据用户场景需求组织数据与编制业务流程,通过可视化的节点组合来完成数据的获取、组织、整合、提纯及有形化表达。图3是根据学生一卡通消费数据设计的业务流程。图中有输入节点即数据源:学生基本信息表和学生消费交易数据表等。输入节点后进入数据处理阶段,通过数据处理如汇总节点、过滤节点、大额消费数据即单餐消费超30元等节点处理后再经过各种输出节点输出结果。如有贫困学生单月消费总额、长期不在食堂吃饭等异常结果信息。部分处理的样例数据如表1所示。3学生就餐消费信息分析数据模型确立后,通过软件运算,对736名学生2016年9月9日-12月28日共111天的就餐数据进行分析,从中获取到学生的就餐习惯信
9、息。4.1学生消费异常分析下面分析是针对广州大学2016年9月-12月其中736名学生的三个月中就餐数据异常情况进行分析,由于数据量还没有足够大,异常分析结果可能存在一些偏差。3.1.1连续7日无就餐消费记录学生分析三个月份有连续7天没有消费记录学生共计435人,由于篇幅有限,无法列出所有学生具体信息,表2只列出前20名学生信息,对于这一部分长期不在食堂吃饭的学生建议需要关注。3.1.2大额就餐消费记录对于单笔消费超过30元的消费记录可能是校园内部其他消费,如超市消费,网费缴费或者医院缴费等,这些记录假如判别为医院消费,那将要对这些学生进行重点关注。分析的结果展示3050元之间的占大部分,50
10、100元次之,其他100200元之间的建议需要多关注。3.1.3消费指数分析通过对736名学生2016年9月-12月份,3个月份校园消费记录255822条数据进行综合分析,根据就餐频次、消费额度、每餐消费额、消费均值等给每名学生计算消费指数。消费指数具有相对意义,值越小消费水平越低。通过消费指数进行排序能够很快了解到学生的相关信息,由于篇幅限制,表3仅展示前10名学生信息。表中贫困生贫困程度的认定就是根据消费指数为根据的,如能够设置一个阈值,小于等于该阈值的认定为十分贫困,大于该阈值的认定为一般贫困。分析的数据集只采用了2016年9月-12月份三个月的736名学生255822条就餐消费数据进行
11、分析,获得了学生就餐习惯及消费指数。就餐消费数据分析能够到达两项目的,一是对学生生活现状进行分析;二是可系统地实现校园大数据,精准赞助,即是在贫困生中分析发现“潜藏的非贫困生;在非贫困生中发现那些确实很贫穷,但又不愿意讲的学生。从以上分析结果来看,通过“一卡通交易数据来对贫困生的贫困程度进行排名有比拟好的区分度,能够作为发放贫困生赞助的一个根据。为了准确的对学生进行画像,下面对今后分析提几点建议:1.本次大数据分析,只是学校做一个掀起实验性研究。只用了736多名学生3个多月的“一卡通的消费数据是远远不够的,将来用全校所有学生一个学年的数据进行综合分析,这样分析出来的结果更准确。2.通过获取全校
12、所有学生的“一卡通交易数据,这样能够对贫困生和非贫困生的基本情况进行比照分析,能够更好的了解贫困生的生活状况,可以以发现未申报贫困生的潜在贫困生的学生名单。3.通过获取更具体的“一卡通其他交易数据,比方“一卡通加款数据、“一卡通消费刷卡终端信息,这样就能够更好的识别交易类型,剔除那些非就餐交易。后续的分析能够利用学生的消费行为进行改良的RFM建模,利用贫困生名单进行机器学习分类建模,利用学生就餐顺序进行网络关系建模。4.获取教务系统数据,结合贫困生的学习状况进行综合分析,能够用有限的资金尽可能赞助贫困而学习成绩优秀的学生。5.学生心理行为分析和学情分析。如获取学生政治相貌数据,比方党员、预备党员、入党积极分子等信息,能够更好了解贫困生的思想进步情况。6.动态学情分析与贫困生挑选。贫困生的数据分析应该每月定期进行,动态跟踪贫困生的生活状况,把分析后得到的结果及时通过邮件或微信通知相关管理部门的不同岗位的相关人员,比方主管校长、学工部部长、赞助中心管理人员、各学院分管学生的书记、主管班级学生的辅导员等。十分是对前一年赞助的贫困生追踪动态分析,对原来不是贫困生,因家庭变故和疾病等成为贫困生的遴选。