《教育事业统计数据质量分析与工具开发.docx》由会员分享,可在线阅读,更多相关《教育事业统计数据质量分析与工具开发.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教育事业统计数据质量分析与工具开发摘要:教育事业统计工作是教育行政部门的一项重要工作,对教育数据的分析和决策起到至关重要的作用。黑龙江省教育厅为更好地适应省情,组织人力物力开发了具有地方教育特色的统计数据质量分析与核查工具软件,该软件作为国家教育部教育事业统计软件的辅助补充,在实际应用经过中发挥了宏大作用。笔者通过软件的开发,不断研究探索,积累了很多开发此类软件的珍贵经历,其中一些方法系初次提出和运用,对于开发类似项目具有非常重要的参考价值。关键词:教育事业统计;数据核查;C#;数据库教育事业统计工作是国家统计工作的重要组成部分,承当教育活动中各种数据的收集、整理、编报和分析等重要任务。现如今
2、,在大数据广泛应用的时代,高效科学地分析整理教育数据显得至关重要。开发适用于各级教育行政部门的教育事业统计软件,能够最大程度上减少人工整理分析数据的工作,提高工作效率,加强工作效果。根据黑龙江省教育厅教育事业统计工作的详细要求,结合实际情况,在省教育厅人员的直接指导和介入下,我们编制开发了具有特色的教育事业统计数据质量分析与核查工具。该软件既能够统计分析本省各级教育行政部门和教育单位呈报的教育统计数据,又能够在统计数据上报教育部之前对全省统计数据进行核查。该软件是对教育部教育事业统计软件的有力补充和拓展,能够针对学校层级进行数据的分析、整理,根据我省实际情况动态调整统计内容,能够极大地方便我省
3、教育事业统计工作的进行,愈加高效、准确地进行数据分析、决策、规划、上报。1软件的设计语言与数据库在开发软件初期,会同相关专家进行了一系列论证,最终决定采用比拟流行的C#语言进行编写。C#是专门为.NET应用而开发出的语言,.NET框架的各种优点在C#中表现得淋漓尽致。之所以采用C#编写,主要是由于本软件是配合教育部教育事业统计软件使用,增加一些符合省情的自行编制的校验核查条件,更好地适用于本省教育现状,有利于提高数据质量。由于教育部教育事业统计软件使用WPFforC#技术进行研发,所以本软件也采用一样语言和框架技术开发,这样安装和使用的运行环境完全一样,降低软件操作难度,减少操作者使用中的困扰
4、,便于管理员解决问题。在数据库应用方面,本软件采用了独特的双数据库驱动的设计形式,即采用微软公司的大型数据库软件SQLserver2008和轻量化的MicrosoftOfficeAccess2010。SQLServer2008版本能够将构造化、半构造化和非构造化文档的数据直接存储到数据库中,能够对数据进行查询、搜索、同步、报告和分析之类的操作。MicrosoftOfficeAccess是微软把数据库引擎的图形用户界面和软件开发工具结合在一起的一个数据库管理系统,使用起来快速、简单易用。2软件的构造框架开发的教育事业统计数据质量分析与核查工具分为高等教育、中职教育、基础教育三个数据核查校验模块。
5、每个模块主要包含上下年指标比照、经历校验、逻辑校验三部分,可实现对设定的数据范围进行三种数据合理性校验,校验的SQL脚本通过外置文件的形式动态加载到程序中,具有修改方便、操作灵敏、维护简易等特点。配合三种数据范围进行当前数据库的实时代码维护提取。另外根据实际工作的需要,软件还增加了审核数据表和专家审核表的导出功能,能够审核后进一步分析审核数据,也方便了专家构成审核意见,反应到教育行政部门和相关院校。软件结合教育部软件及兄弟省份开发的软件特点,构成了具有一定省情特色的分校一览表,该一览表为教育行政部门分析数据,指导教育发展提供了便利。3软件的开发特点与技术要点3.1外置SQL脚本,方便管理与维护
6、本软件的主要功能是对各高等院校、中职学校、基础教育中的中小学校、幼儿园等一些教育指标进行核查校验,发现人为原因造成的填表错误和个别数据不够真实准确的情况。由于核查工作中可能会根据专家意见,随时调整查询脚本,修改查询条件,假如简单地将SQL查询脚本内置于软件代码中,会造成修改难度大,不易及时修正等问题。另外,软件中的三个教育层次的校验脚本:指标比照、经历校验和逻辑校验,其查询脚本代码均不少于1000行,个别校验脚本到达了3000行以上,假如将脚本代码混入程序代码中,势必造成编写的程序可读性下降,不便于维护,也降低了程序加载运行的效率。外置脚本可采用数据库存储和独立文件形式,由于核查校验的数据库脚
7、本文件由具备编写能力的教育统计专家编写,为了方便和程序结合,本软件采用了外置独立文件的形式存储SQL脚本。3.2分享数据库技术和双数据库驱动设计本软件之所以选用SQLserver2008作为主要的数据库系统,是由于教育部教育事业统计软件使用了该数据库存储数据,采用分享数据库表和视图进行编程,可有效解决数据的异常和操作中可能引起的数据不同步问题。操作省级数据时,由于数据量非常宏大,操作耗时较长,在机器配置较低的硬件环境下,极易造成操作无响应或者人为错误中断的情况。假如不使用分享数据库,很难保证操作结果的准确性,也就失去了应用该软件的意义。同时,也为了避免污染数据库数据,设计成尽量只从SQLser
8、ver2008数据库中读取数据,操作结果数据和软件配置等数据信息另外保存在轻型数据库MicrosoftOfficeAccess中。使用MicrosoftOfficeAccess,主要是考虑环境的配置方法简单,易于用户使用,减少软件培训。对于SQLserver2008数据库的临时写操作利用临时表空间,并且在使用中判定能否清理好环境,以防操作异常造成临时数据表留存,影响后续操作。3.3多线程后台操作EXCEL表由于查询校验的结果需要导出EXCEL表格,以方便专家查看和反应,因而软件需要在后台导出数据到EXCEL表格中。当软件操作EXCEL时,用户主界面会出现卡顿现象,容易使用户误以为软件无响应而关
9、闭软件。为此采用多线程处理方式,改善用户使用体验。同时将EXCEL设置为隐藏启动,让用户发觉不到后台启动了EXCEL,进而使软件更易于操作和使用。3.4DataGrid控件虚形式填充数据技术系统中需要使用DataGrid控件来显示数据,采用直接将查询数据填充到控件的方法固然能够运行,但是由于查询返回的数据量有时候非常宏大,造成显示速度极慢,界面卡顿,用户体验不好。考虑到系统使用场景中的数据量,所以只能使用虚形式(VirtualMode)来填充。编译运行之后,果然显示速度非常快,用户几乎无法发觉它的填充时间,这是由于虚形式只填充当前窗口中需要显示的那一小部分数据,实时根据滚动条位置刷新数据,并不
10、是像逐条填充和数据源绑定时一次性将数据填充完成再显示,显示速度有了大幅提升。3.5超多数据列处理技术软件提供了生成分校一览表的功能,该功能更有效地帮助教育行政部门分析信息数据,做出指导和决策。在生成高等教育分校一览表经过中,由于高等院校相关数据很多,使生成的表格数据列有1500列之多,因而带来了一个数据库表的数据列超出数据库限制的问题。本软件采用SQLserver2008数据库和MicrosoftOfficeAccess数据库双数据库编程,SQLserver2008数据库单张数据库表的最大列数为1024列,MicrosoftOfficeAccess单张数据库表最大列数则更少,只要255列。怎样
11、解决这个问题呢?经过分析论证和大量参阅资料,笔者最后确定使用拆分查询的方法,将查询结果超出1024列的查询操作一分为二,分两次进行查询,查询结果分别存储在两张SQLserver2008数据库表中,然后再以后台操作的形式依次导出到EXCEL表格中。由于EXCEL的一张EXCEL表能够有16384列,所以能够完全包容所导出的数据信息。3.6精准耗时显示,掌控数据处理工作量软件执行查询校验是比拟耗时的操作,比方执行基础教育的逻辑校验,一个地市教育行政部门的数据平均查询耗时在3-4分钟左右。这个操作假如让操作者默默等待,极易造成误以为软件无响应,终止软件运行的错误操作。一般软件在解决这一问题时,多数是采用进度条显示方式,但是笔者以为这个查询操作耗时仅通过进度条并不能精准反映实际的耗时情况,为此决定使用数字秒表计时的编程方法,使用这个方法又涉及到了多线程问题。经过探索、实验、编写代码,利用该方法收到非常好的效果。本软件经过实际的运用,收到了预期的效果。前期的理论分析和系统设计比拟详尽,贴合实际,是软件成功开发并得到应用的详细保障。