基于大数据的成绩可视化分析与研究
0 引言
“大数据”是指大量的结构化和非机构化的数据,它无法用常规的软件进行处理,需要新的处理手段来处理这些海量的、高速增长的数据[1]。
大数据技术主要包括海量数据的获取以及数据统计分析和挖掘两部分内容[2]。大数据在各行各业发挥着重要作用,而如何利用大数据技术来提高高校教学管理者的教学管理水平是高校面临的一个重大课题。运用大数据技术可以挖掘出现实生活中不易察觉的较为深层次的信息,通过这些信息,进而为人们提供决策支持[3]。
大数据技术[4]可运用在学生成绩的分析过程中,通过大数据技术,可快速准确地对学生成绩进行可视化分析,从而对学生的学业提供帮助及指导。同时,根据可视化分析,可为教学管理者提供教学管理依据。截至到目前,将大数据技术运用在学生可视化成绩分析的学者越来越多,其已成为学习方法评价的有效手段。以往的学习成绩分析往往是根据传统的统计知识进行简单的统计图分析,或者采用常见分析工具SPSS、SAS 等进行分析[5]。本文依据大数据技术,从班级、课程等多维度进行成绩的相关性、词云分析等其他指标分析,通过一系列的可视化分析进而为教学管理者及学生提供服务基础。
1 数据准备
1.1 数据抽取
本文所采用的数据选取某高校一个学院全部本科生的期末成绩作为基础数据集。从教务系统中抽取某学院在2018-2019学年第二学期的期末考试必修课成绩数据信息,数据信息包括:学生基本信息表、班级信息表、课程成绩信息表。其中,涵盖了该校某学院的15 级、16 级、17 级、18 级学生,共1227 个学生,24个班级,30 门课程,46 名教师信息。学生课程成绩基本信息主要包括各个考试科目的平时成绩、期末卷面成绩,总评成绩等信息。
1.2 数据预处理
对抽取的数据进行探索分析,发现抽取的数据集存在缺失值数据,数据缺失的原因一方面可能是授课老师还未在教务系统中录入学生成绩,另一方面可能是在数据抽取过程中而导致的缺失,缺失值往往不能忽略处理,而处理缺失值最常用的方法有三大类:删除记录、数据插补和不处理[6]。本文采用拉格朗日插值法对抽取的缺失值数据集进行差值处理,补全缺失数据。
2 数据可视化分析
本文实验采用BI分析平台,从各个维度对学生成绩进行分析,具体分析内容为:分别以学院的班级、课程为指标对平时成绩、期末卷面成绩、总评成绩进行可视化分析;另外,对总评成绩的不及格率按照课程为粒度做词云分析,通过分析进而为学生学业提供指导建议,为教学管理者提供决策支持。
2.1 分析不同班级成绩评定情况
通常,课程的总评成绩包括平时成绩和考试成绩两部分,一般情况下总评成绩是二者的加权之和。用total表示总评成绩,tp表示平时成绩,tk表示考试成绩,wp和wk分别表示tp和tk的权重,其中wp+wk=1,那么,总评成绩的公式表示如下[7]:
为了更直观的分析课程成绩评定特点,本文引用了学生成绩评定指标,用pk表示,用平时成绩与期末考试成绩的比值作为评定指标的依据,如以下公式所示:
若pk=1,表示平时成绩与考试成绩基本相同;若pk> 1,表示平时成绩明显高于考试成绩,若pk< 1,表示平时成绩明显低于考试成绩,pk越小,表示平时成绩越低于考试成绩[7]。
将学生的平时成绩、期末考试成绩、总评成绩进行归一化处理(即将平时成绩、期末考试成绩、总评成绩除以一百),在引入学生成绩评定指标时,分析不同学生班级的成绩评定情况,如图1所示。
图1 不同学生班级成绩评定情况
从图1 可看出,每个班级的成绩评定指标基本都大于1,说明平时成绩普遍高于期末考试成绩,且大多数班级的成绩评定指标介于1.4 至1.6 之间,还有少部分班级的成绩评定指标介于1.2 至1.4 之间。从归一化的成绩亦可反映上述问题,平时成绩的趋势线高于总评成绩高于期末成绩。图1可以清晰的反映每个班级的成绩评定指标规律。
2.2 基于雷达图分析不同课程的成绩分析趋势
以每个课程的成绩作为样本画雷达图,得到雷达图如图2所示,从雷达图的横纵轴两个维度进行分析,横向比较不同课程成绩的分布区域,了解每门课程的教学状态;纵向可看出平时、期末、总评成绩的走势,便于任课老师针对性的开展教学工作。
图2 不同课程成绩分布雷达图
下一篇:没有了