一种基于二进制编码的考试成绩数据分析

2022-09-12

一、数据预处理

数据预处理是对数据分析对象进行方法处理。为实验过程提供简洁、适合的数据, 提高实验的效率跟准确性, 因此数据预处理在实验过程中是非常重要的环节。在日常生活中数据是很杂的, 属性不同, 因此为了得到更好的分析效果, 研究中我们采用数据预处理[1]这一技术来处理考试成绩数据。本文研究主要针对的是考试成绩数据, 而考试成绩有两类:数值型与非数值型。如学生的考试成绩: (1) 数值型成绩 (如80、78、90等) 。 (2) 非数值型 (包括“合格”、“优秀”;“A”, “B”等) 。为了更好的处理该类考试数据, 就要对该类数据进行处理。目前数据预处理主要有:数据选择、数据清理、数据集成等。在研究中对数据进行处理后, 有效降低了算法匹配时间[2]。

(一) 数据清洗

实际生活中的数据并不是标准的、统一的。需要我们对数据进行数据清理, 比如对数据的缺失值填充、数据的转换等。目的是使数据标准化、归一化。

这里我们只举空缺值的处理:考试数据肯定存在缺失的, 比如一门学科中有部分考生缺考的, 那么该部分考生的成绩就为空缺值了。此时我们可以用手工填写空缺值、用一个固定常量填充缺失值、用该成绩的平均值填充缺失值等方法处理。

(二) 数据集成

大量考试数据集的数据源往往来自多渠道, 因此, 在实验之前必定要合并所有数据源的数据。那么, 若这些数据不适合我们所用方法, 我们就要采用数据集成中的数据转换方法[3]来解决该类问题。在研究中, 对数据预处理主要解决的问题有:缺失值处理, 格式标准化。对于考试数据缺失值我们采用0填充, 比如:一门学科中的缺失值我们就置零;对于格式标准化, 我们采用了一种基于二进制编码的方法来对考试成绩数据进行处理。

二、基于二进制编码的数据转换

在实际研究中我们为了得到更精准的基于二进制编码处理[4]的考试成绩, 针对考试成绩属性不同, 我们需要把学科成绩“标准化”。给出一个长度为n的数值T及长度为m的数值P;T, P都属于有限集合Z, 所谓字符串匹配是从P中找到所有的变化趋势与T相同的子字符串。这里的T是我们的模式集合, P是考生的成绩集合。本文采用一种新的基于二进制转换与编码的数据预处理方法。该方法的思想是: (1) 数值型数据, 按公式 (4-1) 把P, T分别转换成二进制编码P*, T*。 (2) 非数值型数据, 该研究中我们规定:“A”>“B”>“C”>“D”, “优秀”>“良”>“及格”>“不及格”。再按公式 (4-1) 转换。