一种基于二进制编码的考试成绩数据分析

2022-09-12

一、数据预处理

数据预处理是对数据分析对象进行方法处理。为实验过程提供简洁、适合的数据, 提高实验的效率跟准确性, 因此数据预处理在实验过程中是非常重要的环节。在日常生活中数据是很杂的, 属性不同, 因此为了得到更好的分析效果, 研究中我们采用数据预处理[1]这一技术来处理考试成绩数据。本文研究主要针对的是考试成绩数据, 而考试成绩有两类:数值型与非数值型。如学生的考试成绩: (1) 数值型成绩 (如80、78、90等) 。 (2) 非数值型 (包括“合格”、“优秀”;“A”, “B”等) 。为了更好的处理该类考试数据, 就要对该类数据进行处理。目前数据预处理主要有:数据选择、数据清理、数据集成等。在研究中对数据进行处理后, 有效降低了算法匹配时间[2]。

(一) 数据清洗

实际生活中的数据并不是标准的、统一的。需要我们对数据进行数据清理, 比如对数据的缺失值填充、数据的转换等。目的是使数据标准化、归一化。

这里我们只举空缺值的处理:考试数据肯定存在缺失的, 比如一门学科中有部分考生缺考的, 那么该部分考生的成绩就为空缺值了。此时我们可以用手工填写空缺值、用一个固定常量填充缺失值、用该成绩的平均值填充缺失值等方法处理。

(二) 数据集成

大量考试数据集的数据源往往来自多渠道, 因此, 在实验之前必定要合并所有数据源的数据。那么, 若这些数据不适合我们所用方法, 我们就要采用数据集成中的数据转换方法[3]来解决该类问题。在研究中, 对数据预处理主要解决的问题有:缺失值处理, 格式标准化。对于考试数据缺失值我们采用0填充, 比如:一门学科中的缺失值我们就置零;对于格式标准化, 我们采用了一种基于二进制编码的方法来对考试成绩数据进行处理。

二、基于二进制编码的数据转换

在实际研究中我们为了得到更精准的基于二进制编码处理[4]的考试成绩, 针对考试成绩属性不同, 我们需要把学科成绩“标准化”。给出一个长度为n的数值T及长度为m的数值P;T, P都属于有限集合Z, 所谓字符串匹配是从P中找到所有的变化趋势与T相同的子字符串。这里的T是我们的模式集合, P是考生的成绩集合。本文采用一种新的基于二进制转换与编码的数据预处理方法。该方法的思想是: (1) 数值型数据, 按公式 (4-1) 把P, T分别转换成二进制编码P*, T*。 (2) 非数值型数据, 该研究中我们规定:“A”>“B”>“C”>“D”, “优秀”>“良”>“及格”>“不及格”。再按公式 (4-1) 转换。

三、结束语

本文针对考试成绩数据存在不统一, 不标准的问题, 提出了一种基于二进制编码处理的方法对考试成绩数据进行标准化、科学化;实验结果充分表明基于二进制编码的考试成绩数据分析, 有效地减少考试成绩数据的缺失, 使考试成绩数据类型统一, 标准, 科学;提高了对考试成绩数据分析的准确性, 合理化。

摘要:针对当前考试成绩数据类型不统一的问题, 提出了一种基于二进制编码的方法对考试成绩数据进行处理;对处理后的二进制编码进一步使用对应算法对其进行分析与研究。分析结果表明基于二进制编码的方法, 对不统一的考试成绩数据进行了标准化, 使对考试成绩数据分析更方便、科学。

关键词:考试成绩数据,标准化,二进制编码

参考文献

[1] 楼巍.面向大数据的高维数据挖掘技术研究[D].上海:上海大学, 2013.

[2] R.Clifford, C.S. Iliopoulos. Approximate string matching for music analysis[J]. Soft Comput, 2004, 8 (9) :597-603.

[3] 欧嵬, 吴纯青.几种字符串匹配算法的分析和比较[J].微处理机, 2007, 28 (4) :59-61.

[4] 陈文伟, 赵侠, 黄金才.进化创新的绕行变换[J].广东工业大学学报, 2017, 34 (1) :1-5.

[5] 高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学, 2001.

上一篇:项目驱动教学在高职数据库教学改革中的应用下一篇:鼻内窥镜下治疗非侵袭性真菌性鼻窦炎27例临床分析