一、数据预处理
数据预处理是对数据分析对象进行方法处理。为实验过程提供简洁、适合的数据, 提高实验的效率跟准确性, 因此数据预处理在实验过程中是非常重要的环节。在日常生活中数据是很杂的, 属性不同, 因此为了得到更好的分析效果, 研究中我们采用数据预处理[1]这一技术来处理考试成绩数据。本文研究主要针对的是考试成绩数据, 而考试成绩有两类:数值型与非数值型。如学生的考试成绩: (1) 数值型成绩 (如80、78、90等) 。 (2) 非数值型 (包括“合格”、“优秀”;“A”, “B”等) 。为了更好的处理该类考试数据, 就要对该类数据进行处理。目前数据预处理主要有:数据选择、数据清理、数据集成等。在研究中对数据进行处理后, 有效降低了算法匹配时间[2]。
(一) 数据清洗
实际生活中的数据并不是标准的、统一的。需要我们对数据进行数据清理, 比如对数据的缺失值填充、数据的转换等。目的是使数据标准化、归一化。
这里我们只举空缺值的处理:考试数据肯定存在缺失的, 比如一门学科中有部分考生缺考的, 那么该部分考生的成绩就为空缺值了。此时我们可以用手工填写空缺值、用一个固定常量填充缺失值、用该成绩的平均值填充缺失值等方法处理。
(二) 数据集成
大量考试数据集的数据源往往来自多渠道, 因此, 在实验之前必定要合并所有数据源的数据。那么, 若这些数据不适合我们所用方法, 我们就要采用数据集成中的数据转换方法[3]来解决该类问题。在研究中, 对数据预处理主要解决的问题有:缺失值处理, 格式标准化。对于考试数据缺失值我们采用0填充, 比如:一门学科中的缺失值我们就置零;对于格式标准化, 我们采用了一种基于二进制编码的方法来对考试成绩数据进行处理。
二、基于二进制编码的数据转换
在实际研究中我们为了得到更精准的基于二进制编码处理[4]的考试成绩, 针对考试成绩属性不同, 我们需要把学科成绩“标准化”。给出一个长度为n的数值T及长度为m的数值P;T, P都属于有限集合Z, 所谓字符串匹配是从P中找到所有的变化趋势与T相同的子字符串。这里的T是我们的模式集合, P是考生的成绩集合。本文采用一种新的基于二进制转换与编码的数据预处理方法。该方法的思想是: (1) 数值型数据, 按公式 (4-1) 把P, T分别转换成二进制编码P*, T*。 (2) 非数值型数据, 该研究中我们规定:“A”>“B”>“C”>“D”, “优秀”>“良”>“及格”>“不及格”。再按公式 (4-1) 转换。
三、结束语
本文针对考试成绩数据存在不统一, 不标准的问题, 提出了一种基于二进制编码处理的方法对考试成绩数据进行标准化、科学化;实验结果充分表明基于二进制编码的考试成绩数据分析, 有效地减少考试成绩数据的缺失, 使考试成绩数据类型统一, 标准, 科学;提高了对考试成绩数据分析的准确性, 合理化。
摘要:针对当前考试成绩数据类型不统一的问题, 提出了一种基于二进制编码的方法对考试成绩数据进行处理;对处理后的二进制编码进一步使用对应算法对其进行分析与研究。分析结果表明基于二进制编码的方法, 对不统一的考试成绩数据进行了标准化, 使对考试成绩数据分析更方便、科学。
关键词:考试成绩数据,标准化,二进制编码
参考文献
[1] 楼巍.面向大数据的高维数据挖掘技术研究[D].上海:上海大学, 2013.
[2] R.Clifford, C.S. Iliopoulos. Approximate string matching for music analysis[J]. Soft Comput, 2004, 8 (9) :597-603.
[3] 欧嵬, 吴纯青.几种字符串匹配算法的分析和比较[J].微处理机, 2007, 28 (4) :59-61.
[4] 陈文伟, 赵侠, 黄金才.进化创新的绕行变换[J].广东工业大学学报, 2017, 34 (1) :1-5.
[5] 高飞.关联规则挖掘算法研究[D].西安:西安电子科技大学, 2001.
【一种基于二进制编码的考试成绩数据分析】相关文章:
一种基于主动学习的稀疏自编码算法09-22
一种基于提升小波的改进EZW图像编码方法研究与仿真09-11
基于大学生考试成绩相关性分析,探索课程体系构建问题——以四川大学锦城学院旅游管理专业为例09-11
基于网络编码的协作分集技术研究01-27
一种基于webservices的数字化校园中共享数据中心的建立12-21
基于哈夫曼编码的图像压缩技术研究11-15
一种基于ARMA模型的移动通信网管数据挖掘系统设计方法09-12
从考试成绩的分析探讨高等数学的教学效果09-11