浅谈数据挖掘在高等学校招生中的应用

2023-01-09

一、引言

目前高等学校在招生过程中首先努力提高的是报到率, 其次是生源质量;报到率与生源质量的高低又归结于各高等学校如何合理地在各省、市、自治区投放招生计划, 合理地设置专业, 重点地开展有效的招生宣传。传统的做法是以过去的经验投放招生计划, 具有一定的自我性和盲目性, 仅凭有限的个人经验无法将招生信息最大化, 更别谈报到率及生源质量。现在传统的关联规则数据挖掘技术己广泛应用在生物医学、金融数据分析、电子商务、电信业中并取得很大成效, 但利用基于熵值离散法和关联规则集成算法的数据挖掘技术对招生信息进行分析处理以发现有用的信息, 目前还缺乏研究开发, 数据挖掘技术在这方面的应用还没有得到应有的重视。针对这种情况, 本文提出一种高等学校招生数据挖掘系统。

二、数据预处理

本系统数据由甘肃某民办高等学校提供, 数据源包括:2012年招生信息、2013年招生信息、2014年招生信息。

本系统数据源中, 需要进行泛化的属性主要是所学专业、籍贯以及考生类别等。因为进行泛化的操作和实际应用紧密联系, 需要根据实际应用进行泛化, 确定泛化所要概括的层次和高度。根据被泛化属性的性质不同在进行泛化处理时选择不同的操作方式, 一般包括两种:有参方法和无参方法。有参方法是在进行泛化时根据实际需求确定一个模型来对数据进行评估, 设定若干个参数, 把数据集中的相应属性值用参数代替, 代替后的数据与原数据只有意义上的关联, 而在表象上不存在关联。上面的关于籍贯的例子采取的就是有参规约方法;无参方法包括聚类、直方图、选样等实现技术。

对非连续性数据的数值规约采用泛化技术, 对于连续型数据进行规约采用离散化技术。离散化要执行的操作就是把原本没有明确分割界限的连续数据划分成少量的区间, 使得每个元组的相应属性值都能落入某个区间中, 再把每个区间映射到一个特定的离散符号。

离散化操作分两个步骤进行:第一步分割区间的确定;第二步对分割完成后生成的有限个数的区间的表述。

三、实验结果与分析

本系统采用VC6.0和Access开发实现, 所有数据源经过初步处理后存放在数据库。在进入系统的主界面时进行身份验证, 输入用户名和密码, 当用户名和密码输入超过3次, 用户权限被收回, 系统自行退出。进入系统后, 可以查看各个字段。在学生信息管理模块中, 可以查询2006、2007、2008年度学生的高考信息。

(一) 频繁项目集

(1) 考生籍贯:南京考生、无锡考生、苏州考生的生源居多。3年总招生人数为4000人, 南京考生、无锡考生、苏州考生数占总招生数比率为:30%、32%、27.5%, 合计招生率为89.5%。这些比率说明苏南考生占学校总招生绝大多数, 苏南考生的报考情况对招生工作有重要的影响。

(2) 考生报考专业:商学院、机电学院、人文学院、信息学院的生源居多, 是考生报考的热门专业。商学院的专业主要包括:会计学、市场营销、国际经济与贸易、金融学等。机电学院的专业主要包括:电气工程、机电一体化、机械设计及其自动化、自动化等。人文学院的专业主要包括:行政管理、高级秘书、现代文秘等。信息学院的专业主要包括:计算机科学与技术、电子信息工程、计算机网络等。根据现今就业市场的趋势, 上述4个学院的就业形势较好, 考生报考自然增多。这给以后招生工作带来了新的方向, 大力开设商学院、机电学院、人文学院、信息学院的相关专业, 以满足考生的需要。

(3) 考生类别:城市应届考生、农村应届考生居多。反过来, 城市往届与农村往届考生较少, 也就是说今年没考上的考生, 来年报考该校的机会大大减少。该校应该把焦点放在应届考生身上, 关注他们的需求, 才能为以后的招生工作带来更大的进步。

(4) 考生性别:女生大大超过男生。这条信息引导以后的招生应该将女生的比例放大, 男生的比例缩小, 更好地满足招生计划和需求。

(5) 考生籍贯与报考专业的关系。南京考生报考专业, 首选商学院, 其次机电学院。无锡考生报考专业, 首选信息学院, 再次人文学院。这说明在下一年度的招生计划投放时, 商学院和机电学院招生数对南京考生适当追加, 信息学院和人文学院对无锡考生也应适当追加。

(6) 考生籍贯与考生类别的关系。南京考生大部分是城市应届考生。无锡考生大部分是农村应届考生。这在招生宣传时, 可以做到有计划, 有安排, 重点突出。

(二) 熵值离散法及关联规则

将录取学生的高考语文、数学、英语成绩, 通过熵值离散法及关联规则进行数据预处理。对连续的成绩属性先将它离散化, 再分到相应的区间中:I30-I32代表语文、数学、外语成绩优良的考生, I33-I35代表语文、数学、外语成绩一般的考生, I36-I38代表语文、数学、外语成绩较差的考生, 再通过关联规则挖掘出有用的信息。

规则:数学优良=>外语优良20% (支持度) 60% (置信度) 。可以看出:高考科目中数学和外语有着紧密的关系。数学为优良的学生中, 有60%的学生外语也优良, 但是数学与外语都优良的学生占总学生数的20%, 这说明了数学与外语同时优良的学生很少, 但是一旦数学优良, 外语优良的可能性达到60%。规则:语文优良, 外语优良=>数学优良20% (支持度) 60% (置信度) 。可以看出:高考科目中语文为优良, 外语为优良的学生中, 有60%的学生数学也优良。语文、数学和外语都优良的学生占总学生人数的20%, 比例较小, 这说明主干课程高分的学生, 往往不会报考民办院校, 通常偏课的学生总成绩受影响, 报考民办院校机率更大。民办院校招生为了保证招生质量, 应该吸引这部分学生报考, 这才是民办院校争取的生源。

摘要:随着教育改革的不断深入, 我国的高等教育得到了长远的发展, 高等院校招生规模的不断扩大, 招生数量的逐年递增。招生方式朝着多元化、自主化方向发展, 院校的招生竞争日趋激烈。本文建立高等学校招生数据挖掘系统, 主要对高等学校招生信息进行挖掘, 提取出有利于高等学校招生的策略, 为高等学校招生提供决策支持。

关键词:高等学校招生,数据挖掘,关联规则,招生决策,属性

上一篇:浅谈“关于0~3岁婴幼儿教育”的思考下一篇:浅议聊城大学英语教学改革