数据挖掘技术在撒拉族语言与口头文学资源库建设中的应用研究

2022-12-07

数据挖掘是在实际应用中能够从大量、不完整、模糊或随机的数据中提取隐含的、事先未知但潜在且有用的信息和知识的技术[1,2], 数据挖掘技术为自动与智能地将大量数据转化为有用的知识提供了强大支持, 是数据和知识之间的桥梁。在大数据时代, 数据挖掘技术作为先进的数据分析技术, 应用的领域越来越广泛, 将数据挖掘技术有效运用于撒拉族语言与口头文学数字化资源库, 具有很好的现实意义。

一、研究意义

目前我国对非物资文化遗产进行数字化资源库建设虽然取得了可喜的成绩, 但存在海量隐形的数据资源被搁浅, 未对其进行有效的挖掘与分析, 造成资源的浪费的问题。因此如何挖掘海量数据背后的重要信息, 产生新的有价值信息资源, 完善数字化资源库系统, 已成为当今数字化资源库建设研究的重要课题。

二、数据挖掘技术的特点

不同于查询、联机应用分析与报表等传统的数据分析, 数据挖掘所挖掘的信息与知识是在没有明确假设下进行的。因此, 通过数据挖掘得到的信息具有以下3个特征:结果未知、有效与实用。数据挖掘之所以得出具有前瞻性的、基于知识的决策, 是因为它具有预测趋势及行为的能力。

数据挖掘技术可以解决数据资料浪费的问题, 可以从大量的数据中挖掘出重要信息, 为决策者提供科学的指导意见。将数据挖掘技术应用于撒拉族语言与口头文学数字化资源库建设中, 不仅可以为工作人员提供原始数据, 更重要的是通过数据挖掘技术, 挖掘分析采集到的原始数据, 为工作人员提供科学决策依据。

三、数据挖掘技术简介

数据挖掘的关键技术分别从不同的方面对数据进行挖掘, 主要有分类、聚类等[3]。

分类是根据输入数据集建立模型的系统方法, 适合预测或描述二元或标称类型的数据集。分类的过程如分检邮件的过程, 要求有一个能很好拟合输入数据中类标号和属性集之间联系的分类模型, 方法有决策树、基于规则的分类法、神经网络与贝叶斯分类法等。

聚类是将数据划分为有意义或有用的组, 组内对象之间是相似的, 不同组中的对象是不相关的, 组内相似性越大, 组间差别越大, 聚类越好[1]。聚类与分类本质上相似, 不同的是聚类是无监督的, 没有指导构建模型的属性。常用的聚类方法有层次聚类、划分聚类等。

四、数据挖掘技术在撒拉族语言与口头文学资料库建设中的具体应用

撒拉族语言与口头文学数字化资源库主要包括文献资料实体, 用于存放相关学术文献、专著、典籍、字画等文本属性资料的电子扫描件信息;图片资料实体, 用于存放相关图片文件信息;视听资料实体, 用于存放相关音频、视频文件信息;注册用户信息实体, 用于存放普通用户的注册申请信息, 主要包含普通注册用户提交的账户名称、密码、性别、工作单位、邮件地址、所属行业、学历状况和账户审核等信息;系统管理员账户信息实体, 用于存放系统管理员的账户信息;层次类别信息实体, 用于存放数据库信息资源三级层次类别的分类信息和类别编码与类别名称的对照关系;网站公告信息实体, 用于存放由系统管理员发布的网站首页公告信息。

(一) 用户的保持与挖掘

持续稳定的数字化资源库用户群是撒拉族语言与口头文学资源库建立的意义之一, 是撒拉族语言与口头文学得以流传与发扬的保障。通过数据挖掘技术中的分类, 采用决策树对预先分好类的资源库中数据进行训练, 建立一个分类模型, 达到对用户分类研究的目的。利用聚类分析, 将数据按照年龄属性进行分组, 分析不同年龄阶段的用户喜爱查阅的撒拉族知识以及喜欢的学习方式等。

通过数据挖掘能及时了解用户对撒拉族资源的满意程度、喜爱的内容及用户波动原因, 从而尽快改进不足, 牢抓现有用户并吸引潜在的用户, 吸收更多的新用户来关注撒拉族语言与口头文学。

(二) 对用户与内容进行关联分析

通过用户在网站上浏览的历史数据, 利用数据挖掘建立“用户反应”预测模型, 预测用户的未来行为。用户对这项内容不感兴趣一般为负反应;需求可有可无一般为无反应;而正反应意味用户对此项内容很敢兴趣。

对于这三类用户都可以通过统计用户的性别、年龄以及文化程度与内容进行采用挖掘算法进行关联分析, 得出不同用户对不同撒拉族资源的兴趣程度, 从而当用户进入资源库时可以为用户推送相关内容, 提高用户满意度。有利于对撒拉族资源的宣传与弘扬, 为在不同人群中宣传撒拉族语言与口头文学提供了科学的指导。

五、总结

本文利用数据挖掘技术对撒拉族语言与口头文学数字化资源库建设中的数据资源进行挖掘, 不但为不同人群使用撒拉族语言与口头文学资源提高了工作效率, 而且还可以完善数字化资源库系统, 因此具有很好的推广应用价值。

摘要:本文阐述了数据挖掘技术在撒拉族语言与口头文学资料库建设中的背景与意义, 分析了数据挖掘技术的特点、关键技术等, 根本目的是挖掘出资料库数据中的隐含信息, 完善数字化资源库系统, 真正实现资源的合理开发和应用。

关键词:数据挖掘,撒拉族,语言与口头文学,资源库

参考文献

[1] 范明, 范宏建 (译) .数据挖掘导论[M].北京:人民邮电出版社, 2011.35-38.

[2] 陈琴.数字化校园中数据挖掘技术的应用研究[D].武汉:华中农业大学高等教育研究所, 2009.

[3] 李小荣.数据挖掘在企业历史数据中的应用[J].中国管理信息化, 2011, 14 (2) :51-52.

上一篇:石油化工工程项目施工风险及管理下一篇:论石油管道安装施工中的隐蔽工程