论文题目:基于集成学习的数据库营销研究
摘要:数据库营销指企业根据数据库中存储的消费者信息分析和识别可能对营销活动或产品感兴趣的消费者(目标客户),并使用电子邮件、短信、电话等方式进行客户深度挖掘与关系维护,或与客户建立一对一的互动沟通关系,以便企业更好地获取用户偏好,确立市场定位,调整合适的产品方向和跟踪市场管理。目前,利用数据库营销对用户进行筛选分类进而进行有针对性的营销活动已经成为很多企业提高营销效率,降低营销成本的重要手段。从数据挖掘的角度,我们可以将数据库营销中准确定位目标客户视为分类预测问题,即根据消费者的特征属性预测其是否购买产品或购买产品的概率,因此,提高数据库营销模型的预测精度具有非常重要的现实意义和实际价值。类别不均衡是数据库营销过程中普遍存在的问题,其主要表现为某一类别的数据量远低于其它类别的数据量。类别不均衡这一数据特性使得传统的分类预测模型在实际应用过程中面临数据匮乏,数据淹没等现象,从而降低数据库营销的效果。目前研究主要从数据,算法和评价标准三个层面对数据库营销模型进行改进以提高其分类预测的准确度:数据层面主要通过改变采样方式进而改变数据集的类别分布来解决这一问题,如过采样,欠采样,SMOTE算法等;算法层面则通过改善算法的内部结构或相关参数来提高算法的适应性进而改善其在非平衡数据集上的表现,主要包括代价敏感学习,改进的SVM算法,集成学习等等;评价标准主要通过使用F-measure,ROC曲线,命中率和升力曲线等等,这些评价方法和传统的方法相比,不再单一的关注分类预测模型在数据集上整体的表现,因此更适合类别不均衡问题的评价。在这些改进的方法中,集成学习在非平衡数据集上具有更好的分类预测能力和稳定性,并且能够避免过拟合问题,因此更受到该领域研究者的关注。集成学习的基本思想是使用多个基础学习器对数据集进行学习,并对学习结果进行集成得到最终输出。相对于单一的学习模型,集成学习具有更强的泛化能力和预测效果。基于以上的考虑,本文针对消费者群体的多样性和类别不均衡性提出了基于有监督聚类和集成学习的数据库营销模型,并且从单个基础学习器的个体性能以及各基础学习器之间差异性的角度进一步提高集成学习在非平衡数据集上的分类性能。具体而言,本文首先使用有监督聚类对训练集中多数类样本进行聚类,得到多个数据簇,再与少数类样本组合进而得到多个类别均衡的可供训练的数据子集。在此基础上使用BP神经网络进行学习,并对基础学习器的结果进行动态集成,实证研究表明,文章所提出的模型在可有效提高数据库营销的准确率。
关键词:数据库营销;分类预测;有监督聚类;集成学习
学科专业:管理科学与工程
中文摘要
英文摘要
1 绪论
1.1 课题的研究背景和意义
1.2 研究内容和创新点
1.2.1 研究内容
1.2.2 主要创新点
1.3 论文的组织结构
2 国内外研究现状
2.1 基于数据层面的研究现状
2.2 基于算法层面的研究现状
2.3 基于评价方法层面的研究现状
2.3.1 F-measure评价法
2.3.2 ROC曲线
2.4 本章小结
3 数据库营销优势及存在问题
3.1 数据库营销概述
3.2 数据库营销的优势
3.3 数据库营销存在的问题
3.4 数据类别不均衡的分类预测问题
3.4.1 类别不均衡数据问题概述
3.4.2 类别不均衡数据分类困难原因分析
4 基于集成学习的数据库营销模型
4.1 模型所使用的基本算法概述
4.1.1 K-means聚类
4.1.2 BP神经网络算法
4.1.3 集成学习方法
4.2 模型框架
4.3 数据预处理
4.4 有监督聚类
4.5 集成学习模型
4.6 本章小结
5 实证研究和结果分析
5.1 数据简介
5.2 用于比较的方法
5.2.1 SMOTE算法
5.2.2 FN欠采样算法
5.2.3 GA / ANN算法
5.3 评价准则
5.3.1 命中率
5.3.2 升力曲线
5.4 实证结果
5.5 本章小结
6 结论与展望
6.1 研究结论
6.2 工作展望
致谢
参考文献