统计学原理论文提纲

2022-11-15

论文题目：非独立同分布下DBSCAN算法的研究

摘要：聚类方法是数据挖掘的重要组成部分,其目的是把相似的数据对象聚在一起,把不相似的数据对象尽可能地分离,是一个极富挑战性的研究领域。DBSCAN是一种性能优越的基于密度的聚类算法,该算法将具有足够密度的区域划分为数据簇,数据簇为密度相连的数据对象的最大集合,算法的显著优点是聚类速度快,能够有效处理噪声点,且能发现任意形状的空间聚类。但是由于传统的DBSCAN算法存在假设数据对象和属性之间是独立同分布的,传统的距离公式难以准确度量类别型数据对象和属性之间的相似度,且参数敏感不易确定等问题。为了解决上述问题,本文研究了非独立同分布下的DBSCAN算法。采用非独立同分布的思想处理类别型数据的无监督聚类问题,即利用非独立同分布的耦合相似度公式计算数据对象和属性之间的相似度,将得到的耦合相似度以矩阵的形式输出。利用邻域区间值（邻域区间下限值Eps1和邻域区间上限值Eps2）和阈值来划分高密度数据集合,从而可以更快地得到更高质量的聚类结果。针对普通的类别型数据,提出了Non-IID DBSCAN算法（DBSCAN under Non-Independent and Identical Distribution）,升序排列耦合相似度最大的数据对象Om与其他数据对象的耦合相似度得到数组Rm,利用绘制数组Rm的可视化方法来选择邻域区间下限值Eps1,观察发现曲线先缓慢上升后趋于平稳,最后在某处突然变陡,则将曲线突然变陡处对应的耦合相似度的值设置为邻域区间下限值Eps1,同时找到邻域区间下限值Eps1的相似度较大侧的所有K-近邻值（K取Minpts的值）,并将其最大值设置为邻域区间上限值Eps2。利用密度公式判断数据的稀疏稠密程度,即根据密度值的大小设置参数阈值Minpts。通常情况下,若密度值较大时,阈值Minpts取值为4,若密度值较小时,阈值Minpts取值为2。针对含有布尔型数据的类别型数据,提出了NIB-DBSCAN算法（DBSCAN under Non-Independent and Identical Distribution for Boolean data）,通过利用散点图拟合数据对象和属性耦合相似度的分布情况,找到数据簇与数据簇的分界点,将其对应的耦合相似度的值设置为邻域区间下限值Eps1。对于数据簇数量较少的数据集,利用加权平均数选择参数阈值Minpts;对于数据簇数量较大的数据集,利用特殊值方法选择参数阈值Minpts。最后通过UCI数据集的实验结果表明,非独立同分布下的DBSCAN可以获得更高精度的聚类结果,且提高了算法的适用性。

关键词：非独立同分布;耦合关系;DBSCAN算法;耦合相似度矩阵;统计学原理

学科专业：计算机应用技术

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要内容

1.4 论文组织形式

第2章聚类方法概述与分析

2.1 定义

2.2 分类