基于粒计算的聚类算法研究
第 1 章 引言是解决高维海量数据挖掘以及模糊不确定信息处理的有效工具。一般认为粒计算理论包含模糊集理论、粗糙集理论、商空间理论和云模型理论等。模糊理论能够处理聚类中的模糊信息,粗糙集理论能够处理聚类
引言 第章 1 是解决高维海量数据挖掘以及模糊不确定信息处理的有效工具。一般认为粒计 算理论包含模糊集理论、粗糙集理论、商空间理论和云模型理论等。模糊理论 能够处理聚类中的模糊信息,粗糙集理论能够处理聚类中的不确定覆盖信息, 商空间理论能够处理高维的海量数据信息。采用粒计算理论融合模型满足上述 聚类问题的所有性能是可行的。 1.2 国内外研究现状 传统的聚类算法是一种硬聚类算法,拥有非此即彼的特性,例如硬划 “” 算法,也即是一个对象只能完全属于一个类簇。随着网络的发展及普 分 HCM 及,大量涌现出模糊的、不精确的、不完备的、不确定的以及不一致的信息, 传统的聚类算法很难处理这类型的数据。软计算正是解决这类型数据的有效方 法,将聚类算法同软计算理论相结合变成一种处理模糊不确定数据的趋势,这 也是目前关于聚类算法的主流研究方向。 [1] 从教授年提出模糊理论以来,人们试图通过将模糊理论应用 Zadeh1965 于聚类算法来解决模糊不清晰数据的聚类问题,并取得了丰硕的成果。 年 1969 [2] 在聚类问题中引进了模糊划分理论 ,将模糊集概念应用于传统的聚类 Bezdek 方法,使得聚类同样能够适用于那些分离性欠缺的数据。 年将硬 1974 Ruspini [3] 均值算法同模糊集理论相结合,建立模糊,这也是目前 均值算法 C-C- (FCM) 应用最广泛的一类聚类算法,其将聚类问题转化为基于目标函数的最优化问题, 简化了求解思路及方法。谱聚类算法能在任意形状的类簇空间找到全局最优, 避免了大部分聚类算法只能在凸空间里找到局部最优解的缺陷。戴月明等针对 文本数据的高稀疏特性以及类簇数目确定等问题,提出一种半监督自适应模糊 [4] 谱聚类方法,能够很好提高聚类质量。 [5] 不同于模糊集,教授在粗糙集中引入上、下近似来表示一般概念, Pawlak 模糊集主要从主观的隶属度来表示样本,而粗糙集从数据集内反映其本质概念。 粗糙集应用于聚类主要有两个方面:一是进行数据预处理,减少聚类过程中出 现的冗余数据;二是利用粗糙集本身的概念以及性质进行相关的聚类改进,提 [6] 高聚类算法的性能。刘少辉等将集理论应用于聚类分析 ,提出了一种 Rough 能够自动调整参数的层次聚类算法。将信息论中熵的概念应用于集中能 Rough 够精确表示概念的不确定性,等提出了一种基于粗糙熵的层次聚类算 Malyszko 2

