基于特征选择和变精度粗集的属性约简方法及其应用

基于特征选择和变精度粗集的属性约简方法及其应用摘要:属性约简作为数据挖掘领域中的一个重要研究内容,它可以解决数据集中冗余和不必要的属性对数据挖掘算法造成的影响问题,提高数据挖掘算法的性能。本文提出了一

基于特征选择和变精度粗集的属性约简方法及其应用 摘要: 属性约简作为数据挖掘领域中的一个重要研究内容,它可以解决数 据集中冗余和不必要的属性对数据挖掘算法造成的影响问题,提高数据 挖掘算法的性能。本文提出了一种基于特征选择和变精度粗集的属性约 简方法,并且在汉字正楷、汉字草书和数字识别三个数据集上进行了实 验,验证了该方法的有效性。 关键词:属性约简;特征选择;变精度粗集 一、Introduction 在数据挖掘和机器学习任务中,数据集中的属性往往覆盖了数据集 中所有的方面,但其中一些属性可能是没必要的,这些属性会带来很多 噪声和冗余。这些属性非常影响算法的性能,因此,我们需要从数据集 中挑选出关键的属性来进行分析。这个过程称为属性约简。 因为属性约简的重要性,许多具有不同能力的算法被提出,其中包 括了粗糙集、决策树、神经网络、遗传算法等等。其中,粗糙集因为其 简单的描述和高效的处理能力,被广泛应用到了属性约简领域。但是, 由于数据集的规模变得越来越大,原始的粗集在属性约简上的表现会越 来越糟糕。这导致了变精度粗糙集的出现。 特征选择是另一个和属性约简有一定关系的概念。特征选择是从原 始的特征集合中选择最相关的特征,从而提高机器学习算法的性能。 本文将于并利用特征选择和变精度粗集,提出了一种新的属性约简 方法,本文并选择了汉字正楷、汉字草书和数字识别三个数据集,验证 了该方法的有效性。 二、变精度粗集的特征选择

腾讯文库基于特征选择和变精度粗集的属性约简方法及其应用