基于决策树的数据挖掘-汽车评价分类的算法设计与实现
基于决策树的数据挖掘汽车评价分类的算法设计与实现1决策树技术面临的挑战及目前研究方向随着数据挖掘技术的兴起,作为拟人决策主要方法之一,近年来决策树又重新引起了人 们的兴趣,并得到更广泛的应用。目前决策
基于决策树的数据挖掘 汽车评价分类的算法设计与实现 1 决策树技术面临的挑战及目前研究方向 随着数据挖掘技术的兴起,作为拟人决策主要方法之一,近年来决策树又重新引起了人们 的兴趣,并得到更广泛的应用。目前决策树技术的主要研究方向有以下几点: 1.1 决策树技术与其他技术的结合 如何将决策树技术和其他新兴的技术相结合以便取长补短一直是决策树技术研究的热点, 近几年来国际上发表的有关决策树的文章也大多集中在这个方面的研究。近年关于决策树和其 他技术的研究主要包括: 1.1.1 决策树技术和神经网络技术相结合卩圖。 人工神经网络的多层结构使它具有对任意输入输出进行映射的功能。同样,决策树也具有 产生维空间下任意复杂的决策边界的功能。因此,可以将决策树重新构造成一个多层的神经网 络。这种由决策树转化而成的神经网络具有加快神经网络训练速度等优点。另外一类方法正好 相反,它研究的是由神经网络中得到所需要的决策树。这类方法解决了由神经网络得到的知识 难于被人们理解的缺点。 1.1.2 决策树技术和模糊集合原理的结合 决策树技术虽然有许多优点,但也存在着不稳定的缺点,即决策树带来了较大的变动。模 糊集合的融通性使人们利用模糊逻辑来解决决策树的这一缺点并取得了不错的效果。最近, C.OIaru 提出了一种新的模糊决策树方法-软决策树冏。软决策树综合决策树的生成和修剪来决 (Refitting)(Backfitting) 定其本身的结构,并利用重修和磨合来提高树的归纳能力。软决策树比 M.Dong(Look-Ahead) 一般决策树的正确率要高。此外,等人提出的基于前瞻的模糊决策树也 能够在得到较好的归纳特性的前提下产生较小体积的决策树⑷。 [51[61[71[81[91 1.1.3 决策树技术和进化算法,遗传算法及遗传编程的结合= 基于进化算法的决策树系统具有较好的抗噪声能力,同时进化算法很容易在并行计算机上 运行,因此可以期待基于进化算法的决策树的运算能力有较大的提高。此外,由于进化算法为 Vote) 随机算法,它可以在任何时候对同一数据集合产生不同的决策树,通过利用投票的方法可 ( 以得到理想的分类器。因为总体分类器比单个分类器的错误率低,所以基于进化算法的决策树 在减小错误率方面也有优势。同样,将决策树运用于进化计算也能够提高进化算法的性能。例 如,利用决策树为进化算法播种具有较好质量的初始种群能提高进化算法的搜索能力并缩短运 行时间。 将遗传算法用于分类和概念学习任务比较常见,但真正将它作为一种发展决策树的实用工具 A.Papagelis 的研究还比较少。等将遗传算法直接用于产生决策树。与一般遗传算法采用二进 制串的形式不同,他们采用了二进制树结构来进行问题表示。当无关属性或比较强的条件相关 (GreedyHeuristics)D.R.Carvalho 属性存在时,遗传算法比其他的贪婪启发方式具有优势。提 出了一个混合决策树和遗传算法的算法,一定程度地解决了低训练数据易于产生错误的规则的 缺点。需要注意的是,遗传算法和决策树结合的缺点是计算量较大。将遗传编程用于决策树可 以改进标准贪婪决策树归纳算法的一些局限性。遗传编程种群中的每个个体都可以是一个决策 TerminalSet) 树。遗传编程中使用的函数是决策树的特性以及遗传编程中的终结集。利用遗传 ( 编程构造决策树可以取得比较好的效果,特别是发现小数据量下的最优决策树。

