机器学习中决策树算法的改进【字数:11299】
目录
摘 要 II
关键词 II
ABSTRACT III
KEY WORDS III
第一章 引言 1
1.1 选题背景 1
1.2 国内外研究现状 1
1.3 本毕业设计的主要工作及结构安排 2
第二章 机器学习中的决策树算法简介 4
2.1 决策树基本概念 4
2.2 决策树变量选择准则 5
2.2.1 信息增益 5
2.2.2 信息增益率 6
2.2.3 基尼指数 7
2.2.4 其他方法 8
2.3 经典的决策树生成及其剪枝方法 8
2.3.1 ID3算法 8
2.3.2 C4.5算法 11
2.3.3 CART算法 11
2.3.4 其他算法 15
第三章 机器学习中决策树算法的改进 16
3.1 集成方法 16
3.2 经典决策树算法的改进 16
3.3 实例分析 21
第四章 总结与展望 23
参考文献 24
致 谢 26
机器学习中决策树算法的改进
摘 要
当今社会,随着人们对于信息技术的依赖日益增长,数据量的规模及其背后所蕴含的价值也随之呈指数形式增长。从繁杂的数据中筛选出需要的部分进而有效利用是机器学习领域中的一个重要应用。决策树算法作为机器学习中一个经典的算法,被应用在很多领域。然而,因为过度拟合现象仍然无法避免,且无法处理数据中出现缺失值时的情况,因此改进或提出一套高效的决策树算法是非常有意义的研究课题。在本毕业设计中,针对决策算法在使用过程中存在的上述缺陷,结合机器学习中常用的集成方法的思想,我们提出了一种改进决策数算法的有效方案。即:通过排查基于数据样本生成的决策树中分类错误的样本,针对分类树以及回归树,分别增加此类样本的权重,同时更新权重分布,进而通过引入可调节的辅助因子改进决策树。在改进的决策树下,按照正确率的不同而赋予对应的权重,并将其进行适当地组合成一个集成模型。 *51今日免费论文网|www.51jrft.com +Q: ^351916072#
最后,我们通过实例,来说明改进的算法可有效地减少了过度拟合的现象。
引言
1.1 选题背景
机器学习作为触及多个范畴的交叉学科,与众多方面例如概率论、凸分析、算法通俗度实践等都有关。从广义上来说,机器学习这个学科研究的是如何使计算机仿照或复制人类的学习行为路径,来达到自主习得新技能的方法,通过这个方法,使机器可以对已有的知识进行结构重组,改善发现的不足,最终逐步地提高学习效率。[1]
决策树外表是一种二叉树形态的逻辑结构图,一般处理类似“是否”的二分类任务,处理问题的机制与人脑分析决策问题的方式相同。在得到问题结论即最终决策的过程中,决策树算法可以利用之前每一次对数据的判断结果来得出下一步优化策略,产生“学习”的效果,使求解范围不断缩小。
在现实生活中,随着信息技术与其他领域之间的相互关联逐渐加深,会随之产生大量的数据,故而需要进行分析的数据会越来越多。目前运用机器学习的方法对数据进行处理仍有很多的问题及风险,这也激励着研究人员继续进行更加深入的研究,推动这项技术不断改进继续向前发展。而决策树作为机器学习中一个经典的数据分类方法,被“寄予厚望”,希望可能找到适当的方法对其进行优化从而关于数据做出更加高效准确的分析。
1.2 国内外研究现状
决策树是机器学习中较为常见的一种分析数据的措施,国内外的研究学者在对其的研究中提出了许多不同的门类。20世纪末期,悉尼大学的学者J.Ross Quinlan引用Shannon的信息论于决策树算法中,ID3[2]算法由此问世。在ID3 算法中会计算出每个属性的信息增益,然后对其进行比较,选出最佳属性,继而利用最佳属性对决策树进行划分。之后,I.Kononenko、E. Roskar以及I. Bratko基于ID3算法提出了ASSISTANT Algorithm,应用此算法,若数据中属于不同种别的样本有交叉也可以被处理。1984年L. Breiman、C.Ttone、R.Olshen以及J.Freidman提出决策树剪枝概念,此种方法可以对决策树的机能进行进一步改良。由于ID3 算法会出现过拟合现象,且不能够料理连续属性值问题,1993年,Quinlan在ID3算法的基础上做出修改[3],即C4.5算法[4]。C4.5算法与ID3算法不同的是,它将属性选择的判断规范设为信息增益率。同样,这一改变也使得C4.5算法没有属性倾向的状况,并且新增了对连续属性的剪枝处置,一定水平上制止了“过度拟合”现象,也减小了决策树模型的复杂程度。但是上述算法在处理连续型的数据时,为了易处理需要对其离散化,算法会遍历该属性的全部值,这就大大降低了效率。并且内存中会保留训练样本集这一操作,使得C4.5算法在面对大规模数据集时表现乏力。国内外许多学者提出了许多的方案尝试关于C4.5算法进行改进,比如Mai Q[5]等人提出的 C4.5 算法就可以处置多维数据集以及基于模糊系统的 Fuzzy DT[6][7]。ID3 和 C4.5 算法仅仅适用于小数据集,当面对大数据时往往会出现问题。针对特征值取值为逻辑值的场景,Breiman等人在1984年提出了分类与回归决策树(CART)[8]。此种方法可以输出给定预测向量X的条件分布变量Y,迄今一倍应用于诸多领域。CART算法与ID3 以及 C4.5 算法都不同,其中在对样本做出分类的变量的选择上就引用了基尼系数,CART算法可以用来处理无序的数据。CART算法生成的决策树具有较高的准确度,但是当决策树的规模到达一定程度后,分类的准确度与复杂度就由正比转化为反比。
原文链接:http://www.jxszl.com/jsj/xxaq/607015.html