| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13459 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:本文探究的是数据挖掘中的决策树分类。其中常见的基于属性选择度量(即信息方法)有ID3和C4.5算法。但是这些算法都不太完善,有一定的缺陷,在实际生活中不太实用。为此本文提议了改善后的基于信息熵的决策树分类算法,在一定程度上弥补了ID3不能处理连续属性和C4.5很容易采选取值比较多的属性等不足,在处理连续属性时也可以更好地将其离散化,并且算法复杂度较低。 为了验证本文提出的改进后的算法的优越性,将其应用到实际生活订外卖的问题中。通过分析影响人们订外卖的主观因素和客观因素,可以挖掘出消费者在特定条件下某个时间段选择是否订外卖的决策。 关键词:数据挖掘 信息熵 决策树 属性离散化
目录 摘要 Abstract 1 绪论-1 1.1本文的研究背景-1 1.2 决策树的国内外研究-1 2 关于决策树分类相关技术简介-2 2.1 数据挖掘应用背景-2 2.2 数据挖掘的概念-2 2.3数据挖掘发展历程-2 2.4数据挖掘主要解决的问题-3 2.5数据挖掘的一般过程-3 2.6数据挖掘技术-4 2.7决策树分类算法-4 2.7.1基本概述-4 2.7.2一般的决策树表现形式-5 2.7.3决策树算法分类流程-5 2.7.4决策树分类可以解决的问题-6 2.8 决策树的评判-7 3 基于信息的决策树分类算法-8 3.1 ID3算法-8 3.1.1属性选择度量的思想-8 3.1.2信息增益在ID3中的使用-8 3.1.3 ID3算法的介绍-9 3.2 C4.5算法的简介-10 3.3 CART算法的简介-10 3.4 上述算法的比较-10 4 基于信息熵的改进决策树算法-12 4.1 算法介绍-12 4.2 改进算法的理论支持-12 4.3 改进算法的主要思想-13 4.4 改进算法的连续属性处理过程-13 4.4.1连续属性值缺省的处理-13 4.4.2问题的描述-13 4.4.3改进算法中的几个概念定义-14 4.4.4算法描述-14 4.5 改进算法的决策树生成-16 4.6 改进算法的流程图-17 5 改进算法在订外卖中的应用-18 5.1实验环境-18 5.2 数据的来源-18 5.3 订外卖的需求分析和数据的处理-18 5.4 订外卖的属性值分析-21 5.5 订外卖中各个变量的分析-23 5.6 对订外卖决策的两者算法进行分析-24 5.6.1两种算法生成的树形图-24 5.6.2由决策树得出的决策树规则-25 5.6.3两种算法所得结果比较-25 5.7 结果分析-25 6 总结-26 参考文献-27 致谢-28 |

