基于信息熵的决策树分类器初探.docx

资料分类:科技学院 上传会员:paiguoguo 更新时间:2021-03-24
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:13459
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本文探究的是数据挖掘中的决策树分类。其中常见的基于属性选择度量(即信息方法)有ID3和C4.5算法。但是这些算法都不太完善,有一定的缺陷,在实际生活中不太实用。为此本文提议了改善后的基于信息熵的决策树分类算法,在一定程度上弥补了ID3不能处理连续属性和C4.5很容易采选取值比较多的属性等不足,在处理连续属性时也可以更好地将其离散化,并且算法复杂度较低。

    为了验证本文提出的改进后的算法的优越性,将其应用到实际生活订外卖的问题中。通过分析影响人们订外卖的主观因素和客观因素,可以挖掘出消费者在特定条件下某个时间段选择是否订外卖的决策。

   关键词:数据挖掘 信息熵 决策树 属性离散化

 

目录

摘要

Abstract

1 绪论-1

1.1本文的研究背景-1

1.2 决策树的国内外研究-1

2 关于决策树分类相关技术简介-2

2.1 数据挖掘应用背景-2

2.2 数据挖掘的概念-2

2.3数据挖掘发展历程-2

2.4数据挖掘主要解决的问题-3

2.5数据挖掘的一般过程-3

2.6数据挖掘技术-4

2.7决策树分类算法-4

2.7.1基本概述-4

2.7.2一般的决策树表现形式-5

2.7.3决策树算法分类流程-5

2.7.4决策树分类可以解决的问题-6

2.8 决策树的评判-7

3 基于信息的决策树分类算法-8

3.1 ID3算法-8

3.1.1属性选择度量的思想-8

3.1.2信息增益在ID3中的使用-8

3.1.3 ID3算法的介绍-9

3.2 C4.5算法的简介-10

3.3 CART算法的简介-10

3.4 上述算法的比较-10

4 基于信息熵的改进决策树算法-12

4.1 算法介绍-12

4.2 改进算法的理论支持-12

4.3 改进算法的主要思想-13

4.4 改进算法的连续属性处理过程-13

4.4.1连续属性值缺省的处理-13

4.4.2问题的描述-13

4.4.3改进算法中的几个概念定义-14

4.4.4算法描述-14

4.5 改进算法的决策树生成-16

4.6 改进算法的流程图-17

5 改进算法在订外卖中的应用-18

5.1实验环境-18

5.2 数据的来源-18

5.3 订外卖的需求分析和数据的处理-18

5.4 订外卖的属性值分析-21

5.5 订外卖中各个变量的分析-23

5.6 对订外卖决策的两者算法进行分析-24

5.6.1两种算法生成的树形图-24

5.6.2由决策树得出的决策树规则-25

5.6.3两种算法所得结果比较-25

5.7 结果分析-25

6 总结-26

参考文献-27

致谢-28

相关论文资料:
最新评论
上传会员 paiguoguo 对本文的描述:所以数据挖掘可以解决之前的分析方法解决不了的问题。很多企业存储在数据库中的数据都是以TB为单位,面对这么多的数据,数据挖掘就起到了很好的作用。在处理海量、高维和高复杂......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: