基于词频分类器集成的文本分类方法.docx

资料分类:计算机信息 上传会员:螺蛳粉50g 更新时间:2024-01-15
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8714
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:多年来随着科学技术的发展,高度信息化的时代已经到来,人们可以通过看新闻、浏览网页、看报纸等方式来获取信息。获取信息方式变多了,使得获取的信息数量也增多了。海量的信息让人们难以轻易找到自己需要的信息,如果对信息进行分类处理,人们就可以根据不同的分类去获得自己需要的信息。

文本分类一直是学者们研究的重要领域,现在已有多种文本分类方法,不同的文本分类方法导致文本分类的准确性也不同,集成学习和弱分类器的结合可以让分类器工作得更好。本文主要做了以下工作:

(1)介绍了对中文文本分类的处理,使文本能被计算机和分类器识别和训练。并介绍了用什么方法评价分类器。

(2)介绍了集成学习的基本概念和方法。

(3)设计了将词频分类器这个弱分类器作为基学习器,通过adaboost方法集成的实验,比较了两种更新权重的方式。一种是当词频分类器的最小误差大于0.5时,用初始权重来更新权重,另一种是当最小误差大于0.5时,用dirichlet分布来更新权重。从实验结果可以看出,用dirichlet分布来更新权重也能取得很好的效果。

关键词:文本分类; 集成学习;  Adaboost; 词频分类器

 

目录

摘要

ABSTRACT

1 绪 论-1

1.1研究背景与意义-1

1.2国内外研究现状-1

1.3论文所做工作及思路-2

1.4论文章节安排-2

2 文本分类-3

2.1文本分类概述-3

2.2文本分类预处理-3

2.2.1文档形式转换-3

2.2.2分词处理-3

2.2.3去停用词-3

2.3特征选择-4

2.4分类算法-4

2.4.1朴素贝叶斯-4

2.4.2 K近邻-4

2.5分类性能评估-5

2.5.1评价方法-5

2.5.2评价指标-5

3 集成学习-7

3.1集成学习概述-7

3.2典型集成方法-7

3.2.1 Bagging算法-7

3.2.2 Boosting算法-7

4 词频分类器及其集成-10

4.1词频分类器-10

4.1词频分类器的集成-10

5 实验设计与结论-12

5.1实验数据-12

5.2实验结果及分析-12

6 总结与展望-14

6.1 本文总结-14

6.2 未来展望-14

参考文献-15

致 谢-17

相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:本文先探讨了研究文本分类的重要性,并对国内外文本分类的发展以及研究做了描述,从文本分类流程分步介绍中文文本分类。并对一些可以用于文本分类的分类器做了介绍,并介绍了......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: