| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8714 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:多年来随着科学技术的发展,高度信息化的时代已经到来,人们可以通过看新闻、浏览网页、看报纸等方式来获取信息。获取信息方式变多了,使得获取的信息数量也增多了。海量的信息让人们难以轻易找到自己需要的信息,如果对信息进行分类处理,人们就可以根据不同的分类去获得自己需要的信息。 文本分类一直是学者们研究的重要领域,现在已有多种文本分类方法,不同的文本分类方法导致文本分类的准确性也不同,集成学习和弱分类器的结合可以让分类器工作得更好。本文主要做了以下工作: (1)介绍了对中文文本分类的处理,使文本能被计算机和分类器识别和训练。并介绍了用什么方法评价分类器。 (2)介绍了集成学习的基本概念和方法。 (3)设计了将词频分类器这个弱分类器作为基学习器,通过adaboost方法集成的实验,比较了两种更新权重的方式。一种是当词频分类器的最小误差大于0.5时,用初始权重来更新权重,另一种是当最小误差大于0.5时,用dirichlet分布来更新权重。从实验结果可以看出,用dirichlet分布来更新权重也能取得很好的效果。 关键词:文本分类; 集成学习; Adaboost; 词频分类器
目录 摘要 ABSTRACT 1 绪 论-1 1.1研究背景与意义-1 1.2国内外研究现状-1 1.3论文所做工作及思路-2 1.4论文章节安排-2 2 文本分类-3 2.1文本分类概述-3 2.2文本分类预处理-3 2.2.1文档形式转换-3 2.2.2分词处理-3 2.2.3去停用词-3 2.3特征选择-4 2.4分类算法-4 2.4.1朴素贝叶斯-4 2.4.2 K近邻-4 2.5分类性能评估-5 2.5.1评价方法-5 2.5.2评价指标-5 3 集成学习-7 3.1集成学习概述-7 3.2典型集成方法-7 3.2.1 Bagging算法-7 3.2.2 Boosting算法-7 4 词频分类器及其集成-10 4.1词频分类器-10 4.1词频分类器的集成-10 5 实验设计与结论-12 5.1实验数据-12 5.2实验结果及分析-12 6 总结与展望-14 6.1 本文总结-14 6.2 未来展望-14 参考文献-15 致 谢-17 |

