基于TFIDF文本分词算法研究.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：12911
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于STM32单片机的电力仪表设计.docx

下一篇：基于单片机的宠物自动喂食器的设计.doc

摘要：时代在进步，信息也随之更新，海量的信息量遍布于网络，根据每个人的需求不同，为了便于生活生存需要，大数据对这些洪流般的信息进行分类和清洗，筛选出较为重要的。伴随着互联网技术的快速发展和普及以及用户逐渐对网络的便捷性能的依赖，互联网成为不可或缺的一部分，互联网已经步入大数据时代。网络时代的到来，信息的洪流遍布世界每一个角落，生活也随着信息时代的到来，逐渐走向智能化，大数据时代，用户的信息都会被网络记录，人们的生活也更加依赖网络时代的信息。

本次论文设计的系统组成部分有分词，文本预处理，数据集清洗、TFIDF算法及实验对比和逻辑回归情感分析。数据前期预处理主要是对网络数据的提取作为实验的文本，Jieba分词主要进行分词以及数据清洗。文本的算法分词作为数据研究的一种领域，主要是对繁杂的文本信息进行分词，进行定义与情感分类。

网络的进步，电子文档成为工作中有效记录信息的载体，有效的获取信息成为研发的方向，对于信息的筛选成为网络技术重要的研究领域。文本分词是一种有效的解决方案，已经成为一种非常实用和有价值的技术。本文对文本分词的作用以及实验过程中利用到的算法公式的选择做出对比，将传统的特征加权函数TFIDF应用于特征选择。

使用朴素贝叶斯算法来测试新特征选择方法的性能，提出的TFD方法具有更好的特征选择效果，可以有效提高分类精度。将类别频率因子引入TFIDF算法，并给出TFIDF的TFD分类算法。添加类别信息可以有效地提高分类性能并提高分类准确性。基于使用无法识别的文本来扩展训练集的思想，给出了迭代算法TFIDF-TFD。

实验结果表明，该算法结合了标记文本，并使用未标记文本逐步训练分类器。每次迭代都可以以更高的精度训练分类器。提出了基于TFIDF和NB的COT协同分类算法。该算法使用未标记文档通过共同训练两个分类器来优化分类器，并提供更高的分类精度。

关键词：文本分词，数据清洗，TFIDF算法

摘要

Abstract

第一章绪论..1

1.1 问题的提出及课题的研究意义...1

1.2 国内外现状..2

1.3 研究的目的和研究的内容..3

1.3.1 研究的目的.3

1.3.2 研究的主要内容.3

第二章开发工具介绍.4

2.1 PyCharm软件的介绍.4

第三章文本分词的概述..5

3.1 分词基本概念.5

3.2 文本分词.5

3.3 文本预处理....6

3.4 特征提取.7

3.5 本章小结.8

第四章分词算法实现及评估...9

4.1 TFIDF算法介绍.9

4.2 TFIDF算法实现..10

4.3 算法性能评估..11

4.4 本章小结..14

第五章词典介绍及情感分析.15

5.1 词典简介..15

5.2 大连理工大学中文情感词汇本体.15

5.3 情感词汇整理..16

5.4 逻辑回归情感分析.19

5.5 本章小结.20

第六章结论与展望.22

参考文献.23

致谢25

基于javaEE的雨具租赁系统的设计与实现	手机销售网站的设计与实现.doc	基于Java的求职招聘网站的设计与实现.z
小区物业管理系统的设计与实现ASP+SQL.d	基于struts的网上花店系统设计与实现JSP	积分商城订单管理功能的测试与分析.do
师资信息管理系统的设计与实现.doc	小说在线阅读网站的设计与实现ASP.NET+S	XX信息技术有限公司网络系统的设计.doc
教务选课系统的设计与实现.doc	基于Android的程序设计课程学习的APP软件的	关于升链集合的研究.docx