基于TFIDF文本分词算法研究.doc

资料分类:计算机信息 上传会员:花开富贵 更新时间:2023-06-06
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:12911
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:时代在进步,信息也随之更新,海量的信息量遍布于网络,根据每个人的需求不同,为了便于生活生存需要,大数据对这些洪流般的信息进行分类和清洗,筛选出较为重要的。伴随着互联网技术的快速发展和普及以及用户逐渐对网络的便捷性能的依赖,互联网成为不可或缺的一部分,互联网已经步入大数据时代。网络时代的到来,信息的洪流遍布世界每一个角落,生活也随着信息时代的到来,逐渐走向智能化,大数据时代,用户的信息都会被网络记录,人们的生活也更加依赖网络时代的信息。

本次论文设计的系统组成部分有分词,文本预处理,数据集清洗、TFIDF算法及实验对比和逻辑回归情感分析。数据前期预处理主要是对网络数据的提取作为实验的文本,Jieba分词主要进行分词以及数据清洗。文本的算法分词作为数据研究的一种领域,主要是对繁杂的文本信息进行分词,进行定义与情感分类。

网络的进步,电子文档成为工作中有效记录信息的载体,有效的获取信息成为研发的方向,对于信息的筛选成为网络技术重要的研究领域。文本分词是一种有效的解决方案,已经成为一种非常实用和有价值的技术。本文对文本分词的作用以及实验过程中利用到的算法公式的选择做出对比,将传统的特征加权函数TFIDF应用于特征选择。

使用朴素贝叶斯算法来测试新特征选择方法的性能,提出的TFD方法具有更好的特征选择效果,可以有效提高分类精度。将类别频率因子引入TFIDF算法,并给出TFIDF的TFD分类算法。添加类别信息可以有效地提高分类性能并提高分类准确性。基于使用无法识别的文本来扩展训练集的思想,给出了迭代算法TFIDF-TFD。

实验结果表明,该算法结合了标记文本,并使用未标记文本逐步训练分类器。每次迭代都可以以更高的精度训练分类器。提出了基于TFIDF和NB的COT协同分类算法。该算法使用未标记文档通过共同训练两个分类器来优化分类器,并提供更高的分类精度。 

关键词:文本分词,数据清洗,TFIDF算法

 

目录

摘要

Abstract

第一章 绪论..1

1.1  问题的提出及课题的研究意义...1

1.2  国内外现状..2

1.3  研究的目的和研究的内容..3

1.3.1 研究的目的.3

1.3.2 研究的主要内容.3

第二章  开发工具介绍.4

2.1 PyCharm软件的介绍.4

第三章 文本分词的概述..5

3.1  分词基本概念.5

3.2  文本分词.5

3.3  文本预处理....6

3.4  特征提取.7

3.5  本章小结.8

第四章 分词算法实现及评估...9

4.1  TFIDF算法介绍.9

4.2  TFIDF算法实现..10

4.3  算法性能评估..11

4.4  本章小结..14

第五章  词典介绍及情感分析.15

5.1  词典简介..15

5.2  大连理工大学中文情感词汇本体.15

5.3  情感词汇整理..16

5.4  逻辑回归情感分析.19

5.5  本章小结.20

第六章  结论与展望.22

参考文献.23

致谢25

相关论文资料:
最新评论
上传会员 花开富贵 对本文的描述:关于对任务作出分布,技术人员正在关于提高准确性作出研究同时降低文本分词的复杂程度。科技的不断提高,计算机的运行速度也得到飞跃式的提升。所以算法的复杂程度在外部设备......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: