基于Word embedding的垃圾邮件过滤初探.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：8406
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：基于web前端的贪吃蛇游戏设计与实现.docx

下一篇：基于动态网页的个人网站设计.docx

摘要：垃圾邮件在网络中传播，占用了大量的网络资源，甚至会损害邮件用户的合法权益。虽然当前垃圾邮件过滤方法众多，过滤体系也逐渐成熟，但过滤效果仍然不是很理想。因此，建立一种更加高效的过滤模型仍具有非常重要的现实意义。

通常的文档分类都是采用基于词频特征的向量空间模型（VSM），即利用文档中词汇出现频率构成向量。在进行词向量训练时将文本中词与词之间看成是互相独立的，这种方式损失了词语间的语义，降低了分类的准确率。本文将文档词向量的生成作为研究重点，对Word embedding方法及其工具Word2vec的两种模型进行了学习，编程实现了基于训练样本上下文的词向量训练系统，Word embedding方法较于向量空间模型保存了词汇间序列信息，增加了能从文档中获取的信息量。

关键词：垃圾邮件向量空间模型 Word embedding Word2vec

摘要

Abstract

1 前言-1

2 垃圾邮件概述-2

2.1垃圾邮件特征-2

2.2邮件过滤的重要性-2

2.3垃圾邮件过滤技术的研究现状-2

3文本表示-4

3.1向量空间模型-4

3.2 Word embedding-4

4 word2vec-6

4.1 统计语言模型-6

4.2 CBOW模型-6

4.2.1 CBOW模型的网络结构-6

4.2.2基于Hierarchical Softmax框架的模型实现-7

4.3 Skip-gram模型-9

4.3.1 Skip-gram模型的网络结构-9

4.3.2基于Hierarchical Softmax框架的模型实现-10

5 基于支持向量机的分类器-12

5.1支持向量机-12

5.2支持向量机原理-12

5.3常见核函数-14

5.4支持向量机方法的优点-15

6基于Word embedding的垃圾邮件过滤算法描述-16

6.1系统模型-16

6.2算法描述-16

7结果与分析-17

7.1评价指标-17

7.2实验结果-17

7.2.1数据结构-17

7.2.2程序模块化-18

7.3 实验总结-19

参考文献-20

致谢-22

酶法生产交织顶孢霉速溶粉的工艺研究	基于JSP的服装销售管理系统设计与实现	低电阻率硅片组件热斑问题研究.doc
论新生代农民工社会支持体系的构建.do	博客文化对大学生影响的调查与研究--以	民用建筑行业高空作业安全隐患分析及防
一种基于单片机的智能家居系统的设计	拉格朗日中值定理在中学数学解题中的应	基于51单片机的红外遥控电子万年历的设
我国商业银行财务绩效评价--基于因子分	高新技术中小企业融资问题研究-北京达通	饲料中氯霉素残留的定量分析方法研究