| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8406 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:垃圾邮件在网络中传播,占用了大量的网络资源,甚至会损害邮件用户的合法权益。虽然当前垃圾邮件过滤方法众多,过滤体系也逐渐成熟,但过滤效果仍然不是很理想。因此,建立一种更加高效的过滤模型仍具有非常重要的现实意义。 通常的文档分类都是采用基于词频特征的向量空间模型(VSM),即利用文档中词汇出现频率构成向量。在进行词向量训练时将文本中词与词之间看成是互相独立的,这种方式损失了词语间的语义,降低了分类的准确率。本文将文档词向量的生成作为研究重点,对Word embedding方法及其工具Word2vec的两种模型进行了学习,编程实现了基于训练样本上下文的词向量训练系统,Word embedding方法较于向量空间模型保存了词汇间序列信息,增加了能从文档中获取的信息量。 关键词:垃圾邮件 向量空间模型 Word embedding Word2vec
目录 摘要 Abstract 1 前言-1 2 垃圾邮件概述-2 2.1垃圾邮件特征-2 2.2邮件过滤的重要性-2 2.3垃圾邮件过滤技术的研究现状-2 3文本表示-4 3.1向量空间模型-4 3.2 Word embedding-4 4 word2vec-6 4.1 统计语言模型-6 4.2 CBOW模型-6 4.2.1 CBOW模型的网络结构-6 4.2.2基于Hierarchical Softmax框架的模型实现-7 4.3 Skip-gram模型-9 4.3.1 Skip-gram模型的网络结构-9 4.3.2基于Hierarchical Softmax框架的模型实现-10 5 基于支持向量机的分类器-12 5.1支持向量机-12 5.2支持向量机原理-12 5.3常见核函数-14 5.4支持向量机方法的优点-15 6基于Word embedding的垃圾邮件过滤算法描述-16 6.1系统模型-16 6.2算法描述-16 7结果与分析-17 7.1评价指标-17 7.2实验结果-17 7.2.1数据结构-17 7.2.2程序模块化-18 7.3 实验总结-19 参考文献-20 致谢-22 |

