| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:14649 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.docx) |
摘要:随着当前互联网的不断发展,各种各样的文本信息充满了网络空间的各个角落,然而,不少的文本中存在着不少的错别字,形成这些错别字的原因很多,对这些错误进行检查和修正可以让我们的阅读更加流畅。
但由于当今的文本实在是太多,如果只是依靠人工去手动查错的话效率低下,且容易出现纰漏,所以我们更期待有一种能进行自动检查的系统。近年来,随着机器学习中的深度学习这一分支的不断兴起,让我们对于这种工作有了新的方向,于是,本文将对这种自动的错别字检查系统的关键技术进行了研究,主要从以下几个方面展开。
(1)总结错别字的类型和纠错技术的关键点。中文文本错别字的类型主要有如下几种:1.谐音字:感帽,随然,佩副眼睛;2.拼音错误:咳数(ke shu);3.形似词错误:广州黄浦-广州黄埔;4.语法错误:想象难以-难以想象等。错误的种类有很多,实际的情况也很多变和复杂。因此,必须事先选取好有质量保证的语料充当训练素材。
(2)我们必须要建立相应的深度模型,不过在现在深度模型有多种多样,选择哪一种模型也是问题,经过多方面的考虑,在本课题中采用seq2seq_attention模型,这是一种使用encoder-decoder的结构来解决序列的转换问题,并加入注意力机制,这个模型曾使谷歌翻译的效果得到过显著提升,是目前序列转换中使用最广泛效果最好的模型之一。
(3)基于以上的解决思路进行深度模型构建,再让构建好的模型利用准备好语料进行训练,训练过程中不断进行模型评估,训练完成后预测结果。
关键词:错别字检查;大数据;深度学习;循环神经网络;seq2seq;注意力机制
目录
摘要
Abstract
第1章 绪 论 1
1.1研究目的和意义 1
1.2研究背景 1
1.2.1国内发展(应用)现状 1
1.2.2国外发展(应用)现状 2
1.3主要贡献 3
1.4论文的结构 3
第2章 预备知识及原理说明 5
2.1神经网络(Neural Networks,简称NN)基础 5
2.1.1神经元模型 5
2.1.2神经网络结构 6
2.1.3循环神经网络(Recurrent Neural Network, RNN) 6
2.2 Seq2Seq模型 7
2.2.1 Seq2Seq模型结构 7
2.3 Attention机制 8
2.3.1 Attention机制简介 8
2.3.2 Attention机制结构 8
2.3.3 加入Attention机制后的计算方法 9
第3章 数据预处理 10
3.1预处理的意义 10
3.2训练集 10
3.2.1 CGED 10
3.2.2 sighan 10
3.3数据预处理 11
3.3.1 tokenizer 11
3.3.2 对于两种语料的预处理 11
3.3.3语料编码 12
第4章 模型设计及编码 13
4.1开发工具及使用框架 13
4.1.1 PyCharm 2021.1.1 13
4.1.2深度学习框架 13
4.2 项目模块及结构简介 13
4.4 编码器Encoder 14
4.4.1编码流程 14
4.4.2 Embedding词嵌入 15
4.4.3 GRU 15
4.5 解码器Decoder 17
4.5.1 Luong Attention 18
4.6 模型训练 19
4.6.1损失函数 19
4.6.2模型训练 19
4.6 模型预测模块 20
4.7 运行过程 20
第6章 模型评估及预测 22
6.1模型评估 22
6.1.1 评估标准 22
6.1.2 结果 22
6.2模型预测 23
6.2.1 预测指标 23
6.2.2 结果 23
6.3结果分析 26
第7章 总 结 27
致 谢 28
参考文献 29 |

