基于大数据的错别字检查系统.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：14649
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.docx)

上一篇：基于编程猫的小学高段图形化编程校本课程设计与开发.docx

下一篇：基于路径规划的避障小车研究与设计.docx

摘要：随着当前互联网的不断发展，各种各样的文本信息充满了网络空间的各个角落，然而，不少的文本中存在着不少的错别字，形成这些错别字的原因很多，对这些错误进行检查和修正可以让我们的阅读更加流畅。

但由于当今的文本实在是太多，如果只是依靠人工去手动查错的话效率低下，且容易出现纰漏，所以我们更期待有一种能进行自动检查的系统。近年来，随着机器学习中的深度学习这一分支的不断兴起，让我们对于这种工作有了新的方向，于是，本文将对这种自动的错别字检查系统的关键技术进行了研究，主要从以下几个方面展开。

（1）总结错别字的类型和纠错技术的关键点。中文文本错别字的类型主要有如下几种：1.谐音字：感帽，随然，佩副眼睛；2.拼音错误：咳数（ke shu）；3.形似词错误：广州黄浦-广州黄埔；4.语法错误：想象难以-难以想象等。错误的种类有很多，实际的情况也很多变和复杂。因此，必须事先选取好有质量保证的语料充当训练素材。

（2）我们必须要建立相应的深度模型，不过在现在深度模型有多种多样，选择哪一种模型也是问题，经过多方面的考虑，在本课题中采用seq2seq_attention模型，这是一种使用encoder-decoder的结构来解决序列的转换问题，并加入注意力机制，这个模型曾使谷歌翻译的效果得到过显著提升，是目前序列转换中使用最广泛效果最好的模型之一。

（3）基于以上的解决思路进行深度模型构建，再让构建好的模型利用准备好语料进行训练，训练过程中不断进行模型评估，训练完成后预测结果。

关键词：错别字检查；大数据；深度学习；循环神经网络；seq2seq；注意力机制

摘要

Abstract

第1章绪论 1

1.1研究目的和意义 1

1.2研究背景 1

1.2.1国内发展（应用）现状 1

1.2.2国外发展（应用）现状 2

1.3主要贡献 3

1.4论文的结构 3

第2章预备知识及原理说明 5

2.1神经网络（Neural Networks，简称NN）基础 5

2.1.1神经元模型 5

2.1.2神经网络结构 6

2.1.3循环神经网络（Recurrent Neural Network, RNN） 6

2.2 Seq2Seq模型 7

2.2.1 Seq2Seq模型结构 7

2.3 Attention机制 8

2.3.1 Attention机制简介 8

2.3.2 Attention机制结构 8

2.3.3 加入Attention机制后的计算方法 9

第3章数据预处理 10

3.1预处理的意义 10

3.2训练集 10

3.2.1 CGED 10

3.2.2 sighan 10

3.3数据预处理 11

3.3.1 tokenizer 11

3.3.2 对于两种语料的预处理 11

3.3.3语料编码 12

第4章模型设计及编码 13

4.1开发工具及使用框架 13

4.1.1 PyCharm 2021.1.1 13

4.1.2深度学习框架 13

4.2 项目模块及结构简介 13

4.4 编码器Encoder 14

4.4.1编码流程 14

4.4.2 Embedding词嵌入 15

4.4.3 GRU 15

4.5 解码器Decoder 17

4.5.1 Luong Attention 18

4.6 模型训练 19

4.6.1损失函数 19

4.6.2模型训练 19

4.6 模型预测模块 20

4.7 运行过程 20

第6章模型评估及预测 22

6.1模型评估 22

6.1.1 评估标准 22

6.1.2 结果 22

6.2模型预测 23

6.2.1 预测指标 23

6.2.2 结果 23

6.3结果分析 26

第7章总结 27

致谢 28

参考文献 29

中学数学课堂“师生对话”的研究述评	传播学视域下的网络文学影视剧改编--以	宁浩电影《心花路放》中幽默元素研究
苏州高桥金属制品公司信息安全管理研究	基于Android的成语学习词典APP的设计与实现	浅谈培训工作在酒店管理中的重要性及应
产品生命周期内不同阶段营销研究.docx	三种常见的微分中值定理实例.doc	XX大学体育专业大学生运动服饰消费行为
服务型政府视角下的基层公务员素质建设	某市农村商业银行营销策略分析.doc	当代校园微博发展现状研究.doc