文档图像的文种自动识别系统研究与开发.doc

资料分类:工业大学 上传会员:小蚊子 更新时间:2019-03-18
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:10523
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:文档图像的文种识别就是对采集到的图像样本进行分析处理,从而自动识别图像样本所属的文种类别。文种识别技术在许多领域发挥着重要的作用。大连市作为海岸城市,与周边地区贸易往来密切,同时我国沿海地区情况与大连相似,因此识别中文、蒙语、韩语、日语、英语这5种语言具有重要的研究意义和实用价值。

本文利用HOG特征提取方法对采集样本进行处理,再利用支持向量机(SVM)对采集样本进行识别。研究内容如下:

(1)五种语言文档图像库。通过网络和截图工具采集格式为JPG的图片样本,每种100个,并分类存储。

(2)HOG特征提取。针对样本特点,采用HOG特征提取方法,将采集样本的特征向量提取出来。

(3)构建分类器。由于采用了HOG特征提取方法,鉴于HOG与支持向量机相结合的应用广泛且实用性强,因此分类器决定采用支持向量机对提取的特征进行分类。

在本次课题采集的图像库中随机抽取一副图片,直接识别出该图片中文字所属类别,准确率为84.2%,说明本次课题采用HOG和SVM结合的方法是可行的且具有较高精度。

 

关键词:文种识别;HOG特征;支持向量机

 

目录

摘要

Abstract

1 绪论-1

1.1 课题背景与研究意义-1

1.2 国内外研究历史及现状-2

1.3 课题研究内容-3

1.4 课题研究目标-3

1.5 文章结构-3

2 课题相关软件介绍-5

2.1 Matlab软件-5

2.1.1 Matlab基本简介-5

2.1.2 Matlab的工作环境-6

2.1.3 Matlab的优势特点-6

2.1.3 Matlab的系统结构-6

2.1.4 Matlab图像处理工具箱简介-7

2.2 VisualStudio软件-8

2.2.1 VisualStudio简介-8

2.2.2 VisualStudio环境搭建-8

3 课题算法-9

3.1五种语言文档图像库-10

3.2 HOG特征提取方法-10

3.3 支持向量机分类器-13

4 课题仿真实验-14

结    论-20

参 考 文 献-21

致    谢-22

相关论文资料:
最新评论
上传会员 小蚊子 对本文的描述:文档图像文种识别技术能够根据各语言字符集独特的视觉表现形式,依据图像分析理论,运用图像处理技术、借鉴模式识别的原理和方法,深入分析文本图像的视觉信息特点、数据分布......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: