| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:8819 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.docx) |
摘 要
与其它传统纸质文档相比,电子文档不仅所占用的存储空间较少,而且具有检索更加方便、传输更加迅速、数据更改简便、维护便捷等优点,将纸质文档通过电子采集设备转化为电子图片,在转化为电子文档进行存储过程中,文字识别便成为了日常生活中必不可少的技术之一。
为了完成电子文档的转换,并使转换后的电子文档便于检索和存储,有必要将纸质文档中的内容快捷准确得变为电子文档。使用OCR(即光学字符识别)。然而,在扫描后的电子文档中识别表格至今是一个开放的难题。本文对近年来图像处理、文本检测和文字识别方向的研究现状进行了总结,提出了一种利用Python-Opencv和pytesseract在图像中识别表格的算法,正确地分割表格并识别其中文字,最终将图像的表格识别结果输出存储为一份电子表格。该算法首先自动识别表格文本图像的位置,通过Python-Opencv处理图片后,使用pytesseract技术识别文本(特征值提取),将识别的数据导出至Excel文件中进行人工纠错。论文分析了成功案例和失败案例,并提出了改进的方法。
关键词:文本检测,文本识别,Python,Opencv,OCR,tesseract
目 录
第一章 绪论 1
1.1 引言 1
1.2 研究现状 1
1. 文本检测算法工具 2
2. 文本识别算法工具 2
3. 表格识别算法工具 3
1.3 研究目标 3
1.4 论文结构 3
第二章 技术理论综述 4
2.1 计算机视觉库OpenCV 4
1.OpenCV的定义 4
2. OpenCV的特点 4
3. OpenCV的设计目标 4
4. OpenCV的结构和和应用领域 4
2.2 光学字符识别OCR 4
1. OCR的定义 4
2. OCR的发展历史 4
3. OCR文字识别过程 5
4. Tesseract系统 6
第三章 表格文字图像识别算法 7
3.1 算法描述 7
3.2 算法实践讨论 13
第四章 实验测试结果 16
4.1实验环境准备 16
4.2测试结果 16
第五章 总结和展望 18
5.1 总结 18
5.2 问题和展望 18
参考文献 19
致 谢 20 |

