表格文本图像的自动识别与人机交互.docx

资料分类:科技学院 上传会员:诛心啊 更新时间:2026-05-23
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8819
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.docx)
摘  要
 
与其它传统纸质文档相比,电子文档不仅所占用的存储空间较少,而且具有检索更加方便、传输更加迅速、数据更改简便、维护便捷等优点,将纸质文档通过电子采集设备转化为电子图片,在转化为电子文档进行存储过程中,文字识别便成为了日常生活中必不可少的技术之一。
为了完成电子文档的转换,并使转换后的电子文档便于检索和存储,有必要将纸质文档中的内容快捷准确得变为电子文档。使用OCR(即光学字符识别)。然而,在扫描后的电子文档中识别表格至今是一个开放的难题。本文对近年来图像处理、文本检测和文字识别方向的研究现状进行了总结,提出了一种利用Python-Opencv和pytesseract在图像中识别表格的算法,正确地分割表格并识别其中文字,最终将图像的表格识别结果输出存储为一份电子表格。该算法首先自动识别表格文本图像的位置,通过Python-Opencv处理图片后,使用pytesseract技术识别文本(特征值提取),将识别的数据导出至Excel文件中进行人工纠错。论文分析了成功案例和失败案例,并提出了改进的方法。
 
关键词:文本检测,文本识别,Python,Opencv,OCR,tesseract
目  录
 
第一章 绪论 1
1.1 引言 1
1.2 研究现状 1
1. 文本检测算法工具 2
2. 文本识别算法工具 2
3. 表格识别算法工具 3
1.3 研究目标 3
1.4 论文结构 3
第二章 技术理论综述 4
2.1 计算机视觉库OpenCV 4
1.OpenCV的定义 4
2. OpenCV的特点 4
3. OpenCV的设计目标 4
4. OpenCV的结构和和应用领域 4
2.2 光学字符识别OCR 4
1. OCR的定义 4
2. OCR的发展历史 4
3. OCR文字识别过程 5
4. Tesseract系统 6
第三章 表格文字图像识别算法 7
3.1 算法描述 7
3.2 算法实践讨论 13
第四章 实验测试结果 16
4.1实验环境准备 16
4.2测试结果 16
第五章 总结和展望 18
5.1 总结 18
5.2 问题和展望 18
参考文献 19
致  谢 20
相关论文资料:
最新评论
上传会员 诛心啊 对本文的描述:表格文本图像的自动识别与人机交互 摘 要 与其它传统纸质文档相比,电子文档不仅所占用的存储空间较少,而且具有检索更加方便、传输更加迅速、数据更改简便、维护便捷等优点,......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: