表格文本图像的自动识别与人机交互.docx[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：8819
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.docx)

上一篇：新媒体环境下视频博客（Vlog）传播策略研究.docx

下一篇：穿戴式设备的UI设计研究与应用.docx

摘要

与其它传统纸质文档相比，电子文档不仅所占用的存储空间较少，而且具有检索更加方便、传输更加迅速、数据更改简便、维护便捷等优点，将纸质文档通过电子采集设备转化为电子图片，在转化为电子文档进行存储过程中，文字识别便成为了日常生活中必不可少的技术之一。

为了完成电子文档的转换，并使转换后的电子文档便于检索和存储，有必要将纸质文档中的内容快捷准确得变为电子文档。使用OCR（即光学字符识别）。然而，在扫描后的电子文档中识别表格至今是一个开放的难题。本文对近年来图像处理、文本检测和文字识别方向的研究现状进行了总结，提出了一种利用Python-Opencv和pytesseract在图像中识别表格的算法，正确地分割表格并识别其中文字，最终将图像的表格识别结果输出存储为一份电子表格。该算法首先自动识别表格文本图像的位置，通过Python-Opencv处理图片后，使用pytesseract技术识别文本（特征值提取），将识别的数据导出至Excel文件中进行人工纠错。论文分析了成功案例和失败案例，并提出了改进的方法。

关键词：文本检测，文本识别，Python，Opencv，OCR，tesseract

第一章绪论 1

1.1 引言 1

1.2 研究现状 1

1. 文本检测算法工具 2

2. 文本识别算法工具 2

3. 表格识别算法工具 3

1.3 研究目标 3

1.4 论文结构 3

第二章技术理论综述 4

2.1 计算机视觉库OpenCV 4

1．OpenCV的定义 4

2. OpenCV的特点 4

3. OpenCV的设计目标 4

4. OpenCV的结构和和应用领域 4

2.2 光学字符识别OCR 4

1. OCR的定义 4

2. OCR的发展历史 4

3. OCR文字识别过程 5

4. Tesseract系统 6

第三章表格文字图像识别算法 7

3.1 算法描述 7

3.2 算法实践讨论 13

第四章实验测试结果 16

4.1实验环境准备 16

4.2测试结果 16

第五章总结和展望 18

5.1 总结 18

5.2 问题和展望 18

参考文献 19

致谢 20

论激励教育法与大学生学习动力的提高	K市房地产价格影响因素及对策研究.docx	氮化镓高电子迁移率晶体管的电学特性模
浙江上市公司现金股利分配实证研究--基	利用腔光力学系统存储光信号.doc	关于弧度制的课程与教学研究.docx
阿特斯阳光电力有限公司客户关系管理系	浅析电磁波辐射的应用与防护.doc	60GHz光载无线通信信号光源的产生技术研
区域物流企业实施集中成本战略的研究	大学生网络学习行为及影响因素分析.do	基于GSM的粮仓温湿度监测系统设计.docx