基于tesseractocr的口算习题批改系统(附件)【字数：13219】

2024-11-03 19:50编辑: www.jxszl.com景先生毕设

本文旨在设计一款基于tesseract-ocr口算习题批改系统。硬件方面主要是由jetson TX2开发板、显示器和摄像头组成。本文设计的系统主要应用了python编程语言，基于Tesserct框架实现了对本系统的开发，首先对输入的图片进行预处理，再对图像中习题进行识别、导出错题、错题存入MySQL、根据错题题型生成专项习题、利用Django框架开发错题查询平台这五步的操作，实现本系统的所设计的功能的开发。1.图像的处理是后续识别工作的基础，本系统实现了对输入图像的灰度处理、降噪处理、二值化处理，试验的结果也通过开发时的实验表明，对图像进行一系列的处理后，能很大程度上提升文字识别的准确度。 2.针对识别时所用到的文字库，本设计中系统用到了两种自定义的文字库，一种是对印刷体识别的文字库，一种是对手写体进行识别的文字库，两种文字库都为自定义文字库，结合图像预处理提高了识别的精度从而达到更好的识别效果。 3.对算术题进行提取错题的操作，修改错题的排列格式，分别提取以字符“=”为分界点、两边的数据，将提取到的数据进行一系列的处理，最终实现对错题的提取操作。 4.为了方便管理提取到的错题，本设计选择将提取到的错题导入数据库中，本系统利用的数据库为MySQL，并以学生的学号为“标签”，教师可通过Django开发的平台，以学生学号进行查询，从而获得该学生的错题库，实现数据可视化更加方便教师的管理。 5.Django可以快速的搭建起一个高质量的网站，本设计主要是使用Django搭建一个简便的数据库查询平台，实现错题的可视化，方便教师和学生的查看和分析错题。
目录
一、绪论 1
（一）本课题的研究背景和意义 1
（二）国内外Tesseractocr文字识别的研究现状 1
（三）本设计的主要工作流程 2
（四）本论文的结构安排 2
二、硬件设备的配置与搭建 3
（一）硬件的配置与搭建 3
（1）开发板的激活 3
（2）SD卡的挂载 3
三、Tesseract开源框架 5
（一）Tesseract的简介 5
（1）Tesseract框架的发展 5
（2）Tesseract框架的特点 5< *51今日免费论文网|www.51jrft.com +Q: #351916072#
br /> （二）Tesseractocr的应用 5
（1）训练手写体文字库前的准备 5
（2）配置电脑的环境变量 6
（3）收集手写体文字数据集 7
（4）数据集的训练过程 7
（5）对自定义生成的文字库进行简单测试 12
（6）替换字符“÷”“×” 13
四、通过Opencv对图像的预处理 15
（一）图像预处理的意义 15
（二）对图像预处理的操作 15
（1）硬件层面的处理 15
（2）对图片进行灰度化处理 15
（3）图像的二值化处理 16
（4）去除“离散点” 17
五、错题提取的操作 22
（一）修改算式的格式 22
（1）去除空行和空格 23
（2）算式排为一列 24
（3）替换字符“×”和字符“÷” 26
（二）提取错题以及学号 26
（1）提取算式题目 27
（2）提取手写答案 27
（3）拼凑接出图片内容 28
（4）计算正确答案 29
（5）提取错题 29
（6）根据错题类型生成练习题 30
六、MySQL数据库的应用 31
（一）安装MySql数据库以及MySql可视化工具的配置 31
（二）配置MySql可视化工具 34
（三）将错题导入数据库的操作 35
（1）数据库的建立 35
（2）导入学号和错题 35
七、Django的应用 38
（一）Django的简介 38
（二）Django的安装及配置 38
（三）查询功能开发前的准备工作 40
（四）使用Django框架开发错题查询功能 42
（1）创建视图、添加映射 42
（2）连接数据库、生成models文件 43
（3）数据的接收与返回 44
（4）对开发的功能进行测试 47
八、总结 48
九、问题和展望 49
附录一 52
一、绪论
（一）本课题的研究背景和意义
近些年来，社会对人才的需求日益增长，而考试是人才选拔的主要的途径之一；现在越来越多的学校通过 “题海战术”对学生进行强化训练，而教师批改作业的负担也越来越重，如果能够利用文字识别技术对习题进行批改，则会减轻教育工作者的工作量，提高工作效率。因此，利用文字识别技术实现习题的批改并生成专属个人的强化习题有着重要的研究价值和意义。
目前，针对试题的批改还是以人工和应用光学标记阅读机为主，人工批改的方式费时费力，准确率也难以掌控，而且若教师对每位学生的薄弱点都加以指导的话，会耗费很大一部分精力，降低了教师们的工作效率，所以学校对习题批改的自动化需求日益凸显。虽然应用光学标记阅读机具有较为准确的识别率，但需要专属的答题卡且设备较贵，部分学校资金有限，无法购买高价的设备，导致应用光学标记阅读机无法在资金短缺的学校内普及，且该机器只能识别题目，无法生成专属习题。如果能够设计出利用文字识别技术实现习题的批改并生成专属习题的低成本习题批改系统，能自动批改题目，并生成有针对性的习题供学生进行强化练习，进而减少教师们的工作量，提高工作的效率，设计这样的系统十分的有意义。国内的腾讯、阿里巴巴、汉王等企业平台也都有各自的OCR服务，功能上大同小异，最大的不足是使用者无法掌握识别精度，因此一些特定的环境下还是需要特定的一套识别系统。
本系统中的难点是对手写体文字的识别，因为每个人书写的风格各不相同，想要获得较良好的识别效果，则需要更多人的手写体文字构成的数据集。
（二）国内外Tesseractocr文字识别的研究现状
1929年，科学家Tausheck提出了OCR的概念，1985年惠普布里斯托实验室开始对Tesseract的OCR进行开发，并一直持续到上世纪90年代中期，并在2005年将其作为开源项目对外开放。
我国的OCR技术发展较晚，在1986年才真正意义上地步入正轨；国家高技术研究发展“863”计划开始后，组织了一批高校和企业进行中文ORC软件的开发，三年之后，清华大学就推出了国内首个OCR软件——THOCR，与之后的尚书OCR一同处于国内领先地位，当时两者在国内有着较大的市场份额，并在在邮政编码的分拣、纸质文件的数字化等方面投入使用。

原文链接：http://www.jxszl.com/jsj/wlw/608425.html

"景先生毕设|www.jxszl.com

基于tesseractocr的口算习题批改系统(附件)【字数：13219】

查看完整版论文请

扫码加QQ

扫码加微信

在线客服

[QQ:351916072]