基于tesseractocr的口算习题批改系统(附件)【字数:13219】
目录
一、绪论 1
(一)本课题的研究背景和意义 1
(二)国内外Tesseractocr文字识别的研究现状 1
(三)本设计的主要工作流程 2
(四)本论文的结构安排 2
二、硬件设备的配置与搭建 3
(一)硬件的配置与搭建 3
(1)开发板的激活 3
(2)SD卡的挂载 3
三、Tesseract开源框架 5
(一)Tesseract的简介 5
(1)Tesseract框架的发展 5
(2)Tesseract框架的特点 5< *51今日免费论文网|www.51jrft.com +Q: #351916072#
br /> (二)Tesseractocr的应用 5
(1)训练手写体文字库前的准备 5
(2)配置电脑的环境变量 6
(3)收集手写体文字数据集 7
(4)数据集的训练过程 7
(5)对自定义生成的文字库进行简单测试 12
(6)替换字符“÷”“×” 13
四、通过Opencv对图像的预处理 15
(一)图像预处理的意义 15
(二)对图像预处理的操作 15
(1)硬件层面的处理 15
(2)对图片进行灰度化处理 15
(3)图像的二值化处理 16
(4)去除“离散点” 17
五、错题提取的操作 22
(一)修改算式的格式 22
(1)去除空行和空格 23
(2)算式排为一列 24
(3)替换字符“×”和字符“÷” 26
(二)提取错题以及学号 26
(1)提取算式题目 27
(2)提取手写答案 27
(3)拼凑接出图片内容 28
(4)计算正确答案 29
(5)提取错题 29
(6)根据错题类型生成练习题 30
六、MySQL数据库的应用 31
(一)安装MySql数据库以及MySql可视化工具的配置 31
(二)配置MySql可视化工具 34
(三)将错题导入数据库的操作 35
(1)数据库的建立 35
(2)导入学号和错题 35
七、Django的应用 38
(一)Django的简介 38
(二)Django的安装及配置 38
(三)查询功能开发前的准备工作 40
(四)使用Django框架开发错题查询功能 42
(1)创建视图、添加映射 42
(2)连接数据库、生成models文件 43
(3)数据的接收与返回 44
(4)对开发的功能进行测试 47
八、总结 48
九、问题和展望 49
附录一 52
一、绪论
(一)本课题的研究背景和意义
近些年来,社会对人才的需求日益增长,而考试是人才选拔的主要的途径之一;现在越来越多的学校通过 “题海战术”对学生进行强化训练,而教师批改作业的负担也越来越重,如果能够利用文字识别技术对习题进行批改,则会减轻教育工作者的工作量,提高工作效率。因此,利用文字识别技术实现习题的批改并生成专属个人的强化习题有着重要的研究价值和意义。
目前,针对试题的批改还是以人工和应用光学标记阅读机为主,人工批改的方式费时费力,准确率也难以掌控,而且若教师对每位学生的薄弱点都加以指导的话,会耗费很大一部分精力,降低了教师们的工作效率,所以学校对习题批改的自动化需求日益凸显。虽然应用光学标记阅读机具有较为准确的识别率,但需要专属的答题卡且设备较贵,部分学校资金有限,无法购买高价的设备,导致应用光学标记阅读机无法在资金短缺的学校内普及,且该机器只能识别题目,无法生成专属习题。如果能够设计出利用文字识别技术实现习题的批改并生成专属习题的低成本习题批改系统,能自动批改题目,并生成有针对性的习题供学生进行强化练习,进而减少教师们的工作量,提高工作的效率,设计这样的系统十分的有意义。国内的腾讯、阿里巴巴、汉王等企业平台也都有各自的OCR服务,功能上大同小异,最大的不足是使用者无法掌握识别精度,因此一些特定的环境下还是需要特定的一套识别系统。
本系统中的难点是对手写体文字的识别,因为每个人书写的风格各不相同,想要获得较良好的识别效果,则需要更多人的手写体文字构成的数据集。
(二)国内外Tesseractocr文字识别的研究现状
1929年,科学家Tausheck提出了OCR的概念,1985年惠普布里斯托实验室开始对Tesseract的OCR进行开发,并一直持续到上世纪90年代中期,并在2005年将其作为开源项目对外开放。
我国的OCR技术发展较晚,在1986年才真正意义上地步入正轨;国家高技术研究发展“863”计划开始后,组织了一批高校和企业进行中文ORC软件的开发,三年之后,清华大学就推出了国内首个OCR软件——THOCR,与之后的尚书OCR一同处于国内领先地位,当时两者在国内有着较大的市场份额,并在在邮政编码的分拣、纸质文件的数字化等方面投入使用。
原文链接:http://www.jxszl.com/jsj/wlw/608425.html