起点▅学院课程

OCR在数据抢救中的应用〇设计

LCC
0 评论 1.1万 浏览 13 收藏 14 分钟
15天0基础极速入门数据分析,掌握』一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

OCR是通过算朝那奧特拉法识别出图像中的文字内容,算是图像识别√的一个分支。但是在数据管理抢救上,也非常实用。本文作者对具体的实现途径展开了梳理总结,并对过程中存在的问题进★行了分析,与大家分享。

一、服务于业务:数据①抢救的痛点在哪?

大数据工程的第一步是获得数据,而传统他有他行业、政府机构、科研院所中有□ 大量的存量数据,数据抢救就是把这些数据数字化,一是避免数据〓流失,二是提高儒雅已經變得瘋狂利用价值。而存量数据中包括大量珍贵的纸质数据,比如天文地理水文测∮量数据、试验数据、政府公文、古旧书籍等等。

纸◣质数据如何抢救?这珠兒跟影兒步很简单,基本解决方法就是先扫描成电子版进行存储。但光那把大斧是扫描存储就够了吗?我觉 得是不够的。

像前边所说的,数据抢救的目的一是避免数据流失,二是提高利用价值,扫︾描存储仅仅解决了第一个问题避免数据流失,但并没有很好的提高数据的利用价值。纸¤质数据的价值大部分在于文档的内容,仅仅把纸质文档电子化仍然不能对内容进行进一步的检索、分析。

所以我们把产品的目标聚焦在了“提高数据利用率”上。接下来就是◥对目标进行细化拆解。关于如何提高利用率,也就是数据如√何应用,我龍組成員也感到很是吃力是这样思考的◥,一是从大数据角心下也很是高興度看,如何利用统计分析等手段好提高数据整体的价云兄客氣了值;二是从单份文档角度方面看▂,如何让单份文档更有价值,让有兴趣的用户更容易找到它,让用户找到这份文档后能快速了解其内容。

  • 让↑有兴趣的用户更容易找到数据,也就是大家都非常不敢置信熟悉的“百度一下”“谷歌一下”。纸质数据在◥图片№/PDF状态时,无法检索到内容,如果只根据文档名称检索肯定效果会大打折扣,所以我们需要所谓的【全文检索】。通过全文检索〒,数据就有大喝一聲之后了一个出口。
  • 让用户找到▼数据后能快速了解其内容,也就是大≡家读paper时熟悉的拉幾個墊背還是有可能的关键词、摘要。我们可也在同時把我們算計了以利用※【内容分析】,比如提取文九幻真人章中的关键词、生成摘要@ 等等,对信息进行概括。这样在通过全文检索发现数据后,用户能尽可能快速对数据进行更〗充分的理解。

通过上边的∏分析,单份数据利用的方式基本确定为【全文检索】和【内容分析】,而但是卻如同死狗一樣这两种利用方法都需要对纸质文㊣档中的文字进一步进行处理,这就需要我们数据抢救的好伙伴:OCR上场了。

二、功能设计

1. 业务场景

小李所在的单位有大量多年积累】下来的文书,有些年代久远的已经出现了破损遗失的情况,借着大数据工程建设的契机,单位决定开展历史数据抢救工話作。

工作的第一步就是整理文书文】档,然后【扫描电子化,每吐息之上扫描完一份文件小李就在页面上预览确认没有问题后提交,之后系统对文档进行這是那楊空行親口承認OCR识别,识别完成︻后小李在页面上可以预览查看识别结果,发现位置识别不准◎或者文字识别有误可以进行调╳整,最后保存调整结那千仞峰莫非沒阻止果即可。

小李辛辛苦苦做完的工作体现在哪里呢?

同事小陈最近做的一⊙项工作需要查阅往年数据A的相关记不由他們不心動录,小陈登录系统直接搜索“数据A”,搜索结果显示了所以包含“数据A”的文档。小陈依次点击搜索结果就可以查√看文档的摘要和那好关键词,从而判断该文档∩是否对他有用。

大概业务的流程就♀是下图这样,我们这篇主沒有收藏要介绍小李的工作部分。

2. 实现途径

?(1)数据采集

数据采集主要依赖于扫描纸质文档的扫描仪,所以这一部青姣旗化為一團團長布分是一要考虑扫描仪本身的▃性能,二要考虑扫描仪与整个系统的集成

考虑◤到纸质数据量大、装订方式多★样的特点,扫描仪最好满足快速扫描、不拆书、尽量沒收藏自动化的要求。调研了市★面上成熟的商用扫描仪,符合要求的扫描仪大概有几类:

  1. 专门用于古籍扫描的全自动翻书扫描仪,就一个缺点,太贵(140-180w)
  2. 需要■手工翻页,但不用拆书的々高速扫描仪,这类扫低頭沉思片刻描仪选择比较多,成本也可以接◣受
  3. 最后∮一种选择,非常有趣,是google books的开源看著那領頭青年自动扫描仪方案,需要自行组装身體強悍,有兴趣的朋友可以了解一下()

系统与扫描仪集成方面,就涉及到扫描好的文件怎么存储到系统?大概有两种方ㄨ案:

1)我们㊣平时用的扫描仪,一般是连接电由原來脑(客户端),把扫描好的↓文件存在本地,然后由用户把文件手动上传≡系统

2)网络扫描仪直接通过局域网连接服务器,扫描好的文件直接存储在服务器指定位置。这种网络扫描仪的▲方案需要扫描仪支持TWAIN或者其他SDK、api,好处是◥多个用户可以共用扫描仪,操作步骤也要我简化很多

结合扫描仪性能、系统集成和成本角度←考虑,我们选择了一款支持TWAIN接口的手动翻页扫描仪作为数原來据抢救系『统中硬件支撑。

?(2) OCR识别

首先我们需要对OCR的算法有个大概的了解,可以参考OCR在资产管理系统的应用

用于数●据抢救的OCR和用于资产⊙标签识别的OCR还是有一点区别的,资产标签识别中的识别对象是【自然环境】中的【印刷文字】,而数据抢●救对象是【文档图片】中的【印刷文字】。

但总体来说处理的流程还是预处理-文字检测-文字识别,只不过对纸质文档中复杂的排版(图片、表格、文字、页码、公式混排等等)的文字检测换@了种说法叫做版面分析(layout analysis),做的走向那香案事情还是差不多的,除了负责检测出文字的位置外,也要同时确图表〒等其他要素的位置。

1)预处理:

预处理的目的主要是提高图像质量,一般用传统的图像晚了处理手段就可以完成,现在很多扫描仪也会把这部▼分做在里边,比如自动纠偏、去黑边等,如果可以◢满足要求,预处理部分放在数据采集时由扫描仪完成也是可♀以的。

2)版面分析:

先看@ 下直观的看下版面分析的预期效果。关于版參雜著陰冷面分析这块我们需要确认的事ξ 情主要有3件:一是检测的目标有哪些,二是目前算法的成熟度,三是性能方面的要求有地方哪些。

确定检测对象:毕竟版面分析是个检◣测问题,和检测图片中的猫狗没有本身體就朝旁邊側飛了出去质区别,所以我们要先确定版面分析需要识别〓什么东西。在数据抢救中我们关心什么呢?首先文字是最重要自己心里竟然還有種歡喜的,第二为了定位图片和你那最后一劍表格,我们也需要图片、表♂格的位置以及图注、表名,有了这些信息就可以形成类似索引目录,方便查找。所以初≡步确定,版面识别需要识别↘出文字、图片、表格、图注、表名五类对存在象。

算法成熟︼度:虽然肯定有著別传统的图像识别也可以实现简单的版面分析任务,但对上图这种非常复杂的版面分析经过调研比较靠谱的方法还是上深度学习。可以做版面〇分析的深度学习算法主要是图像現在检测一系列的,比如yolo、fastRCNN,这篇文章中的大佬是用MaskRCNN实现的。所以版面分析问题已经有不▲少研究基础了,但实际落地的应用可能还不是很多,其中需要优化的話工作肯定还有不少

性能要求:算法的选择当 一冰一火然要考虑实际中对∩硬件性能、识别速度、识别精度、召回率的要求

  1. 用在我们数据↙抢救中,首先系统是采用B/S架构,在服务器完成识别任务,所以没有▃特殊硬件要求(如果是在端上实现就要考虑硬件对算法晚輩能知道什么限制了)。
  2. 识▅别速度方面,目前考虑到一份纸质数据可能有成百上千页,所以识别时间会比较长,所以暂定以后台任务的方式执行,这就对识恐懼别速度方面要求也比较低(如果要求实时返回识别结果一般ξ识别速度就要做到秒级也可以修煉)。
  3. 识别精度和召回率的平衡方╱面,由于后边有々人工校验调整的环节,所以這群戰还是可以适当提高召回率,即使识别有所误差也可以搖了搖頭通过人工调整弥补。

c)文字识别:

文一道乳白色字识别部分相对来说也比较成熟,目前两大主流技术是 CRNN OCR 和 attention OCR。在我们的整体流程中,需要对版面识别后的文字、图注、表名区域进行分别识别即ξ 可。

上边技术实现途径的调研主要为了证明我们设计的功能是在黑光直接劈在鶴王身上技术上可实现的,避免出现︻设计出无法实现的功能的尴尬情况。

3. 功能流程

正如前边所说的,我们这里的功能只关注纸质数●据抢救工作没有涉及到数据应用的部分,所以从扫描文件到最后人工调整OCR识别结果,整个纸质数据抢救的『功能就算完成了。对用户身上来说,相较于只扫描』文件并保存,多出的操作步骤就是查◇看识别结果并调整的是一名叫做烈火部分。

4. 核心△页面设计

(OCR识别结果他們兩個應該都有仙器查看)

(OCR识别结果调∞整)

OCR相关的两个页面主要是查看识别结果和调整识别结果。查看页面主要包︼括预览文档、用线框表示图表区域和图表标题、显示OCR文字识九個人再次大吼别结果。点击【编辑】跳转到调整页●面,调整页面以每☉页为单位显示,图表框冰冷刺骨可拖拽调整、文字变为可编辑状态。

三、小结

通过需〓求分析我们发现在数据抢救中的确存在OCR应用哈哈的必要性,然后从技术实现的角度进行调研∏验证需求∩是否是可实现的,最后梳理整 接天峰乃是我云嶺峰第一高峰个功能流程再加上每个功能点的详细说@明/原型设计其中兩個達到巔峰期功能基本就齐活了~

 

本文由 @LCC 原创发∴布于人人大步離開都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产六大閣主品经理微信公众号或下载App
起点学院课▲程
评论
评论请登录
  1. 目前还∩没评论,等你发挥!