三年磨一剑——微信OCR轻松提取图片文字.docx-淘文阁

资源描述

《三年磨一剑——微信OCR轻松提取图片文字.docx》由会员分享，可在线阅读，更多相关《三年磨一剑——微信OCR轻松提取图片文字.docx（15页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、三年磨一剑微信OCR轻松提取图片文字导语2021年度1月微信发布了微信8.0这次更新支持图片文字提取的功能。用户在聊天界面以及朋友圈中长按图片就可以提取图片中文字然后一键转发、复制或者珍藏。图片文字提取功能基于微信自研OCR技术本文将介绍微信OCR才能是怎样落地文字提取业务的。一、背景微信8.0上线了图片提取文字的功能用户在聊天界面以及朋友圈中假如想提取图像中的文字不用再辛苦打字了只要简单几个步骤就可以拿到图片中的文字内容超级方便实用。图1微信客户端提取图片中的文字图片提取文字功能以OCR技术为根底识别出图片中的文字并进展排版展示给用户。OCR技术即OpticalCharacterRecogn

2、ition(光学字符识别)用于识别图像中的文字常见的有卡证识别、票据识别以及通用识别等。OCR具有非常广泛的应用场景。如目前炽热的教育场景中拍照搜题以及智能作业修改、金融场景中票据识别、办公场景的文档电子化、交通场景中的停车管理等都用到了OCR的识别才能。微信OCR识别才能自2018年度开场大力研发目前支持多种卡证识别、车牌识别、通用识别等经历了屡次算法迭代识别精度不断提升获得了业界领先的识别水准。图2微信OCR框架微信OCR才能目前接入了微信小程序效劳市场助力企业的公众号以及小程序业务需求更好更高效地落地同时也在微信客户端的长按图片提取文字、银行卡绑卡、表情搜索以及推荐等业务中成功落地。本文

3、主要介绍微信OCR才能是怎么落地图片文字提取业务的。二、难点与挑战1.怎样判断图像中是否存在文字长按图片的种类复杂多类存在商品、人物、风景、汽车等各种可能性其中大局部图片可能没有文字我们祈望只处理有文字的图片过滤无文字图片。2.怎样判断文本图像的类别对于文本图像同样存在复杂多样的问题比方证件类图像、手写体图像、表格图像等等OCR识别有大量的垂类场景依靠单一的识别模型识别才能可能缺乏准确率不够好。因此我们祈望能判断文本图像的类型根据不同类别选择不同的识别模型。3.怎样优化通用识别算法到达效果以及效率的平衡通用OCR的识别才能是业务使用的主要才能我们祈望通用OCR识别的效果尽可能好能涵盖大局部用户

4、的拍摄场景需求同时落地业务也需要考虑本钱。4.怎样进展版面分析文本识别出来的结果是孤立的文本行内容展示给用户一行行的文字不符合用户的浏览习惯用户后续比照以及使用时也会存在困难。我们祈望能对识别出来的文本行进展合并排版以用户易于浏览的方式展示。三、文字提取整体解决方案针对上面分析的难点以及挑战我们设计了下面的提取文字流程:图3图片提取文字的完好流程快速文字断定模块用于快速判断图像中是否存在文字假如存在文字弹出提取文字入口。文本图像分类模块用于判断文本图像的类别是垂类文本场景还是通用文本场景等根据类别选择不同的识别道路。垂类文本识别包括证件识别、表格识别等可以调用相关的API进展识别我们也会根据线

5、上用户数据分析用户需求不断扩展新的垂类文本识别才能。通用文本识别包括文本检测以及文本识别两个阶段文本检测用于定位文字区域文本识别用于识别文本行的内容。版面分析模块将识别出来的文本按易于浏览的方式进展排版展示。下面将对流程中的各个模块中的算法进展介绍。1.快速文字断定业务场景的图像丰富多样存在无文字图像以及有文本图像且文本图像中可能存在不同的语种。图4不同类型图像例如我们的需求快速判断图像中是否存在中英文本兼容长按翻译同时需要判断文本中的文本语种挪动端部署速度以及模型大小要求高。可以采用普通的图像分类来判断图像上是否有文字及文本语种类别但存在下面的一些问题图片复杂分类准确率低文本占比小存在误判图

6、片中可能存在多语种语种之间有相似性无法确定各语种的文本在图像中区域以及所占的比例。我们提出了一个可以用于挪动端部署的快速多语种文本分类检测网络判断不同区域的文本所属的语种类别可以计算得到图像中是否存在文字和文字语种和所占面积等。目前支持拉丁英文、中文、日文、韩文、泰文、俄文、越南语等语种的检测以及分类。该模块采用超轻量级的CNN网络在挪动端平均耗时约80ms具有较高的检测召回以及分类精度可以快速过滤不必要的图像。图5多语种文本分类检测网络2.文本图像分类文本图像分类标签体系融入到长按图片分类标签体系中。采用多标签分类来适应复杂图像场景。目前文本图像类别分为证件票据以及文档两大类别后续可能根据需

7、求扩大。图6长按图片分类标签体系3.通用OCR识别1文本检测常用的基于深度学习的文本检测方法一般可以分为基于回归的、基于分割的两大类当然还有一些将两者进展结合的方法。图7常用文本检测算法基于回归的方法分为box回归以及像素值回归。采用box回归的方法主要有CTPN、Textbox系列以及EAST这类算法对规那么形状文本检测效果较好但无法准确检测不规那么形状文本对过长文本效果也不太好。像素值回归的方法主要有CRAFT以及SA-Text这类算法可以检测弯曲文本且对小文本效果优秀但是实时性能不够。基于分割的算法如PSENet这类算法不受文本形状的限制对各种形状的文本都能获得较好的效果但是后处理通常比

8、拟复杂耗时较多。我们采用了基于实例分割的DBNet算法DBNet将二值化进展近似使其可导融入训练进而获取更准确的边界大大降低了后处理的耗时。此外DB使用轻量级网络也有很好的表现且长文本不易切断。图8DBNet模型构造基于速度以及性能的平衡的考虑backbone我们选择了轻量级网络mobilenetv3并对模型的header做了一些裁剪使得模型大小减少、预测速度提升但性能细微下降。针对小文本、超长图像检测以及一些特殊场景图像检测我们也做了一些相应的优化。此外为了适应多方向的文本图像我们在检测模型上参加了方向断定分支支持判断文本框的文本方向。在模型训练上我们采用了模型蒸馏的方法先训练resnet5

9、0模型作为teacher模型然后参加mobilenetv3模型作为student模型结合训练最终的性能相对不蒸馏的模型能提升1个点。在模型部署上采用TensorRT部署线上T4机型平均耗时小于30ms。2文本识别文本检测需要的训练数据相对较少文本识别那么需要大量的数据进展训练十分是中文字符数较多存在生僻字等训练数据获取困难。文本识别存在下面的一些困难通用场景复杂文字多样各种字体以及风格的文字都可能存在数据难以收集生僻字问题字符不平衡相似字问题。针对上面的问题我们需要使用数据合成工具来合成大量训练数据。数据合成工具TextRender合成文本行识别数据StyleText合成文本行识别数据。Tex

10、tRender是利用图像处理的方法来合成数据对已有语料或者字符表字符随机组合结合模糊、倾斜、透视变换以及加背景等方法生成接近真实场景中的文字图片生成字符的数量、字体、大小以及风格可控速度快是我们主要采用的合成方法。图9TextRender例如StyleText是采用模型风格迁移的方法针对实际场景真实数据严重缺乏TextRender无法合成文字风格字体、颜色、间距、背景的问题的补充利用少许目的场景图像就可以批量合成大量与目的场景风格相近的文本图像。我们主要利用其补充badcase的数据。图10StyleText例如文本识别算法目前主流的是基于深度学习的端到端的文字识别将其转化为序列学习问题两大主

11、流技术是CRNNOCR以及AttentionOCR。CRNNOCR借鉴了语音识别思想引入LSTMCTC的建模方式解决不定长序列对齐问题。AttentionOCR借鉴了机器翻译中的Encoder-Decoder模型并参加了注意力(Attention)机制来帮助特征对齐。近年度来还出现了一些新的方法如ACE方法采用统计时间维度上各字符的数量进展监视的方法来进展文本识别也获得了不错的效果。图11文本识别算法比照在模型设计上我们采用了结合上面3种方法的多任务文本识别模型。在训练时以CTC为主AttentionDecoder以及ACE辅助训练。在预测时考虑到速度以及性能只采用CTC进展解码预测。多任务可

12、以进步模型的泛化性同时假如对预测时间要求不高多结果可以以提供更多的选择以及比照。图12多任务文本识别模型在模型训练上我们采用了多种文本图像增强的方法来提升模型的泛化性以及鲁棒性十分是为了对弯曲扭曲变形文本有更好的识别效果我们采用了在线文本distort变换识别准确率提升1-2个点。图13在线文本图像增强此外针对生僻字以及形似字问题我们对CTCloss进展优化参加了focalloss以及centerloss辅助训练在形似字测试集上能提升2-3个点。4.版面分析版面分析主要用于分析哪些文本行属于同一段落合并文本行哪些区域是表格等目前有基于深度学习分割的方法以及基于规那么的方法。基于深度学习的版面分

13、割方法数据标注困难部署模型大小耗时泛化性不够依赖训练数据解决badcase需重训模型不够灵敏。基于几何规那么的版面分析方法依赖写好的规那么快速修复badcase耗时小部署简单。基于上面的分析比拟我们采用自研的基于几何规那么的版面分析方法通过DFS的文本框合并获得了不错的排版效果。5.结果展示比照与竞品比照优势如下所示1支持垂直文本识别2支持证件图片准确提取3排版更合理4过滤无意义文本四、总结与展望提取文字作为一个效劳用户的工具我们祈望能提供应用户尽可能准确以及高效的结果。后续我们将根据用户的提取需求进一步扩展垂类场景同时打磨更通用的自然场景文本识别算法。而OCR作为图像以及文本之前的桥梁我们也

14、将继续深耕微信OCR更好地为业务效劳。最后也欢送大众扫码体验OCR体验工具。参考文献1、EditTextintheWild,LiangWu,ChengquanZhang,JiamingLiu,JunyuHan,JingtuoLiu,ErruiDing,XiangBaiACMMM20192、LearntoAugment:JointDataAugmentationandNetworkOptimizationforTextRecognition,Luo.C;Zhu,Y;andWang,Y,CVPR20203、Real-timeSceneTextDetectionwithDifferentiableB

15、inarization,MinghuiLiao,ZhaoyiWan,CongYao,KaiChen,XiangBai,AAAI20204、EAST:AnEfficientandAccurateSceneTextDetectorXinyuZhou,CongYao,HeWen,YuzhiWang,ShuchangZhou,WeiranHe,JiajunLiangCVPR20175、ASTER:AnAttentionalSceneTextRecognizerwithFlexibleRectificationBaoguangShi,MingkunYang,XinggangWang,PengyuanLy

16、u,CongYao,andXiangBa,PAMI20186、AggregationCross-EntropyforSequenceRecognition.ZechengXie,YaoxiongHuang,YuanzhiZhu,LianwenJin,YuliangLiuandLeleXie.CVPR.20197、SyntheticDataforTextLocalisationinNaturalImages,AnkushGupta,AndreaVedaldi,AndrewZisserman,CVPR2016.8、DetectingOrientedTextinNaturalImagesbyLink

17、ingSegmentsBaoguangShi,XiangBai,SergeBelongieCVPR20179、TextBoxes:ASingle-ShotOrientedSceneTextDetectorMinghuiLiao,BaoguangShi,XiangBaiAAAI201810、ShapeRobustTextDetectionwithProgressiveScaleExpansionNetworkWenhaiWang,EnzeXie,XiangLi,WenboHou,TongLu,GangYu,ShuaiShaoCVPR201911、IncepText:ANewInception-T

18、extModulewithDeformablePSROIPoolingforMulti-OrientedSceneTextDetection,QiangpengYang,MengliChengetal.IJCAI201812、PixelLink:DetectingSceneTextviaInstanceSegmentationDanDeng,HaifengLiu,XuelongLi,DengCaiAAAI-201813、EfficientandAccurateArbitrary-ShapedTextDetectionwithPixelAggregationNetworkWenhaiWang,EnzeXie,XiaogeSong,YuhangZangICCV201914、DetectingTextinNaturalImagewithConnectionistTextProposalNetworkZhiTian,WeilinHuang,TongHe,PanHe,YuQiaoECCV201615、DeepMutualLearningYingZhang,TaoXiang,TimothyM.Hospedales,HuchuanLuCVPR2018周四晚腾讯程序员视频号直播腾讯技术工程

展开阅读全文