《《OCR技术及其应用》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《OCR技术及其应用》PPT课件.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1Optical Character Recognition文档图像电子文档2字符识别的历程n概念的提出始于1929年n国内的研究从70年代才开始,目前已经达到国际先进水平,其中汉字工作识别技术已经位居国际领先3字符识别的类型n脱机联机4银行领域的应用5税务领域的应用-34*-31*8*108*5/+425-0*975*3880029825-6电子政务领域的应用n电子公文审批与流转n电子公文的识别与查询7OCR应用的技术组成8图像处理n去噪声、平滑、去黑边、倾斜校正等910版面理解11表格识别12字符分割n行分割n字分割13字符识别14字体识别宋体仿宋黑体楷体隶书魏碑圆体15语义后处理中国触结
2、解泼木岁济平光先疥天大发限屏永示晨乒年本乎绪讳屠水严申的创徘绳经络围牛图囤午印固先 天中 固光 大图 解本 年水 平中 国经 济发 展展中国的经济发展水平16格式化输出17目前挑战性的课题n脱机手写汉字识别n超大字符集的印刷字符识别n非定制版面分析18OCR涉及的模式识别问题n一致性假设n在统计意义下,一般假设:n样本与分类对象具有同分布。n给定的所有分类对象独立同分布。19样本的分析n决策对样本空间划分的有效性。n推广能力:决策对分类对象的有效性。20贝叶斯决策理论n已知的先验概率n需要决策的类别数是一定的n基于模型的方法21人工神经网络n缺乏充分的理论基础n局部极小点问题n过学习与欠学习的
3、问题22支持向量机n统计学习理论n一种专门研究小样本统计学习规律的理论n九十年代初取得重要进展23核技术n可以证明,一定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。n研究核函数选择的技术称为核技术。24对比测试25弱分类器n如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。n这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。26集成n采用投票的方式决定新样本类别。n由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均进行分类。n1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。27谢 谢!28