《2022年如何将扫描图片上的文字变成文档 .pdf》由会员分享,可在线阅读,更多相关《2022年如何将扫描图片上的文字变成文档 .pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Ocr 技术1 如何将扫描图片上的文字变成word 文档以前好像弄过,记不太清.我扫下来的图格式是jpg,然后双击打开,打开后点击 编辑“全选”(也可以直接按住鼠标左键选出你要的部分图和字)复制 打开一个word 文档 粘贴(出来的既有图又有字)删去图就只有字了(如果旁边出现一个智能标记,还可以将鼠标移到标记上点一下,看见出现几个选择,选“仅保留文本”就行)。还弄过从网页上复制的,不过前提好像要该网页允许复制内容才行,那更简单一点,直接用鼠标选出要复制的东东,再建一个文本文档,先粘贴在文本文档上,再建一个word 文档,再从文本文档上复制粘贴到word 上就行了,下来的好像直接就是只有字了。好
2、像当时就是这样的,具体的你可以试一下。扫描文字,结果以图片格式(.bmp)存入电脑。然后使用ORC识别系统进行转换,最终用WORD 进行修改编辑。下面教你如何使用ORC:OCR 是英文 Optical Character Recognition的缩写,翻译成中文就是通过光学技术对文字进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现在OCR 主要是指文字识别软件,在1996 年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR 软件一直是分开销
3、售的,专业的OCR 软件谠缧焙蚵舻帽壬枰腔挂蟆 K 孀派枰欠直媛实奶嵘琌 CR 软件也在不断升级,扫描仪厂商现在已把专业的OCR 软件搭配自己生产的扫描仪出售。OCR 技术的迅速发展与扫描仪的广泛使用是密不可分的,近两年随着扫描仪逐渐普及和OCR 技术的日臻完善,OCR 己成为绝大多数扫描仪用户的得力助手二、OCR 的基本原理简单地说,OCR 的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件CCD 将文稿的光信号转换为电信号,经过模拟数字转换器转化为数字信号传输给计算机。计算机接受的
4、是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是OCR 的重要技术。1OCR 识别的两种方式与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、1 这两个数字来记录和进行识别的,所有信息都只是以0、1 保存的一串串点或样本点。OCR 识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征提取法两种方式进行字符识别。单元模式匹配识别法(Pattern Matching)
5、是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工选择或直接录入。特征提取识别法(Feature Extraction)是将每个字符分解为很多个不同的字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字符进行匹配。举个简单的例子,应用程序识别到两条水平横
6、线,它就会“认为”该字符可能是“二”。特征提取法的优点是可以识别多种字体,例如中文书法体就是采用特征提取法实现字符识别的。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 3 页 -Ocr 技术2 多数 OCR 应用软件都加入了语法智能检查功能,这种功能进一步提高了识别率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,OCR 应用程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺序,对应的检查字符串的用词字。比较高级的应用软件会自动用它“认为”正确的词语替换错误词语,纠正语句意思。2文字识别的几个步骤文字识别包括以下几个步骤:图文输入、预处理、单字识
7、别和后处理等。(1)图文输入是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR 软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征距离加大,识别错误率上升。(2)预处理扫描一幅简单的印刷文档的图像,将每一个文字
8、图像分检出来交给识别模块识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶段的工作非常重要,处理的效果直接影响到文字识别的准确率。版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关系作为一种数据结构,提供给识
9、别模块自动识别。对于文本区域直接进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的过程。(3)单字识别单字识别是体现OCR 文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率
10、才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学或认知科学在人工智能
11、方面的应用,其关键技术是识别特征库。计算机有了这样的一个特征库,才能完成认字的功能。在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识别,并根据表格线的数字化生成不同名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 3 页 -Ocr 技术3 的文件格式。由于文档中的表格随意性大,格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一定的困难。(4)后处理后处理是指对识别出的文字或多个识别结果采用词组方式进行
12、上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过95,为了进一步提高系统的总体识别率,扫描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中都配装了清华OCR
13、千禧版软件,它在识别率、表格识别甚至规范手写体的识别方面,均达到了较高水平。三、OCR 文字识别技巧在最近几年中,OCR 识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达不到软件所说的95以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描及OCR 识别技巧的原因。下面是文字识别操作中经常用到了一些方法和技巧。1分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软
14、件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或 400dpi 分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。(1)1、2、3 号字的文章段,推荐使用200dpi。(2)4、小 4、5 号字的文章段,推荐使用300dpl(3)小 5、6 号字的文章段,推荐使用400dpl(4)7、8 号字的文章段,推荐使用600dpi。2.扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较
15、细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。3选好扫描软件。选一款好的适合自己的OCR 软件是作好文字识别工作的基础,一般不要使用扫描仪自带的OEM 软件,OEM 的 OCR 软件的功能少、效果差,有的甚至没有中文识别,经过比较,我认为清华紫光OCR2003专业版和尚书OCR6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图像软件,OCR 软件不是有扫描接口吗?为什么还找图像软件?第一,OCR 软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用PHOTOSHOP。4如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分OCR 软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 3 页 -