ocr是什么(ocr是什么意思中文翻译)

【ocr是什么(ocr是什么意思中文翻译)】

ocr是什么(ocr是什么意思中文翻译)

文章插图
OCR是什么?
Optical Character Recognition的首字母缩写 。是属于图型识别(Pattern Recognition,PR)的一门学问 。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料 。由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生 。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用 。早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别 研究为主,且识别的文字仅为0至9的数字 。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式 。OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战 。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的 、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及 ,亦是决定产品好坏的重要因素 。一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间 。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出 。什么是OCR
汉字识别OCR("光学字符识别"的英文编写)是为了使汉字信息高速输入计算机,以解决低速的信息输入与高速信息处理之间的矛盾,从而提高整个计算机系统的效率 。这种根据汉字人工编码录入汉字文本的 ,从根本上改变了人们对计算机汉字人工编码录入的概念 。使人们从繁重的键盘录入汉字的劳动中解脱出来 。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍 。所以OCR产品的推广意义是深远的 。提高OCR识别率购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版 。很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高 。其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平 。1、处理原稿扫描图像,使之清晰可“辨” 。在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上 。而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率 。对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹 。并注意将偏斜的版面“改斜归正”,通常OCR软件均有此功能,且一般都设有自动纠偏和手动纠偏 。2、分辨率应选择适宜 。一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间 。有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的 。3、调整好亮度值和对比度值 。这条非常关键,对识别率的影响很大 。亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,笔者常根据预扫时图像清晰度确定 。4、利用OCR的自学习功能 。有时OCR对某些字总是难以识别,比如OCR开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了 。具体操作极易,上机看一下菜单即可明白 。另外,若原稿全是英文或其中中文很少,更好用附赠的英文OCR软件 。还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担 。参考资料:请问证件的“OCR识别”是什么意思啊?