ocr是什么(ocr是什么意思中文翻译) _小知识

【ocr是什么(ocr是什么意思中文翻译)】

文章插图
OCR是什么？
Optical Character Recognition的首字母缩写。是属于图型识别（Pattern Recognition，PR）的一门学问。其目的就是要让计算机知道它到底看到了什么，尤其是文字资料。由于OCR是一门与识别率拔河的技术，因此如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。而根据文字资料存在的媒体介质不同，及取得这些资料的方式不同，就衍生出各式各样、各种不同的应用。早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。OCR可以说是一种不确定的技术研究，正确率就像是一个无穷趋近函数，知道其趋近值，却只能靠近而无法达到，永远在与100%作拉锯战。因为其牵扯的因素太多了，书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的、学习及测试的样本……等等，多少都会影响其正确率，也因此，OCR的产品除了需有一个强有力的识别核心外，产品的操作使用方便性、所提供的除错功能及，亦是决定产品好坏的重要因素。一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。什么是OCR
汉字识别OCR（"光学字符识别"的英文编写）是为了使汉字信息高速输入计算机，以解决低速的信息输入与高速信息处理之间的矛盾，从而提高整个计算机系统的效率。这种根据汉字人工编码录入汉字文本的，从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机，就能通过OCR软件自动产生汉字文本文件，这与人手工键入的汉字效果是一样的，但速度比手工快几十倍。所以OCR产品的推广意义是深远的。提高OCR识别率购买了扫描仪，你一定会发现，附赠的软件中有中英文OCR识别软件，当然一般都是基础版。很多人认为此类OCR的识别率不是很高，甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高。其实，你只要注意使用技巧，此类OCR的识别率完全可达实用化水平。1、处理原稿扫描图像，使之清晰可“辨” 。在其它因素都满足的前提下，对一般的印刷稿、打印稿（包括清晰的针打稿）等质量较好的文稿进行识别，其识别率一般可达到98％以上。而对报纸、复印件等不太清晰的文稿进行识别，无论哪种OCR都难以达到较高的识别率。对那些原稿不太清晰的，要注意识别前对图像加以处理，除去其上的污迹。并注意将偏斜的版面“改斜归正”，通常OCR软件均有此功能，且一般都设有自动纠偏和手动纠偏。2、分辨率应选择适宜。一般选择300dpi较合适，分辨率选小了会使识别率降低，选得太大了并不能有效提高识别率，还会大幅度加长文件长度，浪费处理时间。有的扫描软件设备上有一项“OCR扫描”，干脆将分辨率锁定为300dpi，这是很有道理的。3、调整好亮度值和对比度值。这条非常关键，对识别率的影响很大。亮度值的调整是在识别前，先看看扫描得到的图像中文字质量如何，如果文字线条凹凸不平，甚至有断线，说明亮度值太大了，应减小亮度值；当文字线条很黑很粗，甚至挤成了黑疙瘩，分不清笔划时，则说明亮度值太小了，应增加亮度值；对比度的调节要视原稿确定，笔者常根据预扫时图像清晰度确定。4、利用OCR的自学习功能。有时OCR对某些字总是难以识别，比如OCR开始对“的”和“二”等字总是搞错，这时可以利用OCR软件的自学习功能，“引导”它正确识别一次（有些不同的字体各需一次），它以后就对这些字“熟识”了。具体操作极易，上机看一下菜单即可明白。另外，若原稿全是英文或其中中文很少，更好用附赠的英文OCR软件。还有，现在已有一些很好的文字校对软件，其中一般都设置了OCR校对，利用这些软件先行处理一下所得文本文件，则可大大减轻人工校对负担。参考资料：请问证件的“OCR识别”是什么意思啊？