in

光学字符识别(OCR)解释 – 你需要了解的一切

光学字符识别,通常简称为ocr,是我们今天依赖于adobe acrobat、google drive等文本识别软件中的重要部分。尽管大多数人会认为识别和翻译图像到文本的能力是基于一些现代算法的现代发明,但事实是,ocr软件和图像到文本技术至少从20世纪20年代末就已经存在。最早的ocr创新者是谁呢?一个名叫古斯塔夫·陶舍克的奥地利工程师。他在1929年在德国申请了一个光学字符识别设备的专利,并于1935年在美国再次申请了专利。

但是,古斯塔夫·陶舍克是如何提出这样一个新颖的软件想法的?在当时如此古老的软件上是如何工作的呢?更不用说,陶舍克的文本识别软件的历史意义是什么?幸运的是,这些问题都有答案。继续阅读以了解更多关于古斯塔夫·陶舍克及其ocr发明的内容。

快速事实

创建于
1929年
创造者
古斯塔夫·陶舍克
原始用途
文本识别
成本
n/a

古斯塔夫·陶舍克的黑白肖像。

光学字符识别 (ocr) 关键要点

  • 最早的ocr图像到文本设备的形式是在19世纪末为盲人使用而构思的。发明家们希望他们最初的图像到文本软件可以帮助盲人阅读。
  • 在20世纪70年代,美国发明家雷·库兹韦尔创建了库兹韦尔计算机产品公司,该公司在其全字体ocr软件的创建中严重受到古斯塔夫·陶舍克设备的启发。令人惊讶的是,雷·库兹韦尔的算法能够识别几乎任何字体的文本。
  • 除了他具有开创性的图像到文本发明外,古斯塔夫·陶舍克还发明了169项专利并将它们全部卖给了ibm。凭借软件巨头给予的为期五年的合同,陶舍克使用ocr技术开发了一套基于打孔卡的会计系统和其他几个基于打孔卡的机器。

光学字符识别 (ocr) 历史

维也纳工程师古斯塔夫·陶舍克在20世纪初期是一个自学成才的天才。他拥有超过200项专利,包括前面提到的169项卖给ibm的专利,无疑是一个能够创造远远超越当时同行发明的软件天才。在他的职业生涯中,他曾为ibm和德国的武器与汽车制造公司rheinische metallwaren- und maschinenfabrik(今天被称为rheinmetall)工作。

陶舍克在光学字符识别方面的工作始于创建能够准确高效地将图片转化为文本的软件的任务。他使用这项专有技术主要用于他的基于打孔卡的计算机。在此基础上,陶舍克发明了陶舍克的阅读机:一种机械设备,可以读取图像上的字符和数字,并将它们转化为纸张上的印刷字符和数字。

许多早期的人们,例如美国发明家查尔斯·r·凯里(charles r. carey),都提出了类似的光学字符识别(ocr)的早期形式,但是tauschek是第一个将其从纸上实现并转变为真实世界设备的人,他发明了阅读机器。

tauschek的阅读机器的专利图纸

光学字符识别(ocr):工作原理

gustav tauschek的阅读机器是一种使用与光电光探测器相匹配的模板的机械设备。当带有文字的图片通过阅读机器的窗口时,比较装置(一个带有字母和数字形状的孔的盘)会在窗口前旋转以寻找匹配。当图像上的文字与比较装置上的一个字母形状的孔之一相匹配时,机器会旋转印刷滚筒到相应的字母位置。然后,字母被打印在纸上。

从1929年起直到现代,ocr设备经历了各种不同的变化以满足各种不同的需求(下面将提到)。然而,在一天结束时,相同的基本概念仍然对ocr设备的发展至关重要:将图像上的文本转换为机器编码的文本。

光学字符识别(ocr):历史意义

在tauschek的创新发明之后,许多其他发明家和工程师将他的想法推广到各种不同的方向。这无疑是ocr最具历史意义的事情:在几十年后,tauschek的创造物产生了多种不同的用途。

1931年,ocr技术被用于创建一种文字转电报的设备。从那时起,该技术发展成为一种文字转摩尔斯密码的设备。然后,在1966年,该技术变得能够识别手写并将其转换为文本。1978年,雷·库兹韦尔(ray kurzweil)的全字体ocr问世。然后,在80年代,ocr技术成为零售店的条形码扫描器和办公室和学校的施乐机的重要组成部分。如今,google drive和adobe acrobat提供免费的在线ocr软件版本,能够在200多种不同语言中以准确和清晰的方式工作。

显然,从gustav tauschek到ray kurzweil再到google drive和所有介于其中的人,ocr算法具有重要的历史意义,今天仍在不断创新和改进。

google drive是由google创建的文件存储和同步服务。

©dennizn/shutterstock.com

Written by