Optisk tegngenkendelse

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 22. april 2021; checks kræver 3 redigeringer .

Optisk tegngenkendelse ( eng.  optical character recognition, OCR ) - mekanisk eller elektronisk oversættelse af billeder af håndskrevet , maskinskrevet eller trykt tekst til tekst, der bruges til at repræsentere tegn i en computer (for eksempel i en teksteditor ). OCR bruges i vid udstrækning til at konvertere bøger og dokumenter til elektronisk form , til at automatisere virksomhedsregnskabssystemer eller til at udgive tekst på en webside . Optisk tegngenkendelse giver dig mulighed for at redigere tekst, søge efter ord eller sætninger, gemme den i en mere kompakt form, vise eller udskrive materiale uden at miste kvalitet, analysere information og anvende elektronisk oversættelse , formatering eller tale til tekst . Optisk tekstgenkendelse er et undersøgt problem inden for områderne mønstergenkendelse , kunstig intelligens og computersyn .

OCR-systemer kræver kalibrering for at arbejde med en bestemt skrifttype ; i tidlige versioner krævede programmering et billede af hver karakter, programmet kunne kun arbejde med én skrifttype ad gangen. På nuværende tidspunkt er de mest almindelige de såkaldte "intelligente" systemer, som genkender de fleste skrifttyper med en høj grad af nøjagtighed. Nogle OCR-systemer er i stand til at gendanne den originale formatering af tekst, herunder billeder, kolonner og andre ikke-tekstkomponenter.

Historie

I 1929 modtog Gustav Tauschek patent  på OCR i Tyskland , efterfulgt af Handel ( eng. Paul W. Handel ), der opnåede patent på sin metode i USA i 1933. I 1935 modtog Tauschek også et amerikansk patent på sin metode . Tausheks maskine var en mekanisk enhed, der brugte skabeloner og en fotodetektor.  

I 1950 byggede David H. Shepard , en kryptoanalytiker  hos United States Armed Forces Security Agency , efter at have analyseret problemet med at konvertere udskrevne meddelelser til maskinsprog til computerbehandling, en maskine, der løste dette problem. Efter at han modtog det amerikanske patent, rapporterede han det til Washington Daily News (27. april 1951) og til The New York Times (26. december 1953). Shepard grundlagde derefter et firma, der udviklede intelligente maskiner, som snart udgav verdens første kommercielle optiske tegngenkendelsessystemer.

Det første kommercielle system blev installeret på Reader's Digest i 1955. Det andet system blev solgt til Standard Oil for at læse kreditkort til checks. Andre systemer leveret af Shepards firma blev solgt i slutningen af ​​1950'erne, inklusive en sidescanner til US National Air Force , designet til at læse og fjernskrive maskinskrevne beskeder. IBM fik senere licens til at bruge Shepards patenter.

Omkring 1965 gik Reader's Digest og RCA sammen om at skabe en OCR-dokumentlæser designet til at digitalisere serienumrene på Reader's Digest-kuponer returneret fra reklamer. Til udskrivning på dokumenter brugte RCA-tromleprinteren en speciel OCR-A- skrifttype . Dokumentlæseren arbejdede direkte med RCA 301-computeren (en af ​​de første halvledercomputere). Maskinens hastighed var 1500 dokumenter i minuttet: den kontrollerede alle dokumenter, undtagen dem, den ikke kunne behandle korrekt.

Siden 1965 har United States Postal Service brugt OCR-maskiner til at sortere post, baseret på teknologier udviklet af forskeren Yakov Rabinov. I Europa var den første organisation, der brugte OCR-maskiner, det britiske postkontor. Canada Post har brugt optiske tegngenkendelsessystemer siden 1971. I det første trin, i sorteringscentret af det optiske tegngenkendelsessystem, læses modtagerens navn og adresse, og en stregkode udskrives på konvolutten. Den påføres med en speciel blæk, der er tydeligt synlig under ultraviolet lys . Dette gøres for at undgå forveksling med det personudfyldte adressefelt, som kan være hvor som helst på kuverten.

I 1974 grundlagde Ray Kurzweil Kurzweil Computer Products og begyndte at arbejde på udviklingen af ​​det første optiske tegngenkendelsessystem, der er i stand til at genkende tekst trykt i enhver skrifttype. Kurzweil mente, at den bedste anvendelse af denne teknologi ville være skabelsen af ​​en læsemaskine til blinde, som ville gøre det muligt for blinde at have en computer, der kunne læse tekst højt. Denne enhed krævede opfindelsen af ​​to teknologier på én gang - en CCD flatbed scanner og en synthesizer, der konverterer tekst til tale. Det endelige produkt blev præsenteret den 13. januar 1976 under en pressekonference ledet af Kurzweil og ledere af National Federation of the Blind.

I 1978 lancerede Kurzweil Computer Products det første kommercielt succesfulde OCR-computerprogram. To år senere solgte Kurzweil sit firma til Xerox Corporation, som var interesseret i yderligere at kommercialisere OCR-systemer. Kurzweil Computer Products blev et datterselskab af Xerox, kendt som Scansoft.

Det første program til at genkende det kyrilliske alfabet var AutoR-programmet fra det russiske firma OKRUS. Programmet begyndte at blive distribueret i 1992, fungerede under DOS -operativsystemet og gav anerkendelse acceptabel med hensyn til hastighed og kvalitet, selv på IBM PC/XT personlige computere med en Intel 8088-processor ved en clockfrekvens på 4,77 MHz. I begyndelsen af ​​90'erne leverede Hewlett-Packard sine scannere til det russiske marked komplet med AutoR-programmet. "AutoR"-algoritmen var kompakt, hurtig og fuldt ud "intelligent", det vil sige virkelig font-uafhængig. Denne algoritme blev udviklet og testet tilbage i slutningen af ​​60'erne af to unge biofysikere, kandidater fra Moskva Institut for Fysik og Teknologi  - G. M. Zenkin og A. P. Petrov. De offentliggjorde deres genkendelsesmetode i tidsskriftet Biophysics i nummer 12, nr. 3 for 1967. I øjeblikket bruges Zenkin-Petrov-algoritmen i flere applikationssystemer, der løser problemet med at genkende grafiske symboler. Baseret på algoritmen blev PenReader- teknologien skabt af Paragon Software Group i 1996 . G. M. Zenkin fortsatte arbejdet med PenReader-teknologi hos Paragon Software Group [1] . Teknologien bruges i virksomhedens produkt af samme navn [2] .

I 1993 blev tekstgenkendelsesteknologien fra det russiske firma ABBYY frigivet . På baggrund af den er der skabt en række virksomhedsløsninger og programmer til massebrugere. Især ABBYY FineReader tekstgenkendelsesprogrammet , applikationer til tekstinformationsgenkendelse fra mobile enheder og ABBYY FlexiCapture-systemet til streaming af dokumenter og dataindtastning. Licensgivere af ABBYY OCR tekstgenkendelsesteknologier er internationale it-virksomheder såsom Fujitsu , Panasonic , Xerox , Samsung [3] , EMC og andre.

Den aktuelle tilstand af OCR-teknologi

Nøjagtig genkendelse af latinske tegn i trykt tekst er i øjeblikket kun mulig, hvis klare billeder er tilgængelige, såsom scannede udskrevne dokumenter. Nøjagtigheden med denne formulering af problemet overstiger 99%, absolut nøjagtighed kan kun opnås gennem efterfølgende menneskelig redigering. Problemerne med genkendelse af håndskrevet "trykt" og standard håndskrevet tekst samt trykte tekster i andre formater (især med et meget stort antal tegn) er i øjeblikket genstand for aktiv forskning.

Metodernes nøjagtighed kan måles på flere måder og kan derfor variere meget. For eksempel, hvis et specialiseret ord, der ikke bruges til den tilsvarende software, stødes på, når du søger efter ikke-eksisterende ord, kan fejlen øges.

Online karaktergenkendelse forveksles nogle gange med optisk tegngenkendelse. Sidstnævnte er en offline metode, der arbejder med en statisk form for tekstrepræsentation, mens online karaktergenkendelse tager højde for bevægelser under skrivning. For eksempel ved onlinegenkendelse ved hjælp af PenPoint OS eller en tablet-pc kan du bestemme, om en linje skrives fra højre mod venstre eller fra venstre mod højre.

Onlinesystemer til on-the-fly håndskriftsgenkendelse er for nylig blevet almindeligt kendt som kommercielle produkter. Algoritmerne for sådanne enheder bruger det faktum, at rækkefølgen, hastigheden og retningen af ​​individuelle sektioner af inputlinjerne er kendt. Derudover vil brugeren lære kun at bruge bestemte skriveformer. Disse metoder kan ikke bruges i software, der bruger scannede papirdokumenter, så problemet med at genkende håndskrevet "trykt" tekst er stadig åben. På billeder med håndskrevet "trykt" tekst uden artefakter kan der opnås en nøjagtighed på 80% - 90%, men med en sådan nøjagtighed vil billedet blive konverteret med snesevis af fejl på siden. En sådan teknologi kan kun være nyttig i et meget begrænset antal applikationer.

Et andet meget undersøgt problem er håndskriftsgenkendelse . På nuværende tidspunkt er den opnåede nøjagtighed endnu lavere end for håndskrevet "trykt" tekst. Højere score kan kun opnås ved at bruge kontekstuel og grammatisk information. For eksempel under genkendelse er det lettere at slå hele ord op i en ordbog end at forsøge at identificere individuelle tegn fra en tekst. At kende et sprogs grammatik kan også hjælpe med at afgøre, om et ord er et verbum eller et substantiv. Formerne af individuelle håndskrevne tegn kan nogle gange ikke indeholde nok information til nøjagtigt (mere end 98%) at genkende hele håndskriften.

For at løse mere komplekse opgaver inden for genkendelse bruges som regel intelligente genkendelsessystemer, såsom kunstige neurale netværk .

For at kalibrere tekstgenkendelsessystemer er der oprettet en standard MNIST- database bestående af billeder af håndskrevne cifre.

Noter

  1. Ny PenReader er nu tilgængelig til iPhone, iPod touch og iPad . apps4all.ru. Hentet 1. februar 2016. Arkiveret fra originalen 13. august 2016.
  2. Russerne har udgivet en applikation til håndskrift på iPhone og iPad - CNews . Cnews.ru. Dato for adgang: 1. februar 2016. Arkiveret fra originalen 17. januar 2016.
  3. ABBYY lærer Samsung Galaxy S4 at genkende tekst på billeder . Hentet 3. juni 2015. Arkiveret fra originalen 27. januar 2016.

Se også

Links