CuneiForm

CuneiForm
Type optisk tegngenkendelse
Forfatter Kognitive teknologier
Udviklere CuneiForm-Linux team
Skrevet i C , C++
Interface kommandolinje
Operativ system Linux , Mac OS X og andre UNIX-lignende
Første udgave 1996
nyeste version 1.1.0 (19. april 2011 [1] )
Genererede filformater HOCR
Stat forladt
Licens BSD -lignende licens fra Cognitive Technologies [2]
Internet side launchpad.net/cuneiform-…

CuneiForm ( eng.  cuneiform , cuneiform  - cuneiform ), Cognitive OpenOCR  er et frit distribueret åbent system til optisk tekstgenkendelse af det russiske firma Cognitive Technologies .

OCR CuneiForm blev udviklet af Cognitive Technologies som et kommercielt produkt i 1993. Systemet blev leveret med de mest populære modeller af scannere, MFP'er og software i Rusland og verden: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti osv. I 2008, Cognitive Technologies åbnede kildekoderne til OCR Cunei Form.

Funktioner

CuneiForm er placeret som et system til at konvertere elektroniske kopier af papirdokumenter og grafiske filer til en redigerbar form med evnen til at bevare det originale dokuments struktur og skrifttype i automatisk eller halvautomatisk tilstand. Systemet omfatter to programmer til enkelt- og batchbehandling af elektroniske dokumenter.

Liste over sprog understøttet af systemet:

Derudover understøttes en blanding af russisk og engelsk. Anerkendelse af blandinger af andre sprog understøttes kun i en gren udviklet af Andrey Borovsky i 2009 [3] . At undervise i andre sprog er vanskeligt på grund af forbindelsen mellem hvert sprog med en dat-fil, strukturen og metoden til at opnå, som ikke blev afsløret af udviklerne.

Historie

1993  - Cognitive Technologies indgik en OEM-kontrakt med det canadiske selskab Corel Corporation , ifølge hvilken det kognitive genkendelsesbibliotek er indbygget i den populære udgivelsespakke Corel Draw 3.0 (og efterfølgende versioner). [fire]

1994  - En kontrakt blev underskrevet med Hewlett-Packard for det komplette sæt scannere leveret til Rusland af OCR CuneiForm. Dette er HP's første kontrakt med en russisk softwareudvikler. [5] [6] [7] [8]

1995  - Der blev underskrevet en kontrakt med det japanske selskab Epson om det komplette sæt af CuneiForm OCR-scannere. [9] En OEM-kontrakt blev underskrevet med verdens største producent af faxmaskiner, laserprintere, scannere og andet kontorudstyr - Brother Corporation. Ifølge aftalen vil den nye Brother IC-150 rullescanner blive udstyret med kognitiv software til scanning, genkendelse over hele verden.

1996  - En OEM-kontrakt blev underskrevet med en af ​​verdens største producenter af skærme, faxmaskiner, laserprintere, multifunktionelle enheder og andet kontorudstyr - Samsung Information Systems America. [10] I henhold til aftalen vil den nye Samsung OFFICE MASTER OML-8630A multifunktionsenhed blive solgt med det kognitive Cuneiform LE optiske tegngenkendelsessystem over hele verden.

Adaptiv genkendelse  er en metode baseret på en kombination af to typer printbare tegngenkendelsesalgoritmer: skrifttypebaseret (multifont) og font-uafhængig (omnifont). Systemet genererer en intern skrifttype for hvert inputdokument, baseret på veltrykte tegn, det vil sige, at der anvendes dynamisk justering (tilpasning) til specifikke inputtegn. Metoden kombinerer således alsidigheden og fremstillingsevnen af ​​den skriftløse tilgang og den høje nøjagtighed af skrifttypegenkendelse, hvilket gør det muligt radikalt at forbedre kvaliteten af ​​genkendelse.

1997  - CuneiForm-systemet var det første til at bruge teknologier baseret på neurale netværk. Algoritmer, der bruger neurale netværk til karaktergenkendelse, er bygget som følger. Det tegnbillede (raster), der kommer til genkendelse, reduceres til en vis standardstørrelse (normaliseret). Lysstyrkeværdierne ved noderne af det normaliserede raster bruges som inputparametre for det neurale netværk. Antallet af outputparametre for det neurale netværk er lig med antallet af genkendelige tegn. Resultatet af genkendelse er det symbol, der svarer til den største af værdierne af outputvektoren i det neurale netværk.

1999

2001  - Der blev underskrevet en OEM-kontrakt om komplet udstyr fremstillet af Canon (scannere, multifunktionelle enheder) med Cognitive Technologies-software (OCR CuneiForm) i Østeuropa.

Den 12. december 2007 blev en freeware -version af OCR CuneiForm udgivet, og dens kildekode blev annonceret [15] . [16] [17]

Den 2. april 2008 blev Cuneiforms OCR-kildekode offentliggjort under en BSD-licens [18] , og i efteråret kildekoden til systemgrænsefladen [19] .

Den seneste OpenSource-version til Windows er ikke blevet opdateret siden februar 2009.

I 2009 blev grafiske grænseflader til den åbne version af Cuneiform frigivet baseret på Qt 4 -biblioteket  - Cuneiform-Qt [20] , YAGF . Siden version 0.9.0 [21] kan open source Linux-versionen bruges som en .

Grafiske grænseflader til CuneiForm

Se også

Noter

  1. Port of Cuneiform til Linux. . Hentet 22. juli 2008. Arkiveret fra originalen 20. maj 2011.
  2. Licenstekst. Arkiveret fra originalen den 19. marts 2012.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  4. Lavet i Rusland (utilgængeligt link) . Hentet 6. december 2016. Arkiveret fra originalen 27. juni 2013. 
  5. ↑ " Legitime " HP-scannere vil lære at læse russisk
  6. CuneiForm-flagede HP-scannere . Dato for adgang: 6. december 2016. Arkiveret fra originalen 20. december 2016.
  7. Hewlett-Packard præsenterer nye produkter i Moskva Arkiveret 16. april 2014 på Wayback Machine , Algonet
  8. HP og Cognitive uddyber partnerskabet Arkiveret 20. december 2016 på Wayback Machine , PCweek
  9. PC World. Perler af russisk software . Hentet 29. november 2016. Arkiveret fra originalen 16. april 2014.
  10. Samsung vælger kognitiv teknologis OCR til alt-i-en-enheder Arkiveret 20. december 2016 på Wayback Machine , PCweek, 09/10/1996
  11. Vladimir Mitin Canon multifunktionelle enheder har erhvervet en ny kvalitetsarkivkopi dateret 20. december 2016 på Wayback Machine , PCweek , 05/12/1998
  12. Vladimir Mitin Canon - Cognitive Technologies Alliance udvikler sig med succes
  13. Cognitive Technologies og OKI træder på gassen Arkiveret 20. december 2016 på Wayback Machine , PCweek
  14. HP Informal Marketing Arkiveret 20. december 2016 på Wayback Machine , Computer World
  15. OCR CuneiForm - det første industrielle Open Source-projekt inden for anerkendelse Arkiveret den 25. maj 2011.
  16. Det russiske CuneiForm-tekstgenkendelsessystem bliver åbent Arkivkopi dateret 20. december 2016 på Wayback Machine Сybersecurity, 12/06/2007
  17. CuneiForm returnerer arkiveret 20. december 2016 på Wayback Machine , Computerworld, 24/12/2007
  18. Cognitive Technologies open source Cuneiform OCR-kode (downlink) . Hentet 4. april 2011. Arkiveret fra originalen 11. november 2009. 
  19. Cognitive Technologies Open Cuneiform OCR Code Arkiveret 19. april 2011.
  20. Cuneiform-Qt . Hentet 9. april 2009. Arkiveret fra originalen 12. april 2009.
  21. Cuneiform Linux 0.9.0 er udgivet . Dato for adgang: 8. februar 2010. Arkiveret fra originalen 26. januar 2014.

Links