Tesseract

Tesseract
Type optisk tegngenkendelse
Udviklere Hewlett-Packard , Google
Skrevet i C++
Interface kommandolinje
Operativ system Linux , Mac OS X og andre UNIX-lignende , Windows
Første udgave midten af ​​1980'erne
nyeste version
Læsbare filformater TIFF , PNG , JPEG [d] , JP2 [d] og WebP File Interchange Format
Genererede filformater HOCR , almindelig tekst , PDF , ALTO [d] og TSV
Licens Apache 2.0
Internet side github.com/tesseract-ocr...
 Mediefiler på Wikimedia Commons

Tesseract  (fra  engelsk  -  " tesseract ", fra andet græsk. τέσσαρες ἀκτῖνες - "fire stråler") er et gratis computerprogram til tekstgenkendelse , udviklet af Hewlett-Packard fra midten af ​​1980'erne til midten af ​​90'erne, og derefter 90'erne "ligger på hylden." I august 2006 købte Google det og åbnede kildekoden under Apache 2.0-licensen [2] til videreudvikling. I øjeblikket fungerer programmet allerede med UTF-8, sprogunderstøttelse (inklusive russisk fra version 3.0 [3] [4] ) udføres ved hjælp af yderligere moduler.

Historie

Kernen i Tesseract-programmet blev udviklet på Hewlett Packards Bristol Laboratory og på Hewlett Packard Co, Greeley , Colorado i 1985-1994. I 1996 blev der foretaget væsentlige ændringer, og en port til Windows blev forberedt. Derefter, siden 1998, en delvis migration fra C til C++. En væsentlig del af koden blev oprindeligt skrevet i C, men der blev foretaget forbedringer for kompatibilitet med C++ compilere. [2]

Tesseract 3.0 er i øjeblikket bygget på Linux med GCC 2.95 og nyere og på Windows med Visual C++ 2008 Express og senere (understøttelse af Visual C++ 6 blev fjernet i version 3.0 [3] ).

I øjeblikket er den seneste version Tesseract 5.0 baseret på LSTM [5] .

Grafiske grænseflader til Tesseract

Til Linux Til Windows

Websteder baseret på Tesseract-motoren

Afhængigheder

Interessante fakta

Tesseract bruges af Tucan Manager download manager til tekstgenkendelse i CAPTCHA tests .

Noter

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc annoncerer Tesseract OCR (august 2006). Hentet 26. juni 2008. Arkiveret fra originalen 18. marts 2012.
  3. 12 Tesseract 3.00 udgivet . Hentet 5. oktober 2010. Arkiveret fra originalen 9. oktober 2010.
  4. Tesseract downloadside . Arkiveret fra originalen den 18. marts 2012.
  5. TESSERACT(1) Manual  Side . Hentet 12. januar 2019. Arkiveret fra originalen 5. maj 2020.

Links