Tesseract | |
---|---|
Type | optisk tegngenkendelse |
Udviklere | Hewlett-Packard , Google |
Skrevet i | C++ |
Interface | kommandolinje |
Operativ system | Linux , Mac OS X og andre UNIX-lignende , Windows |
Første udgave | midten af 1980'erne |
nyeste version | |
Læsbare filformater | TIFF , PNG , JPEG [d] , JP2 [d] og WebP File Interchange Format |
Genererede filformater | HOCR , almindelig tekst , PDF , ALTO [d] og TSV |
Licens | Apache 2.0 |
Internet side | github.com/tesseract-ocr... |
Mediefiler på Wikimedia Commons |
Tesseract (fra engelsk - " tesseract ", fra andet græsk. τέσσαρες ἀκτῖνες - "fire stråler") er et gratis computerprogram til tekstgenkendelse , udviklet af Hewlett-Packard fra midten af 1980'erne til midten af 90'erne, og derefter 90'erne "ligger på hylden." I august 2006 købte Google det og åbnede kildekoden under Apache 2.0-licensen [2] til videreudvikling. I øjeblikket fungerer programmet allerede med UTF-8, sprogunderstøttelse (inklusive russisk fra version 3.0 [3] [4] ) udføres ved hjælp af yderligere moduler.
Kernen i Tesseract-programmet blev udviklet på Hewlett Packards Bristol Laboratory og på Hewlett Packard Co, Greeley , Colorado i 1985-1994. I 1996 blev der foretaget væsentlige ændringer, og en port til Windows blev forberedt. Derefter, siden 1998, en delvis migration fra C til C++. En væsentlig del af koden blev oprindeligt skrevet i C, men der blev foretaget forbedringer for kompatibilitet med C++ compilere. [2]
Tesseract 3.0 er i øjeblikket bygget på Linux med GCC 2.95 og nyere og på Windows med Visual C++ 2008 Express og senere (understøttelse af Visual C++ 6 blev fjernet i version 3.0 [3] ).
I øjeblikket er den seneste version Tesseract 5.0 baseret på LSTM [5] .
Tesseract bruges af Tucan Manager download manager til tekstgenkendelse i CAPTCHA tests .
optisk tegngenkendelse | Software til|||
---|---|---|---|
ledig |
| ||
proprietære |
|