Tesseract

Tesseract


Type	optisk tegngenkendelse
Udviklere	Hewlett-Packard , Google
Skrevet i	C++
Interface	kommandolinje
Operativ system	Linux , Mac OS X og andre UNIX-lignende , Windows
Første udgave	midten af 1980'erne
nyeste version	5.2.0 ( 6. juli 2022 ) [1]
Læsbare filformater	TIFF , PNG , JPEG [d] , JP2 [d] og WebP File Interchange Format
Genererede filformater	HOCR , almindelig tekst , PDF , ALTO [d] og TSV
Licens	Apache 2.0
Internet side	github.com/tesseract-ocr...
Mediefiler på Wikimedia Commons

Tesseract (fra engelsk - " tesseract ", fra andet græsk. τέσσαρες ἀκτῖνες - "fire stråler") er et gratis computerprogram til tekstgenkendelse , udviklet af Hewlett-Packard fra midten af 1980'erne til midten af 90'erne, og derefter 90'erne "ligger på hylden." I august 2006 købte Google det og åbnede kildekoden under Apache 2.0-licensen [2] til videreudvikling. I øjeblikket fungerer programmet allerede med UTF-8, sprogunderstøttelse (inklusive russisk fra version 3.0 [3] [4] ) udføres ved hjælp af yderligere moduler.

Historie

Kernen i Tesseract-programmet blev udviklet på Hewlett Packards Bristol Laboratory og på Hewlett Packard Co, Greeley , Colorado i 1985-1994. I 1996 blev der foretaget væsentlige ændringer, og en port til Windows blev forberedt. Derefter, siden 1998, en delvis migration fra C til C++. En væsentlig del af koden blev oprindeligt skrevet i C, men der blev foretaget forbedringer for kompatibilitet med C++ compilere. [2]

Tesseract 3.0 er i øjeblikket bygget på Linux med GCC 2.95 og nyere og på Windows med Visual C++ 2008 Express og senere (understøttelse af Visual C++ 6 blev fjernet i version 3.0 [3] ).

I øjeblikket er den seneste version Tesseract 5.0 baseret på LSTM [5] .

Grafiske grænseflader til Tesseract

Til Linux

Til Windows

Websteder baseret på Tesseract-motoren

Afhængigheder

Leptonica

Interessante fakta

Tesseract bruges af Tucan Manager download manager til tekstgenkendelse i CAPTCHA tests .

Noter

↑ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
↑ 1 2 Vincent, Luc annoncerer Tesseract OCR (august 2006). Hentet 26. juni 2008. Arkiveret fra originalen 18. marts 2012. (ubestemt)
↑ 12 Tesseract 3.00 udgivet . Hentet 5. oktober 2010. Arkiveret fra originalen 9. oktober 2010. (ubestemt)
↑ Tesseract downloadside . Arkiveret fra originalen den 18. marts 2012. (ubestemt)
↑ TESSERACT(1) Manual Side . Hentet 12. januar 2019. Arkiveret fra originalen 5. maj 2020.

Links

Software til optisk tegngenkendelse

ledig

CuneiForm
GOCR
Ocrad
OCRopus
Tesseract

Grafiske grænseflader	OCR feeder YAGF

proprietære

Kognitive former
Oplevelse
FineReader
Microsoft Office Document Imaging
OmniPage
Readiris
readsoft
simpleocr
Smart IDReader
SmartScore
ViewWise