Tegnsæt ( engelsk tegnsæt ) - en tabel, der specificerer kodningen af et begrænset sæt alfabetiske tegn (normalt tekstelementer: bogstaver, tal, tegnsætningstegn). En sådan tabel matcher hvert tegn med en sekvens af et eller flere tegn i et andet alfabet (prikker og bindestreger i morsekode , signalflag i søværnet , nuller og enere ( bits ) i computeren).
Tegn i en computer er normalt kodet i en eller flere bytes (grupper på otte bit).
Selvom udtrykket "tegnsæt" ( eng. character set, charset ), legitimeret af internetstandarden RFC 2278 , nu måske er det mest autoritative udtryk, bruges udtrykket "encoding", der gik forud for det ( eng. encoding ), stadig som en synonym, især i programmeringssprogene Java [1] , Perl [2] og XSLT [3] såvel som i HTML [4] .
Ofte, i stedet for udtrykket "tegnsæt", bruges udtrykket " kodetabel " forkert, hvilket faktisk betyder et specialtilfælde af et tegnsæt med en enkelt-byte-kodning.
Tre typer kodninger er i øjeblikket i brug: ASCII - kompatibel, EBCDIC -kompatibel og Unicode - baserede 16-bit-kodninger, hvor førstnævnte overvejende dominerer. UTF-8- repræsentationen af Unicode er kompatibel med ASCII. EBCDIC- baserede kodninger (såsom DCOI ) bruges kun på nogle mainframes . I starten brugte hvert operativsystem ét tegnsæt. Nu er de anvendte tegnsæt standardiserede [5] , afhænger kun af typen af operativsystem traditionelt og er indstillet i henhold til lokaliteten .
Wikipedia og andre Wikimedia Foundation - projekter bruger UTF-8 Unicode.
Moderne 8-bit computerplatforme er kendetegnet ved små mængder RAM og ROM; multibyte-kodninger i sådanne produkter har ikke modtaget væsentlig distribution. Årsagen til dette er ikke kun det større volumen optaget af tekstdata præsenteret i en multibyte-kodning, men også manglen på "ekstra" hukommelse til lagring af en grafisk repræsentation af yderligere tegn, såvel som vanskeligheden ved at behandle sådanne strenge. Følgende standard single-byte-kodninger er almindeligt anvendte i dag:
Mange moderne teksteditorer og browsere har en automatisk kodningsgenkendelsesfunktion, men den giver ikke altid det korrekte resultat. Nogle gange sker det, at tekst indtastet, for eksempel på kommandolinjen eller i nogle programmer, afkodes forkert, og i stedet for normale ord opnås et sæt uforståelige tegn. Et stort antal tekstdekodere, der fungerer online, kan hjælpe dig med at klare at læse sådan tekst.
For enkeltbyte-kodninger skal man tage højde for, at hyppigheden af brug af forskellige bogstaver varierer meget (for eksempel på russisk bruges "o" ofte, men "ъ" bruges sjældent). Ved at kende tekstens sprog kan du derfor nemt vælge en kodning, hvor frekvensen af bytes bedre matcher frekvensen af bogstaver på et givet sprog. [6]
Et alternativt synspunkt anser sådanne heuristiske algoritmer til at bestemme tekstkodningen for at være skadelige, eftersom moderne informationsteknologier har midlerne til entydigt at matche teksten med dens tegntabel (se f.eks. MIME ). Den udbredte brug af heuristiske analysatorer tilskynder til brugen af programmer af lav kvalitet til at skabe tekstdata, der overtræder standarder.
Tegnkodninger | |
---|---|
Historiske indkodninger | yderligere komp. semafor (Makarov) morse Bodo MTK-2 komp. 6-bit SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
moderne 8-bit repræsentation | symboler ASCII ikke-ASCII 8-bit kodesider Kyrillisk KOI-8 Grundlæggende kodning Mackyrillisk ISO 8859 1 (lat.) 2 3 fire 5 (kir.) 6 7 otte 9 ti elleve 12 13 fjorten 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM og DOS 437 850 852 855 866 "alternativ" MIC |
Multibyte | traditionel DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 tegnliste Kyrillisk |
brugergrænseflade tastatur layout lokalitet linje oversættelse skrifttype translitteration brugerdefinerede skrifttyper forsyningsselskaber ikonv optage |
Typestøberi og typedesign | |||||||||
---|---|---|---|---|---|---|---|---|---|
Begreber | |||||||||
Skrifttypestruktur |
| ||||||||
Skrifttype egenskaber | |||||||||
Klassificering af alfabetskrifttyper |
| ||||||||
Skrifttypestile | |||||||||
Enheder | |||||||||
computer typografi | |||||||||
se også Forlag trykkeri Typografi Kit Layout Trykning |