Karaktersæt

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 15. maj 2017; checks kræver 17 redigeringer .

Tegnsæt ( engelsk tegnsæt ) - en tabel, der specificerer kodningen af et begrænset sæt alfabetiske tegn (normalt tekstelementer: bogstaver, tal, tegnsætningstegn). En sådan tabel matcher hvert tegn med en sekvens af et eller flere tegn i et andet alfabet (prikker og bindestreger i morsekode , signalflag i søværnet , nuller og enere ( bits ) i computeren).

Computertegnsæt

Tegn i en computer er normalt kodet i en eller flere bytes (grupper på otte bit).

Selvom udtrykket "tegnsæt" ( eng. character set, charset ), legitimeret af internetstandarden RFC 2278 , nu måske er det mest autoritative udtryk, bruges udtrykket "encoding", der gik forud for det ( eng. encoding ), stadig som en synonym, især i programmeringssprogene Java [1] , Perl [2] og XSLT [3] såvel som i HTML [4] .

Ofte, i stedet for udtrykket "tegnsæt", bruges udtrykket " kodetabel " forkert, hvilket faktisk betyder et specialtilfælde af et tegnsæt med en enkelt-byte-kodning.

Tre typer kodninger er i øjeblikket i brug: ASCII - kompatibel, EBCDIC -kompatibel og Unicode - baserede 16-bit-kodninger, hvor førstnævnte overvejende dominerer. UTF-8- repræsentationen af Unicode er kompatibel med ASCII. EBCDIC- baserede kodninger (såsom DCOI ) bruges kun på nogle mainframes . I starten brugte hvert operativsystem ét tegnsæt. Nu er de anvendte tegnsæt standardiserede [5] , afhænger kun af typen af operativsystem traditionelt og er indstillet i henhold til lokaliteten .

Wikipedia og andre Wikimedia Foundation - projekter bruger UTF-8 Unicode.

Moderne 8-bit computerplatforme er kendetegnet ved små mængder RAM og ROM; multibyte-kodninger i sådanne produkter har ikke modtaget væsentlig distribution. Årsagen til dette er ikke kun det større volumen optaget af tekstdata præsenteret i en multibyte-kodning, men også manglen på "ekstra" hukommelse til lagring af en grafisk repræsentation af yderligere tegn, såvel som vanskeligheden ved at behandle sådanne strenge. Følgende standard single-byte-kodninger er almindeligt anvendte i dag:

I programmer på engelsk - CP437 ;
I programmer på russisk bruges følgende muligheder:
- CP866 - oftere brugt af mere erfarne ingeniører, der begyndte at arbejde i DOS; giver dig mulighed for at tegne pseudografiske "rammer", men kræver lagring af softwarens kildekode i denne særlige tegntabel, hvilket kan være svært for begyndere;
- CP1251 - bruges, hvis det er nødvendigt at have russiske tegn i et kontinuerligt array for at lette behandlingen, og hvis Windows er tilgængeligt, kan en sådan tekst omkodes uden brug af tredjepartssoftware. Men det tillader dig ikke at tegne "rammer".

Automatisk kodningsgenkendelse

Mange moderne teksteditorer og browsere har en automatisk kodningsgenkendelsesfunktion, men den giver ikke altid det korrekte resultat. Nogle gange sker det, at tekst indtastet, for eksempel på kommandolinjen eller i nogle programmer, afkodes forkert, og i stedet for normale ord opnås et sæt uforståelige tegn. Et stort antal tekstdekodere, der fungerer online, kan hjælpe dig med at klare at læse sådan tekst.

For enkeltbyte-kodninger skal man tage højde for, at hyppigheden af brug af forskellige bogstaver varierer meget (for eksempel på russisk bruges "o" ofte, men "ъ" bruges sjældent). Ved at kende tekstens sprog kan du derfor nemt vælge en kodning, hvor frekvensen af bytes bedre matcher frekvensen af bogstaver på et givet sprog. [6]

Et alternativt synspunkt anser sådanne heuristiske algoritmer til at bestemme tekstkodningen for at være skadelige, eftersom moderne informationsteknologier har midlerne til entydigt at matche teksten med dens tegntabel (se f.eks. MIME ). Den udbredte brug af heuristiske analysatorer tilskynder til brugen af programmer af lav kvalitet til at skabe tekstdata, der overtræder standarder.

Almindelige kodninger

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , ISO 8859-9 , ISO 8859 ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP863 , CP865 , CP866 , CP869
Microsoft Windows -kodninger :
- Windows-1250 til centraleuropæiske sprog, der bruger latinske tegn (polsk, tjekkisk, slovakisk, ungarsk, slovensk, kroatisk, rumænsk og albansk)
- Windows-1251 til kyrilliske alfabeter
- Windows-1252 til vestlige sprog
- Windows-1253 til græsk
- Windows-1254 til tyrkisk
- Windows-1255 til hebraisk
- Windows-1256 til arabisk
- Windows-1257 til baltiske sprog
- Windows-1258 til vietnamesisk
MacRoman , MacCyrillic
KOI8 (KOI8-R, KOI8-U…), KOI-7
Bulgarsk kodning
ISCII
VISCII
Big5 (mest berømte variant af Microsoft CP950 )
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936 )
- GB18030
Shift JIS til japansk (Microsoft CP932 )
EUC-KR til koreansk (Microsoft CP949 )
ISO-2022 og EUC for kinesisk skrift
UTF - 8- , UTF-16- og UTF-32- kodningerne i Unicode - tegnsættet

Se også

Noter

↑ Liste over større "kodninger" i Java SE 6-manualen . Dato for adgang: 27. september 2008. Arkiveret fra originalen 16. december 2008. (ubestemt)
↑ Diskussion om "kodninger" i Perl-sprogdokumentationen . Hentet 27. september 2008. Arkiveret fra originalen 6. oktober 2008. (ubestemt)
↑ Diskussion om "kodninger" i XSLT-dokumentationen . Hentet 5. oktober 2008. Arkiveret fra originalen 13. august 2017. (ubestemt)
↑ Diskussion af forholdet mellem termerne "kodning" og "tegnsæt" i HTML-dokumentationen . Hentet 11. oktober 2008. Arkiveret fra originalen 26. oktober 2008. (ubestemt)
↑ Specifikationer for tegnsæt på IANA's hjemmeside . Hentet 27. september 2008. Arkiveret fra originalen 16. juli 2004. (ubestemt)
↑ Universal dekoder - kyrillisk konverter . Dato for adgang: 4. december 2014. Arkiveret fra originalen 28. december 2014. (ubestemt)

Tegnkodninger
alfabet tekst fil data tegnsæt konvertering
Historiske indkodninger	yderligere komp. semafor (Makarov) morse Bodo MTK-2 komp. 6-bit SCP RADIX-50 EBCDIC DKOI KOI-7 ISO 646
moderne 8-bit repræsentation	symboler ASCII ledere trykt ikke-ASCII pseudografi 8-bit kodesider Kyrillisk KOI-8 Grundlæggende kodning Mackyrillisk ISO 8859 1 (lat.) 2 3 fire 5 (kir.) 6 7 otte 9 ti elleve 12 13 fjorten 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM og DOS 437 850 852 855 866 "alternativ" MIC
Multibyte	traditionel DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 tegnliste Kyrillisk
brugergrænseflade tastatur layout lokalitet linje oversættelse skrifttype translitteration brugerdefinerede skrifttyper forsyningsselskaber ikonv optage

Typestøberi og typedesign

Begreber

Skrifttypestruktur

Skrifttype egenskaber

Blænde
Aprosh
kerning
Vækst med små bogstaver
Kapitalvækst
skrifttypevækst
font punkt
Skittle
- Liste
Proportioner
Mætning

Klassificering af alfabetskrifttyper

gammel	Mayuscule Minuskule Karolingisk minuskul Uncial Ø-stil Gælisk skrift
Gotisk	neogotisk skrift Rotunde Struktur Knoglebrud Schwabacher
slavisk	Elm Glagolitisk Civic skrifttype Semi-charter Kursiv Charter
Moderne	Antiqua Grotesk Monospace / Proportional Firkantet håndskrevne Skærm bulgarsk

Skrifttypestile

Enheder

computer typografi