Karaktersæt

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 15. maj 2017; checks kræver 17 redigeringer .

Tegnsæt ( engelsk  tegnsæt ) - en tabel, der specificerer kodningen af ​​et begrænset sæt alfabetiske tegn (normalt tekstelementer: bogstaver, tal, tegnsætningstegn). En sådan tabel matcher hvert tegn med en sekvens af et eller flere tegn i et andet alfabet (prikker og bindestreger i morsekode , signalflag i søværnet , nuller og enere ( bits ) i computeren).

Computertegnsæt

Tegn i en computer er normalt kodet i en eller flere bytes (grupper på otte bit).

Selvom udtrykket "tegnsæt" ( eng.  character set, charset ), legitimeret af internetstandarden RFC 2278 , nu måske er det mest autoritative udtryk, bruges udtrykket "encoding", der gik forud for det ( eng.  encoding ), stadig som en synonym, især i programmeringssprogene Java [1] , Perl [2] og XSLT [3] såvel som i HTML [4] .

Ofte, i stedet for udtrykket "tegnsæt", bruges udtrykket " kodetabel " forkert, hvilket faktisk betyder et specialtilfælde af et tegnsæt med en enkelt-byte-kodning.

Tre typer kodninger er i øjeblikket i brug: ASCII - kompatibel, EBCDIC -kompatibel og Unicode - baserede 16-bit-kodninger, hvor førstnævnte overvejende dominerer. UTF-8- repræsentationen af ​​Unicode er kompatibel med ASCII. EBCDIC- baserede kodninger (såsom DCOI ) bruges kun på nogle mainframes . I starten brugte hvert operativsystem ét tegnsæt. Nu er de anvendte tegnsæt standardiserede [5] , afhænger kun af typen af ​​operativsystem traditionelt og er indstillet i henhold til lokaliteten .

Wikipedia og andre Wikimedia Foundation - projekter bruger UTF-8 Unicode.

Moderne 8-bit computerplatforme er kendetegnet ved små mængder RAM og ROM; multibyte-kodninger i sådanne produkter har ikke modtaget væsentlig distribution. Årsagen til dette er ikke kun det større volumen optaget af tekstdata præsenteret i en multibyte-kodning, men også manglen på "ekstra" hukommelse til lagring af en grafisk repræsentation af yderligere tegn, såvel som vanskeligheden ved at behandle sådanne strenge. Følgende standard single-byte-kodninger er almindeligt anvendte i dag:

Automatisk kodningsgenkendelse

Mange moderne teksteditorer og browsere har en automatisk kodningsgenkendelsesfunktion, men den giver ikke altid det korrekte resultat. Nogle gange sker det, at tekst indtastet, for eksempel på kommandolinjen eller i nogle programmer, afkodes forkert, og i stedet for normale ord opnås et sæt uforståelige tegn. Et stort antal tekstdekodere, der fungerer online, kan hjælpe dig med at klare at læse sådan tekst.

For enkeltbyte-kodninger skal man tage højde for, at hyppigheden af ​​brug af forskellige bogstaver varierer meget (for eksempel på russisk bruges "o" ofte, men "ъ" bruges sjældent). Ved at kende tekstens sprog kan du derfor nemt vælge en kodning, hvor frekvensen af ​​bytes bedre matcher frekvensen af ​​bogstaver på et givet sprog. [6]

Et alternativt synspunkt anser sådanne heuristiske algoritmer til at bestemme tekstkodningen for at være skadelige, eftersom moderne informationsteknologier har midlerne til entydigt at matche teksten med dens tegntabel (se f.eks. MIME ). Den udbredte brug af heuristiske analysatorer tilskynder til brugen af ​​programmer af lav kvalitet til at skabe tekstdata, der overtræder standarder.

Almindelige kodninger

Se også

Links

Noter

  1. Liste over større "kodninger" i Java SE 6-manualen . Dato for adgang: 27. september 2008. Arkiveret fra originalen 16. december 2008.
  2. Diskussion om "kodninger" i Perl-sprogdokumentationen . Hentet 27. september 2008. Arkiveret fra originalen 6. oktober 2008.
  3. Diskussion om "kodninger" i XSLT-dokumentationen . Hentet 5. oktober 2008. Arkiveret fra originalen 13. august 2017.
  4. Diskussion af forholdet mellem termerne "kodning" og "tegnsæt" i HTML-dokumentationen . Hentet 11. oktober 2008. Arkiveret fra originalen 26. oktober 2008.
  5. Specifikationer for tegnsæt på IANA's hjemmeside . Hentet 27. september 2008. Arkiveret fra originalen 16. juli 2004.
  6. Universal dekoder - kyrillisk konverter . Dato for adgang: 4. december 2014. Arkiveret fra originalen 28. december 2014.