Kodeside

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 19. september 2019; checks kræver 7 redigeringer .

Code page ( engelsk  kodetabel ) - en tabel, der matcher hver byteværdi med et bestemt tegn (eller dets fravær). Typisk er en tegnkode 8 bit i størrelse , så en tegntabel kan maksimalt indeholde 256 tegn, hvilket betyder, at enhver 8-bit tegntabel er alvorligt utilstrækkelig til at repræsentere flersprogede tekster. Derudover bruges nogle tegn som kontroltegn , hvorfor antallet af trykte tegn sjældent overstiger 223 [1] .

Historisk set blev udtrykket kodetabel introduceret af IBM Corporation ; udskiftelige kodesider blev brugt til at understøtte forskellige sprog (med alfabetiske skrivesystemer). For nylig har der været forvirring mellem udtrykket "kodetabel" og det mere generelle begreb om et tegnsæt (kodning).

Kodesider i dag

I øjeblikket anvendes hovedsageligt to typer kodninger: ASCII- kompatibel og EBCDIC- kompatibel [2] , hvor førstnævnte overvejende dominerer. I ASCII-kompatible kodninger er koder for 95 printbare tegn og 33 kontroltegn faste, og de resterende 128 kodepunkter bruges til forskellige ikke-ASCII-tegn.

Til kodning af tekster på russisk (det vil sige kyrilliske bogstaver ) er følgende kodesider mest brugt:

Brug af forskellige tegntabeller skaber en masse besvær for både brugere og programmører. Når du forsøger at læse en tekstfil ved hjælp af en tegntabel, der er inkompatibel med den, hvori den blev oprettet, er der fejl . I de senere år er Unicode blevet udbredt som et alternativ til traditionelle kodesider.

På et Microsoft Windows-system

På Microsoft Windows-systemer er tegntavler en vigtig komponent i lokalisering , der er angivet i registreringsdatabasenøglerne HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage\ [ 3] .

Historisk set (i Windows 3.x- og Windows 9x-systemer ) var der to typer tegntabeller. ANSI tegntabel [4] (eng. ANSI kodetabel , i registreringsdatabasen: ACP ), også kaldet Windows [5]  er oprindelige Windows kodetabel. De indeholder en masse typografiske tegn , men næsten ingen pseudografik på grund af det faktum, at de er beregnet til brug i et grafisk miljø. Microsoft erkendte efterfølgende, at brugen af ​​ANSI- navnet skyldtes en misforståelse. [6] "ANSI"/Windows-kodninger omfatter især Windows-1252 og det førnævnte Windows-1251 . Microsoft omtaler også tegntabeller som kodetabeller, hvoraf nogle positioner kræver en anden (terminal)byte for at danne et tegn, det vil sige dem, der tillader en to-byte repræsentation af nogle tegn [7] , selvom de strengt taget er allerede tegnkodninger med variabel længde.

OEM-kodningerne (eng. OEM-kodeside , i registreringsdatabasen: OEMCP ) er baseret på CP437 og indeholder VGA - kompatibel pseudografik . Ovenstående alternative kodning er kendt som CP866 på Windows .

Startende med Windows NT dukkede en tredje klasse tegntabel op: Macintosh-kodninger (engelsk Macintosh-kodetabel , i registreringsdatabasen: MACCP ), kompatibel med MacOS .

Noter

  1. En af de få undtagelser er VISCII- kodningen for vietnamesisk latin, som er kompatibel med ASCII minus de seks koder i kontroltegnzonen erstattet af bogstaver, se RFC 1456 . Den indeholder således 229 printbare tegn.
  2. EBCDIC- baserede kodninger (f.eks. DCOI ) bruges kun på nogle mainframes .
  3. REG: CurrentControlSet, DEL 1 Arkiveret 10. januar 2013 på Wayback Machine , Microsoft 
  4. Kodesider i Visual C++ Arkiveret 22. februar 2014 på Wayback Machine , MSDN
  5. Kodesider arkiveret 22. februar 2014 på Wayback Machine , MSDN
  6. MSDN: Ordliste med vilkår (link ikke tilgængeligt) . Hentet 2. marts 2010. Arkiveret fra originalen 28. marts 2016. 
  7. Windows kodesider Arkiveret 2. maj 2014 på Wayback Machine , MSDN