Tekstdata

Tekstdata (også tekstformat ) er en repræsentation af strengtypeinformation (det vil sige en sekvens af udskrevne tegn ) i et computersystem . I MIME svarer data kodet på denne måde til typen text/plain.

Ofte forstås tekstdata i en snævrere forstand - som tekst på alle sprog ( formelle eller naturlige ), som kan læses og forstås af en person.

Tekstformatet er i modsætning til " binære data ", hvor informationen er kodet på en vilkårlig måde, ikke designet til menneskelig perception.

For de fleste computerhardware og -software er det lige meget, om dataene er tekst. Imidlertid er mange netværksprotokoller designet til kun at fungere med tekstdata og kan ikke håndtere en vilkårlig sekvens af bytes. Også nogle programmer behandler tekst og binære data forskelligt, og nogle er designet til at behandle tekstdata specifikt. Programmer til oprettelse og redigering af tekstdata kaldes teksteditorer .

Struktur

Tekstdata er normalt en sekvens af et undersæt af tegn, der kun omfatter udskrevne tegn ( bogstaver , tal , tegnsætning ) og nogle kontroltegn ( mellemrum , tabulatorer , linjeskift). Der er metoder (for eksempel UUENCODE eller Base64 ), der giver dig mulighed for at kode vilkårlige data af ethvert format i tekstformat, som ofte bruges til at kode binære data.

Kravet om menneskelig forståelse af indholdet introducerer yderligere redundans i repræsentationen af ​​dataene. For eksempel er tallet 123, som en 8-bit byte er nok til at kode for, kodet i tekstform med flere digitale tegn - for eksempel i decimaltalsystemet kræver dette tre cifre ("123"), i binær  - syv cifre ("1111011" ), i hexadecimal  - to ("7B").

Tekstformatet tillader dig ikke at bruge tekstformateringskommandoer, administrere skrifttypeattributter, markere indhold [1] .

Linjeskift

Tekstdata kan opdeles i linjer. I nogle operativsystemer (hovedsageligt UNIX -familien ) er linjeskift kodet med ét kontroltegn med kode 10 i ASCII -tabellen (navn - Line Feed, LF), på andre (f.eks. i MS-DOS og Microsoft Windows ) - et par kontroltegn med kode 13 og 10 (Carriage Return og Line Feed, CR/LF). På Mac OS (men ikke Mac OS X ) er opdelingen kodet med et enkelt tegn, kode 13.

Denne opdeling efter kontrolkarakter eller -tegn dikteres af den måde, som skrivemaskinerne , hvorigennem indtastningen blev foretaget i nogle tidlige computere, fungerede - indtastningspositionen dér blev angivet af rullens position med papir, og drejning af rullen og flytning til næste linje påkrævet at trykke på en eller to taster eller håndtag.

Linjeskiftende tegn blev også brugt til at styre mekaniske printere (som kunne være de samme skrivemaskiner, der blev brugt til input) - LF-tegnet fik papirrullen til at rulle, og CR-tegnet fik printvognen til at vende tilbage (hvor de var) i begyndelsen af ​​linjen. Deraf navnet på skiltene - engelsk.  Line Feed (line feed) og engelsk.  Carriage Return .

På nogle platforme foregik linjeskift anderledes - teksten blev præsenteret som en sekvens af fastlængde plader, hvor kortere linjer blev suppleret med det nødvendige antal mellemrum. Dette svarede til præsentationen af ​​data på hulkort , som fungerede som et middel til at indtaste og endda gemme data, der havde en fast bredde (for eksempel 80 positioner - kolonner).

Brug

Hovedformålet med at bruge tekstdata er en "fællesnævner", uafhængighed af individuelle programmer, der kræver deres egen kodning eller formatering og er inkompatible med andre programmer. Tekstfiler (filer i tekstformat) kan åbnes, læses og redigeres i enhver teksteditor, såsom MS-DOS Editor ( DOS ), Notepad ( Windows ), ed , vi og vim ( UNIX , Linux ), SimpleText , TextEdit ( Mac OS X ) osv. Andre programmer er også generelt i stand til at læse og importere tekstdata. Du kan også se tekstfiler med indbyggede kommandoer ( typei DOS og Windows) og hjælpeprogrammer ( cati Unix).

Tekstformatet bruges ofte til at repræsentere data, der ikke i sig selv er ren tekst. I dette tilfælde er andre dataformater "bygget ovenpå" af almindelig tekst, til hvilket formål deres kontrolkonstruktioner er udtrykt i trykte ord og tegnsætningstegn. Dette giver to niveauer af bekvemmelighed for at arbejde med data - for eksempel kan HTML- og XML -data ses og redigeres med WYSIWYG -formatering vist , eller du kan åbne det i en almindelig teksteditor og få adgang til alle forviklingerne i markup-sproget. Når data gemmes i en "binær" form (som det f.eks. gøres i tidligere versioner af Microsoft Word ), er det ofte umuligt at arbejde med dem i andre programmer (på grund af manglende information om formatstrukturen) eller selv i forskellige versioner af det samme program.

De fleste programmeringssprog antager brugen af ​​et tekstformat til programmets kildekode . Dette giver dig blandt andet mulighed for at anvende forskellige hjælpeprogrammer på kildekoder til transformationer, formatering, søgning, statistik, analyse mv.

Mange programmers konfigurationsfiler bruger et tekstformat, selvom de indeholder tal og binære switches (ja/nej) . Dette komplicerer programmerne noget på grund af behovet for at konvertere tekstdata til et internt format og omvendt, men det bliver muligt at redigere konfigurationen manuelt, uden at bruge selve programmets konfigurationsværktøjer.

Det er svært at pege på en bestemt del af teksten, der er gemt i tekstdataformatet. Linjenumre eller tegnnumre [2] kan bruges som peger .

Relaterede termer

Udtrykket plaintext ( eng.  plaintext ; ligner meget udtrykket eng.  plain text , bruges til at betegne tekstdata) er meget brugt i kryptografi og betyder alle ukrypterede data, herunder ikke-tekstdata. Udtrykket klartekst bruges også i  kryptografi og betyder ukrypterede data, hvilket også er forståeligt for en person og ikke beskyttet mod "aflytning" under transmission.

Noter

  1. RFC 2046 "Almindelig tekst giver eller tillader ikke formateringskommandoer, skrifttypeattributspecifikationer, behandlingsinstruktioner, fortolkningsdirektiver eller indholdsopmærkning."
  2. Kilde . Hentet 17. september 2016. Arkiveret fra originalen 20. april 2016.

Links