Datasæt ( rus. Datasæt , også nogle gange translittereret "Datasæt" ) er den term, der bruges til mainframe -filsystemet fra IBM ; en samling af logiske optegnelser gemt som en tupel . Et datasæt kan sammenlignes med en fil , men i modsætning til en fil er et datasæt både en mappe og en fil i filsystemet og kan ikke indeholde andre sæt.
I praksis kan man ofte finde skrivning i ét ord ( dataset ), hvilket strengt taget er forkert, men acceptabelt. Denne praksis opstod fra det faktum, at ordet skal bruges i sammenhæng med navnet på selve sættet, som ikke understøtter mellemrum mellem tegn.
Mainframe-filsystemet er fokuseret på lagring af poster , som er udelelige lagerenheder . Et sæt poster kombineres i grupper, som kaldes datasæt. Uden for ethvert sæt kan posten ikke gemmes. Poster i datasæt bruges af applikationer, for eksempel som input, eller en applikation kan generere poster som et produkt af sit arbejde. Så datasætposter kan være tekstdata (for eksempel programkildekoder), objektfiler , indlæsbare moduler, poster med konfigurationsvariable osv.
Et datasæt kan henvises til ved at angive den nøjagtige placering, hvor det er gemt, eller, hvis et filsystemnavn tidligere var reserveret til sættet, ved navn. Datasæt med unikke navne kaldes katalogiserede . Datasæt kan ikke indlejre sig i hinanden, så der bruges et kvalifikationssystem til navne: navnet er sammensat af otte-tegns kvalifikationer adskilt fra hinanden med en prik, mens sætnavnet ikke kan overstige 44 tegn, for eksempel . Fysisk kan sæt gemmes på forskellige typer medier (magnetiske diske eller båndkassetter), derudover kan sæt placeres i virtuel hukommelse . USER.MYDIR.PROJ.SOURCE
I mainframes bruger lagerenheder, der understøtter direkte dataadgang, udtrykket DASD ( Direct Access Storage Device ) . En DASD-enhed er logisk opdelt i volumener ( English Volumes ), der gemmer forskellige typer sæt. For at systemet kan vide, hvilke sæt der er gemt på en given DASD-enhed, vedligeholder det et særligt "masterbibliotek", eller med andre ord en liste over katalogiserede sæt.
Selve datasættet kombinerer ikke kun posterne, men definerer også reglerne for disse poster (lagringsformat). Lagringsformatparametrene inkluderer postblokstørrelsen (bloktype), den maksimale størrelse af én sæt post. Typen af selve datasættet skal også defineres, hvoraf det afhænger af, hvordan det vil blive præsenteret logisk (som en kontinuerlig sekvens af poster, som medlemmer adskilt fra hinanden ( English Members ) osv.).
Volumen af en enkelt DASD-enhed kan indeholde mange sæt af forskellige typer. Sætnavne skal være unikke inden for den samme lagerenhed. Hver lydstyrke på enheden er opdelt i spor . I nulsporet, nulcylinderen, er DASD-etiketten gemt, som angiver placeringen af VTOC-volumenindholdsfortegnelsen ( English Volume Table of Contents ) - noget analogt af MBR og GPT på samme tid. VTOC gemmer navnene på alle sæt, der er gemt i lydstyrken, spornumrene, hvorfra hvert sæt starter, størrelser og adgangsbegrænsninger. Da sæt er bundet til deres volumener, kigger operativsystemet først igennem listen over synlige diskenheder, når det søger efter et sæt, og derefter, når det nødvendige volumen er fundet, får det adgang til dets VTOC.
Den mindste enhed i sættet, som tidligere nævnt, er den logiske rekord, begrænset af størrelsen LRECL. De sammenhængende spor i et bind, der indeholder ét sæt, danner en udstrækning . Typisk forsøger lagerenhedscontrolleren at allokere omfangssæt, da dette gør adgangen til dem hurtigere. For at aktivere denne strategi vedligeholder VTOC registreringer af sammenhængende frie baner.
Mainframe-filsystemet, når det læser et datasæt, er ikke afhængigt af dataenes bytes, men bruger information om sætformatet ( RECFM). Formatet bestemmer, hvor mange bytes data der kan skrives i en sæt størrelsesblok BLKSIZE. IBM mainframes bruger følgende formater:
Registreringer af sæt, der er knyttet til virtuel hukommelse (såkaldte VSAM-sæt) gemmes også på DASD-enheden, men adskilt fra ikke-VSAM-sæt, i omfang kaldet kontrolintervaller ( CI ) og katalogiseres separat. CI er lidt mere kompliceret og er analog med en blok: det er repræsenteret af et område, hvor poster er placeret efter hinanden, efterfulgt af RDF-felter af antallet af poster ( Record Definition Fields ) og et CIDF-felt ( Control Interval Definition Felt ) . Der kan være et mellemrum mellem det første RDF-felt og den sidste indtastning. RDF-felter beskriver registreringerne af et sæt individuelt, mens CIDF beskriver kontrolintervallet som en helhed. VSAM'er bruges internt af applikationer.
Et andet kendetegn ved et sæt er dets organisation DSORG, som foreslår den rækkefølge, som det skal læses og opdateres i. Der er følgende typer organisation:
For hver type organisation er en eller flere af de adgangsmetoder, som operativsystemet tilbyder, anvendelige. For eksempel, for sæt med PS-organisation, er BSAM (Basic Sequential Access Method) og QSAM (Queued Sequential Access Method) adgangsmetoder anvendelige; PO-sæt bruger BPAM (Basic partitioned access method), og DA-sæt bruger BDAM (Basic Direct Access Method) metode.
Med fremkomsten af virtuel hukommelse var der sæt organiseret specifikt til det, for eksempel KSDS, LDS, RRDS osv., hvortil deres egen adgangsmetode bruges - VSAM (Virtual storage access method).