Database - en samling af data lagret i overensstemmelse med dataskemaet , hvis manipulation udføres i overensstemmelse med reglerne for datamodelleringsværktøjer [1] [2] [3] .
Mange eksperter påpeger en almindelig fejl, der består i den ukorrekte brug af udtrykket "database" i stedet for udtrykket " databasestyringssystem ", og påpeger behovet for at skelne mellem disse begreber [4] .
Litteraturen tilbyder mange definitioner af begrebet "database", der snarere afspejler visse forfatteres subjektive mening, men der er ingen generelt accepteret ensartet formulering.
Definitioner fra regulatoriske dokumenter, herunder standarder :
Definitioner fra autoritative monografier :
Definitionerne indeholder oftest (eksplicit eller implicit) følgende kendetegn [ 10] :
Af de anførte tegn er kun den første streng, mens andre tillader forskellige fortolkninger og forskellige grader af evaluering. Du kan kun fastslå en vis grad af overholdelse af kravene til databasen.
I en sådan situation spiller almindelig praksis en vigtig rolle. I overensstemmelse hermed kaldes for eksempel filarkiver , internetportaler eller regneark ikke databaser , på trods af at de til en vis grad har en databases egenskaber. Det er generelt accepteret, at denne grad er utilstrækkelig i de fleste tilfælde (selvom der kan være undtagelser).
Historien om fremkomsten og udviklingen af databaseteknologier kan betragtes både i et bredt og snævert aspekt.
I en bred forstand er begrebet databases historie generaliseret til historien om enhver måde, hvorpå menneskeheden har lagret og behandlet data. I denne sammenhæng nævnes f.eks. midlerne til regnskab for den kongelige skatkammer og skatter i oldtidens Sumer (4000 f.Kr. ) [12] , Inkas - kipu 's knudrede skrift , kileskrift, der indeholder dokumenter fra det assyriske rige , osv. at ulempen ved denne tilgang er sløringen af begrebet "database" og dets faktiske sammensmeltning med begreberne " arkiv " og endda " skrivning ".
Databasernes historie i snæver forstand betragter databaser i traditionel (moderne) forstand. Denne historie begynder i 1955 med introduktionen af firmware til behandling af poster. Softwaren fra denne tid understøttede en fil-baseret model for registrering af databehandling. Hulkort blev brugt til datalagring [12] .
Operationelle netværksdatabaser dukkede op i midten af 1960'erne . Operationer på operationelle databaser blev behandlet interaktivt ved hjælp af terminaler. Den simple indeks-sekventielle rekordorganisation udviklede sig hurtigt til en mere kraftfuld sæt-orienteret rekordmodel. Charles Bachmann modtog Turing-prisen for at lede arbejdet i Data Base Task Group ( DBTG ), som udviklede en standard databeskrivelse og datamanipulationssprog .
Samtidig blev begrebet databaseskemaer og begrebet datauafhængighed udviklet i COBOL -databasefællesskabet .
Det næste vigtige skridt er forbundet med fremkomsten af den relationelle datamodel i begyndelsen af 1970'erne , takket være Edgar Codds arbejde . Codds arbejde banede vejen for en tæt forbindelse mellem anvendt databaseteknologi og matematik og logik. Edgar F. Codd modtog også Turing-prisen for sine bidrag til teori og praksis .
Selve begrebet database ( engelsk database ) dukkede op i begyndelsen af 1960'erne og blev introduceret i brug på symposier arrangeret af SDC i 1964 og 1965 , selvom det først blev forstået i en ret snæver forstand, i sammenhæng med kunstige intelligenssystemer . Udtrykket kom først i vid udstrækning i moderne betydning i 1970'erne [13] .
Der er et stort antal forskellige databaser, der adskiller sig i forskellige kriterier . For eksempel er der i "Encyclopedia of Database Technologies" [7] , som dette afsnit er skrevet på grundlag af, defineret mere end 50 typer databaser.
Klassificeringen efter datamodel omfatter normalt:
Klassificering efter lagermiljø skelner mellem databaser, der lagrer data i sekundær hukommelse ("traditionel", engelsk konventionel database ), resident (alle data på udførelsesstadiet er i RAM ) og tertiære ( engelsk tertiær database ), der lagrer data på aftagelige enheder masselagring - baseret på magnetbånd eller optiske diske . Samtidig bruges alle lagringsmiljøer i alle klasser, på den ene eller den anden måde, f.eks. til residente databaser, DBMS'et skriver kun skrivelogfiler til permanent hukommelse , og til traditionelle databaser bruges en cache i RAM.
Databaser kan også klassificeres efter indhold, for eksempel kan de være geografiske, historiske, videnskabelige, multimedier . For nogle former for indhold bygges der specialiserede DBMS, eller specialiserede funktioner føjes til en DBMS til generelle formål, blandt sådanne databaser:
Alt efter distributionsgraden opdeles databaser i centraliseret (koncentreret; eng. centraliseret database ) - fuldt understøttet på ét udstyr, og distribueret ( eng. distribueret database ). Blandt de mange muligheder for distribuerede databaser skiller følgende sig ud:
Blandede muligheder er mulige, for eksempel for den samme distribuerede database, sharding bruges til store objekter, og replikering bruges til små objekter.
Ifølge måderne at organisere lagring på, kan cykliske databaser skelnes (de skriver nye data i stedet for forældede), streaming databaser .
En meget stor database ( engelsk Very Large Database, VLDB ) er en database, der fylder ekstremt meget på en fysisk lagerenhed . Udtrykket indebærer de maksimalt mulige mængder af databasen, som er bestemt af de seneste fremskridt inden for fysisk datalagringsteknologier og softwaredatahåndteringsteknologier.
Den kvantitative definition af begrebet "ekstremt stor volumen" varierer over tid. Så i 1997 var den største tekstdatabase i verden Knight Ridders DIALOG med en volumen på 7 terabyte [14] . I 2001 blev den største database anset for at være 10,5 terabyte, i 2003 - 25 terabyte [15] . I 2005 blev de største databaser i verden anset for at være databaser med en lagervolumen på omkring hundrede terabyte [16] . I 2006 brugte Google-søgemaskinen en database på 850 terabyte [17] .
I 2010 mente man, at volumen af en ultra-stor database skulle måles i mindst petabyte [16] .
I 2011 lagrede Facebook data i en klynge på 2.000 noder med en samlet kapacitet på 21 petabyte [18] ; ved udgangen af 2012 nåede Facebooks datavolumen op på 100 petabyte [19] , og i 2014 - 300 petabyte [20] .
I 2014 lagrede Google ifølge indirekte estimater op til 10-15 exabyte data på sine servere i alt [21] .
Ifølge nogle skøn vil genetikere i 2025 have data om genomerne fra 100 millioner til 2 milliarder mennesker, og lagring af denne mængde data vil kræve fra 2 til 40 exabyte [22] .
Generelt ifølge IDC estimater fordobles den samlede mængde data i det "digitale univers" hvert andet år og vil ændre sig fra 4,4 zettabyte i 2013 til 44 zettabyte i 2020 [23] .
Forskning inden for lagring og behandling af meget store VLDB- databaser er altid på forkant med databaseteori og -praksis. Især siden 1975 har den årlige internationale konference om meget store databaser været afholdt ("International konference om meget store databaser"). Størstedelen af forskningen udføres i regi af non-profit organisationen VLDB Endowment (VLDB Endowment Fund), som sikrer fremme af videnskabeligt arbejde og udveksling af information inden for meget store databaser og beslægtede felter.
Ordbøger og encyklopædier | ||||
---|---|---|---|---|
|
Database | |
---|---|
Begreber |
|
Objekter | |
Nøgler | |
SQL | |
Komponenter |
Datalager | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategori |