Database

Den stabile version blev tjekket ud den 17. oktober 2022 . Der er ubekræftede ændringer i skabeloner eller .

Database - en samling af data lagret i overensstemmelse med dataskemaet , hvis manipulation udføres i overensstemmelse med reglerne for datamodelleringsværktøjer [1] [2] [3] .

Mange eksperter påpeger en almindelig fejl, der består i den ukorrekte brug af udtrykket "database" i stedet for udtrykket " databasestyringssystem ", og påpeger behovet for at skelne mellem disse begreber [4] .

Definitionsproblemer

Litteraturen tilbyder mange definitioner af begrebet "database", der snarere afspejler visse forfatteres subjektive mening, men der er ingen generelt accepteret ensartet formulering.

Definitioner fra regulatoriske dokumenter, herunder standarder :

Database - præsenteret i en objektiv form, et sæt uafhængige materialer (artikler, beregninger , regler , retsafgørelser og andet lignende materiale), systematiseret på en sådan måde, at disse materialer kan findes og behandles ved hjælp af en elektronisk computer (computer) [5 ]
En database er en samling af data organiseret efter en konceptuel struktur, der beskriver disse datas karakteristika og relationerne mellem dem, hvilket understøtter et eller flere anvendelsesområder [6] .

Definitioner fra autoritative monografier :

En database er et sæt data, der er organiseret i overensstemmelse med bestemte regler og vedligeholdes i computerhukommelsen , der karakteriserer den aktuelle tilstand af et bestemt emneområde og bruges til at imødekomme brugernes informationsbehov [7] .
En database er et sæt permanente (permanent lagrede) data, der bruges af en virksomheds applikationssoftwaresystemer [8] .
En database er et fælles sæt af logisk relaterede data (og en beskrivelse af disse data) designet til at imødekomme en organisations informationsbehov [9] .

Definitionerne indeholder oftest (eksplicit eller implicit) følgende kendetegn [ 10] :

Databasen lagres og behandles i computersystemet .
Enhver ikke-computer lagring af information ( arkiver , biblioteker , arkivskabe osv.) er således ikke databaser.
Dataene i databasen er logisk opbygget ( systematiseret ) for at sikre muligheden for deres effektive søgning og behandling i et computersystem.
Strukturering indebærer et eksplicit udvælgelse af komponenter ( elementer ), links mellem dem, samt indtastning af elementer og links, hvor visse semantikker og gyldige operationer er forbundet med typen af element (link) [11] .
Databasen indeholder et skema eller metadata , der beskriver den logiske struktur af databasen på en formel måde (ifølge en eller anden metamodel ).
Ifølge GOST R ISO IEC TO 10032-2007 inkluderer "vedvarende data i et databasemiljø et skema og en database. Skemaet indeholder beskrivelser af indhold, struktur og integritetsbegrænsninger, der bruges til at oprette og vedligeholde databasen. Databasen indeholder et sæt vedvarende data defineret af et skema. Datastyringssystemet bruger datadefinitionerne i skemaet til at give adgang til og kontrollere adgangen til dataene i databasen” [1] .

Af de anførte tegn er kun den første streng, mens andre tillader forskellige fortolkninger og forskellige grader af evaluering. Du kan kun fastslå en vis grad af overholdelse af kravene til databasen.

I en sådan situation spiller almindelig praksis en vigtig rolle. I overensstemmelse hermed kaldes for eksempel filarkiver , internetportaler eller regneark ikke databaser , på trods af at de til en vis grad har en databases egenskaber. Det er generelt accepteret, at denne grad er utilstrækkelig i de fleste tilfælde (selvom der kan være undtagelser).

Historie

Historien om fremkomsten og udviklingen af databaseteknologier kan betragtes både i et bredt og snævert aspekt.

I en bred forstand er begrebet databases historie generaliseret til historien om enhver måde, hvorpå menneskeheden har lagret og behandlet data. I denne sammenhæng nævnes f.eks. midlerne til regnskab for den kongelige skatkammer og skatter i oldtidens Sumer (4000 f.Kr. ) [12] , Inkas - kipu 's knudrede skrift , kileskrift, der indeholder dokumenter fra det assyriske rige , osv. at ulempen ved denne tilgang er sløringen af begrebet "database" og dets faktiske sammensmeltning med begreberne " arkiv " og endda " skrivning ".

Databasernes historie i snæver forstand betragter databaser i traditionel (moderne) forstand. Denne historie begynder i 1955 med introduktionen af firmware til behandling af poster. Softwaren fra denne tid understøttede en fil-baseret model for registrering af databehandling. Hulkort blev brugt til datalagring [12] .

Operationelle netværksdatabaser dukkede op i midten af 1960'erne . Operationer på operationelle databaser blev behandlet interaktivt ved hjælp af terminaler. Den simple indeks-sekventielle rekordorganisation udviklede sig hurtigt til en mere kraftfuld sæt-orienteret rekordmodel. Charles Bachmann modtog Turing-prisen for at lede arbejdet i Data Base Task Group ( DBTG ), som udviklede en standard databeskrivelse og datamanipulationssprog .

Samtidig blev begrebet databaseskemaer og begrebet datauafhængighed udviklet i COBOL -databasefællesskabet .

Det næste vigtige skridt er forbundet med fremkomsten af den relationelle datamodel i begyndelsen af 1970'erne , takket være Edgar Codds arbejde . Codds arbejde banede vejen for en tæt forbindelse mellem anvendt databaseteknologi og matematik og logik. Edgar F. Codd modtog også Turing-prisen for sine bidrag til teori og praksis .

Selve begrebet database ( engelsk database ) dukkede op i begyndelsen af 1960'erne og blev introduceret i brug på symposier arrangeret af SDC i 1964 og 1965 , selvom det først blev forstået i en ret snæver forstand, i sammenhæng med kunstige intelligenssystemer . Udtrykket kom først i vid udstrækning i moderne betydning i 1970'erne [13] .

Typer af databaser

Der er et stort antal forskellige databaser, der adskiller sig i forskellige kriterier . For eksempel er der i "Encyclopedia of Database Technologies" [7] , som dette afsnit er skrevet på grundlag af, defineret mere end 50 typer databaser.

Klassificeringen efter datamodel omfatter normalt:

Klassificering efter lagermiljø skelner mellem databaser, der lagrer data i sekundær hukommelse ("traditionel", engelsk konventionel database ), resident (alle data på udførelsesstadiet er i RAM ) og tertiære ( engelsk tertiær database ), der lagrer data på aftagelige enheder masselagring - baseret på magnetbånd eller optiske diske . Samtidig bruges alle lagringsmiljøer i alle klasser, på den ene eller den anden måde, f.eks. til residente databaser, DBMS'et skriver kun skrivelogfiler til permanent hukommelse , og til traditionelle databaser bruges en cache i RAM.

Databaser kan også klassificeres efter indhold, for eksempel kan de være geografiske, historiske, videnskabelige, multimedier . For nogle former for indhold bygges der specialiserede DBMS, eller specialiserede funktioner føjes til en DBMS til generelle formål, blandt sådanne databaser:

spatial ( eng. spatial database ): baser med rumlige egenskaber for enheder i emneområdet, brugt i geografiske informationssystemer ;
temporal (temporal, eng. temporal database ): understøtter ethvert aspekt af tid , uden at tælle tiden defineret af brugeren.

Alt efter distributionsgraden opdeles databaser i centraliseret (koncentreret; eng. centraliseret database ) - fuldt understøttet på ét udstyr, og distribueret ( eng. distribueret database ). Blandt de mange muligheder for distribuerede databaser skiller følgende sig ud:

segmenteret : opdelt i dele under kontrol af forskellige instanser af DBMS i henhold til et eller andet kriterium;
replicated (replicated; eng. replicated database ): de samme data distribueres under kontrol af forskellige instanser af DBMS;
heterogen distribueret database : fragmenter af en distribueret database i forskellige netværksknuder understøttes ved hjælp af mere end én DBMS.

Blandede muligheder er mulige, for eksempel for den samme distribuerede database, sharding bruges til store objekter, og replikering bruges til små objekter.

Ifølge måderne at organisere lagring på, kan cykliske databaser skelnes (de skriver nye data i stedet for forældede), streaming databaser .

Superstore databaser

En meget stor database ( engelsk Very Large Database, VLDB ) er en database, der fylder ekstremt meget på en fysisk lagerenhed . Udtrykket indebærer de maksimalt mulige mængder af databasen, som er bestemt af de seneste fremskridt inden for fysisk datalagringsteknologier og softwaredatahåndteringsteknologier.

Den kvantitative definition af begrebet "ekstremt stor volumen" varierer over tid. Så i 1997 var den største tekstdatabase i verden Knight Ridders DIALOG med en volumen på 7 terabyte [14] . I 2001 blev den største database anset for at være 10,5 terabyte, i 2003 - 25 terabyte [15] . I 2005 blev de største databaser i verden anset for at være databaser med en lagervolumen på omkring hundrede terabyte [16] . I 2006 brugte Google-søgemaskinen en database på 850 terabyte [17] .

I 2010 mente man, at volumen af en ultra-stor database skulle måles i mindst petabyte [16] .

I 2011 lagrede Facebook data i en klynge på 2.000 noder med en samlet kapacitet på 21 petabyte [18] ; ved udgangen af 2012 nåede Facebooks datavolumen op på 100 petabyte [19] , og i 2014 - 300 petabyte [20] .

I 2014 lagrede Google ifølge indirekte estimater op til 10-15 exabyte data på sine servere i alt [21] .

Ifølge nogle skøn vil genetikere i 2025 have data om genomerne fra 100 millioner til 2 milliarder mennesker, og lagring af denne mængde data vil kræve fra 2 til 40 exabyte [22] .

Generelt ifølge IDC estimater fordobles den samlede mængde data i det "digitale univers" hvert andet år og vil ændre sig fra 4,4 zettabyte i 2013 til 44 zettabyte i 2020 [23] .

Forskning inden for lagring og behandling af meget store VLDB- databaser er altid på forkant med databaseteori og -praksis. Især siden 1975 har den årlige internationale konference om meget store databaser været afholdt ("International konference om meget store databaser"). Størstedelen af forskningen udføres i regi af non-profit organisationen VLDB Endowment (VLDB Endowment Fund), som sikrer fremme af videnskabeligt arbejde og udveksling af information inden for meget store databaser og beslægtede felter.

Se også

Noter

↑ 1 2 GOST R ISO IEC TIL 10032-2007: Referencemodel for datastyring (identisk med ISO/IEC TR 10032:2003 Informationsteknologi — Referencemodel for datastyring)
↑ GOST 33707-2016 (ISO/IEC 2382:2015) Informationsteknologi (IT). Ordbog
↑ ISO/IEC TR 10032:2003 - Informationsteknologi - Referencemodel for datastyring . www.iso.org. Hentet 9. juli 2018. Arkiveret fra originalen 9. juli 2018.
↑ "Det skal bemærkes, at termen database ofte bruges, selv når det faktisk betyder DBMS. […] En sådan brug af udtryk er forkastelig . ” — K. J. Dato. Introduktion til databasesystemer. - 8. udg. - M .: "Williams", 2006, s. 50.
"Dette udtryk (database) bruges ofte fejlagtigt i stedet for udtrykket 'databasestyringssystem'" . — Kogalovsky M.R. Encyclopedia of database technology. - M .: Finance and Statistics, 2002., s. 460.
"Blandt ikke-professionelle […] opstår der forvirring, når man bruger udtrykkene "database" og "databasestyringssystem". […] Vi vil strengt adskille disse vilkår . " - Kuznetsov S. D. Grundlæggende database: en tutorial. — 2. udgave, rev. — M.: Internet University of Information Technologies; BINOMIAL. Knowledge Lab, 2007, s. 19.
↑ Den Russiske Føderations civile lov, art. 1260
↑ ISO/IEC 2382 : 2015 - Informationsteknologi - Ordforråd . www.iso.org. Hentet 9. juli 2018. Arkiveret fra originalen 24. april 2021.
↑ 1 2 Kogalovsky M. R., 2002 .
↑ Dato K.J., 2005 .
↑ Connolly T., Begg K., 2003 .
↑ Miroshnichenko E. A. Mod en formel definition af begrebet "database" Arkivkopi dateret 27. april 2016 på Wayback Machine // Probl. informatik. 2011. nr. 2. S. 83-87.
↑ Det er vigtigt at forstå, at strukturen af en database ikke vurderes på niveauet af fysisk lagring (hvor alle data er repræsenteret af sæt af bits eller bytes ), men på niveauet af en logisk datamodel .
↑ 1 2 Gray, J. Data Management: Fortid, Nutid og Fremtid . Hentet 16. april 2010. Arkiveret fra originalen 27. april 2010. (ubestemt)
↑ Haigh T. Hvordan data fik sin base: Informationslagringssoftware i 1950'erne og 1960'erne // IEEE Annals of the History of Computing. — 2009. — #4 oktober-december
↑ Meget stor database . Hentet 6. november 2016. Arkiveret fra originalen 6. november 2016. (ubestemt)
↑ Riedewald M., Agrawal D., Abbadi A. Dynamic Multidimensional Data Cubes for Interactive Analysis of Massive Dataset // I: Encyclopedia of Information Science and Technology, første udgave, Idea Group Inc., 2005. ISBN 9781591405535
↑ 1 2 "Ekstreme" databaser: Den største og hurtigste Arkiveret 1. november 2011 på Wayback Machine , 2010
↑ Alex Chitu. Hvor meget data gemmer Google? Arkiveret 15. september 2016 på Wayback Machine , 2006
↑ Shvachko, Konstantin. Apache Hadoop. Skalerbarhedsopdateringen . _ - 2011. - Bd. 36 , nr. 3 . - S. 7-13 . - ISSN 1044-6397 .
↑ Josh Constine. Hvor store er Facebooks data? Arkiveret 12. september 2018 på Wayback Machine // TechCrunch , 23/08/2012
↑ Wiener, J., Bronson N. Facebooks største åbne dataproblemer arkiveret 12. september 2018 på Wayback Machine , 22.10.2014
↑ Colin Carson. Hvor meget data gemmer Google? Arkiveret 15. september 2016 på Wayback Machine , 2014
↑ Asya Gorina. Den voksende mængde genetiske data er blevet en udfordring for videnskaben Arkiveret 5. marts 2017 på Wayback Machine
↑ Resumé: Datavækst, forretningsmuligheder og it-imperativerne . Hentet 12. september 2018. Arkiveret fra originalen 12. september 2018. (ubestemt)

Litteratur

Kogalovsky MR Encyklopædi af databaseteknologier. - M .: Finans og statistik , 2002. - 800 s. — ISBN 5-279-02276-4 .
Kuznetsov SD Grundlæggende om databaser. - 2. udg. - M. : Internet University of Information Technologies; BINOMIAL. Videnlaboratoriet, 2007. - 484 s. - ISBN 978-5-94774-736-2 .
Dato CJ Introduktion til databasesystemer = Introduktion til databasesystemer. - 8. udg. - M .: Williams , 2005. - 1328 s. - ISBN 5-8459-0788-8 (russisk) 0-321-19784-4 (engelsk).
Connolly T., Begg K. Databaser. Design, implementering og support. Teori og praksis = Databasesystemer: En praktisk tilgang til design, implementering og ledelse. - 3. udg. - M .: Williams , 2003. - 1436 s. — ISBN 0-201-70857-4 .
Garcia-Molina G., Ulman J. , Widom J. Databasesystemer. Komplet kursus = Databasesystemer: Den komplette bog. - Williams , 2003. - 1088 s. — ISBN 5-8459-0384-X .
Databank / A. B. Antopolsky // Great Russian Encyclopedia : [i 35 bind] / kap. udg. Yu. S. Osipov . - M . : Great Russian Encyclopedia, 2004-2017.
Dato, CJ Date on Database: Writings 2000–2006. - Apress , 2006. - 566 s. - ISBN 978-1-59059-746-0 , 1-59059-746-X.
Dato, CJ Database i dybden. - O'Reilly, 2005. - 240 s. - ISBN 0-596-10012-4 .
Beynon-Davies P. (2004). Database Systems 3. udgave. Palgrave, Basingstoke, Storbritannien. ISBN 1-4039-1601-2

Links

CITForum - materialer på hjemmesiden for Center for Informationsteknologier
Very Large Data Base Endowment Inc.
ACM SIGMOD - Association for Computing Machinery: Special Interest Group On Management of Data.

Ordbøger og encyklopædier

I bibliografiske kataloger
BNF : 11931023c GND : 4113276-2 J9U : 987007532088905171 LCCN : sh86007767 NDL : 00865521 NKC : ph114295

Database
Begreber	Data model relationelle model algebra normal form Referenceintegritet DB DBMS Hierarkisk model netværksmodel Objektorienteret DB DBMS Objekt-relationel DBMS transaktion Journalføring ( proaktiv ) Sektionering Segmentering Kolonnelagring
Objekter	Holdning Kolonne ( virtuel ) Linje Bord Ydeevne Lagret procedure Udløser cursoren Indeks bordplads
Nøgler	Primær ( surrogat ) Ekstern Potentiel super nøgle
SQL	VÆLG INDSÆT OPDATERING SLET TRUNCATE FUSIONERE TILSLUTTE UNION KRYDSE UNDTAGEN SKAB ÆNDRE DROP GRANT BEGÅ TILBAGE
Komponenter	Forespørgselssprog Forespørgselsoptimering Forespørgselsplanlægger Plan for udførelse af forespørgsler Forespørgselscache ODBC ADO ADO.NET JDBC

Datalager

Opret et datavarehus
Begreber	Database Dimension ( Målemodel Faktum OLAP Stjerneskema Snefnug ordning
Muligheder	anker model Målebord Databoks HOLAP MOLAP ROLAP Operationel opbevaring
Elementer	Dataordbog metadata datamart sjette normalform Surrogatnøgle
Data	Faktatabel Tidlig kendsgerning Mål (
Måling	Målebord Langsomt skiftende dimensioner Degenereret dimension
fyldning	ETL Dataudtræk Datatransformation

Brug af datalageret
Begreber	business intelligence Dashboard data mining DSS OLAP terning
Sprog	- udvidelser MDX XMLA
Værktøjer	Business Intelligence værktøjer Rapport generator Regneark

relaterede emner
Mennesker	Bill Inmon Ralph Kimball
Produkter	Sammenligning af OLAP-servere

Kategori