Datalager

Data Warehouse er en domænespecifik informationsdatabase , specielt designet og designet til rapportering og forretningsanalyse for at understøtte beslutningstagning i en organisation. Det er bygget på basis af databasestyringssystemer og beslutningsstøttesystemer . Data, der indtastes i et datavarehus, er typisk skrivebeskyttet.

Data fra OLTP -systemet kopieres til datavarehuset på en sådan måde, at når der opbygges rapporter og OLAP -analyse, bliver transaktionssystemets ressourcer ikke brugt, og dets stabilitet krænkes ikke. Der er to muligheder for at opdatere data på lager:

komplet opdatering af dataene i depotet. Først slettes de gamle data, derefter indlæses de nye data. Processen sker med en vis hyppighed, mens relevansen af dataene kan halte noget efter OLTP-systemet;
trinvis opdatering - kun de data, der er ændret i OLTP-systemet, opdateres.

Opbevaringsorganisationsprincipper

Problem-emneorientering . Data er kategoriseret og gemt i henhold til de områder, de beskriver, ikke de applikationer, de bruger.
Integration . Dataene er aggregeret, så de opfylder alle krav fra virksomheden som helhed, ikke en enkelt funktion i virksomheden.
Ukorrigerbar . Dataene i datavarehuset er ikke oprettet: det vil sige, at de kommer fra eksterne kilder, de bliver ikke rettet eller slettet.
Afhængighed af tid . Dataene på lageret er kun nøjagtige og korrekte, når de er bundet til en bestemt periode eller tidspunkt.

Datavarehusdesign

Der er to hovedarkitektoniske retninger - normaliserede datalagre og dimensionelle lagre.

I normaliserede lagre lagres data i domænespecifikke tabeller i tredje normalform . Normaliserede lagre karakteriseres som lette at oprette og administrere, ulemperne ved normaliserede lagre er et stort antal tabeller som følge af normalisering, på grund af hvilket, for at få nogen information, er det nødvendigt at vælge fra mange tabeller på samme tid tid, hvilket fører til en forringelse af systemets ydeevne. For at løse dette problem anvendes denormaliserede tabeller - data marts , på grundlag af hvilke rapporteringsskemaer allerede vises. Med enorme mængder data kan flere niveauer af "mart" / "storage" bruges.

Butikker med dimensioner bruger enten et stjerneskema eller et snefnugskema . I dette tilfælde er dataene ( fakta-tabel ) i midten af "stjernen" , og målingerne danner stjernens stråler. Forskellige faktatabeller deler dimensionstabeller, hvilket gør det meget nemmere at kombinere data fra flere emnefaktatabeller (f.eks. salgsfakta og produktleverancer). Datatabellerne og de tilsvarende dimensioner danner "bus"-arkitekturen. Dimensioner oprettes ofte i tredje normal form, herunder for at registrere ændringer i dimensioner. Den største fordel ved lagre med målinger er enkelhed og klarhed for udviklere og brugere, også takket være mere effektiv datalagring og formaliserede målinger lettes og accelereres adgangen til data, især i komplekse analyser. Den største ulempe er de mere komplekse procedurer til forberedelse og indlæsning af data samt styring og ændring af datadimensioner.

Med en tilstrækkelig stor mængde data medfører stjerne- og snefnugskemaer også ydeevneforringelse, når de forbindes til dimensioner.

Dataprocesser

Datakilder kan være:

Traditionelle registreringssystemer
Separate dokumenter
Datasæt

Dataoperationer:

Ekstraktion - flytning af information fra datakilder til en separat database, bringer dem til et enkelt format.
Transformation er forberedelse af information til opbevaring i en optimal form til implementering af den anmodning, der er nødvendig for beslutningstagning.
Indlæsning - anbringelse af data på lager, udført atomisk, ved at tilføje nye fakta eller justere eksisterende.
Analyse - OLAP , Data Mining , sammenfattende rapporter.
Præsentation af analyseresultater.

Alle disse oplysninger bruges i metadataordbogen . Metadataordbogen inkluderer automatisk datakildeordbøger . Den beskriver også dataformaterne for deres efterfølgende koordinering, hyppigheden af datagenopfyldning, konsistens i tid. Formålet med metadataordbogen er at aflaste udvikleren for behovet for at standardisere datakilder. Oprettelsen af datavarehuse bør ikke være i modstrid med de eksisterende systemer til indsamling og behandling af information. Særlige komponenter i ordbøger bør sikre rettidig udtrækning af data fra dem og give datakonvertering til et enkelt format baseret på en metadataordbog.

Den logiske datastruktur i et datavarehus er væsentligt forskellig fra datakildernes datastruktur. At designe en effektiv transformationsproces kræver en veldesignet virksomhedsdatamodel og en beslutningsteknologimodel. Det er praktisk for brugeren at præsentere data i multidimensionelle databaser, hvor tid, pris eller geografisk region kan fungere som målinger.

Udover at udtrække data fra databasen, er processen med at udvinde viden vigtig for beslutningstagning i overensstemmelse med brugerens informationsbehov . Fra brugerens synspunkt, i processen med at udtrække viden fra databasen, bør følgende transformationer løses: data → information → viden → opnåede løsninger.

Se også

Ordbøger og encyklopædier	Fantastisk catalansk Britannica (online)
I bibliografiske kataloger	J9U : 987007563636805171 LCCN : sh97003695 NDL : 00911488

Datalager

Opret et datavarehus
Begreber	Database Dimension ( Målemodel Faktum OLAP Stjerneskema Snefnug ordning
Muligheder	anker model Målebord Databoks HOLAP MOLAP ROLAP Operationel opbevaring
Elementer	Dataordbog metadata datamart sjette normalform Surrogatnøgle
Data	Faktatabel Tidlig kendsgerning Mål (
Måling	Målebord Langsomt skiftende dimensioner Degenereret dimension
fyldning	ETL Dataudtræk Datatransformation

Brug af datalageret
Begreber	business intelligence Dashboard data mining DSS OLAP terning
Sprog	- udvidelser MDX XMLA
Værktøjer	Business Intelligence værktøjer Rapport generator Regneark

relaterede emner
Mennesker	Bill Inmon Ralph Kimball
Produkter	Sammenligning af OLAP-servere

Kategori