Datalager

Data Warehouse er en domænespecifik  informationsdatabase , specielt designet og designet til rapportering og forretningsanalyse for at understøtte beslutningstagning i en organisation. Det er bygget på basis af databasestyringssystemer og beslutningsstøttesystemer . Data, der indtastes i et datavarehus, er typisk skrivebeskyttet.

Data fra OLTP -systemet kopieres til datavarehuset på en sådan måde, at når der opbygges rapporter og OLAP -analyse, bliver transaktionssystemets ressourcer ikke brugt, og dets stabilitet krænkes ikke. Der er to muligheder for at opdatere data på lager:

Opbevaringsorganisationsprincipper

Datavarehusdesign

Der er to hovedarkitektoniske retninger - normaliserede datalagre og dimensionelle lagre.

I normaliserede lagre lagres data i domænespecifikke tabeller i tredje normalform . Normaliserede lagre karakteriseres som lette at oprette og administrere, ulemperne ved normaliserede lagre er et stort antal tabeller som følge af normalisering, på grund af hvilket, for at få nogen information, er det nødvendigt at vælge fra mange tabeller på samme tid tid, hvilket fører til en forringelse af systemets ydeevne. For at løse dette problem anvendes denormaliserede tabeller - data marts , på grundlag af hvilke rapporteringsskemaer allerede vises. Med enorme mængder data kan flere niveauer af "mart" / "storage" bruges.

Butikker med dimensioner bruger enten et stjerneskema eller et snefnugskema . I dette tilfælde er dataene ( fakta-tabel ) i midten af ​​"stjernen" , og målingerne danner stjernens stråler. Forskellige faktatabeller deler dimensionstabeller, hvilket gør det meget nemmere at kombinere data fra flere emnefaktatabeller (f.eks. salgsfakta og produktleverancer). Datatabellerne og de tilsvarende dimensioner danner "bus"-arkitekturen. Dimensioner oprettes ofte i tredje normal form, herunder for at registrere ændringer i dimensioner. Den største fordel ved lagre med målinger er enkelhed og klarhed for udviklere og brugere, også takket være mere effektiv datalagring og formaliserede målinger lettes og accelereres adgangen til data, især i komplekse analyser. Den største ulempe er de mere komplekse procedurer til forberedelse og indlæsning af data samt styring og ændring af datadimensioner.

Med en tilstrækkelig stor mængde data medfører stjerne- og snefnugskemaer også ydeevneforringelse, når de forbindes til dimensioner.

Dataprocesser

Datakilder kan være:

  1. Traditionelle registreringssystemer
  2. Separate dokumenter
  3. Datasæt

Dataoperationer:

  1. Ekstraktion - flytning af information fra datakilder til en separat database, bringer dem til et enkelt format.
  2. Transformation er forberedelse af information til opbevaring i en optimal form til implementering af den anmodning, der er nødvendig for beslutningstagning.
  3. Indlæsning - anbringelse af data på lager, udført atomisk, ved at tilføje nye fakta eller justere eksisterende.
  4. Analyse - OLAP , Data Mining , sammenfattende rapporter.
  5. Præsentation af analyseresultater.

Alle disse oplysninger bruges i metadataordbogen . Metadataordbogen inkluderer automatisk datakildeordbøger . Den beskriver også dataformaterne for deres efterfølgende koordinering, hyppigheden af ​​datagenopfyldning, konsistens i tid. Formålet med metadataordbogen er at aflaste udvikleren for behovet for at standardisere datakilder. Oprettelsen af ​​datavarehuse bør ikke være i modstrid med de eksisterende systemer til indsamling og behandling af information. Særlige komponenter i ordbøger bør sikre rettidig udtrækning af data fra dem og give datakonvertering til et enkelt format baseret på en metadataordbog.

Den logiske datastruktur i et datavarehus er væsentligt forskellig fra datakildernes datastruktur. At designe en effektiv transformationsproces kræver en veldesignet virksomhedsdatamodel og en beslutningsteknologimodel. Det er praktisk for brugeren at præsentere data i multidimensionelle databaser, hvor tid, pris eller geografisk region kan fungere som målinger.

Udover at udtrække data fra databasen, er processen med at udvinde viden vigtig for beslutningstagning i overensstemmelse med brugerens informationsbehov . Fra brugerens synspunkt, i processen med at udtrække viden fra databasen, bør følgende transformationer løses: data → information → viden → opnåede løsninger.

Se også