Disaster recovery (i russiske kilder bruges det ikke helt korrekte udtryk disaster recovery også ) inkluderer et sæt politikker, værktøjer og procedurer, der giver dig mulighed for at genoprette eller fortsætte driften af vital teknologisk infrastruktur og systemer efter en naturkatastrofe eller menneskeskabt katastrofe [1] . Disaster recovery fokuserer på informationsteknologi (IT) eller teknologisystemer, der understøtter kritiske forretningsfunktioner, i modsætning til forretningskontinuitet, som involverer opretholdelse af alle væsentlige aspekter af forretningsdrift på trods af større forstyrrelser; derfor kan det betragtes som en delmængde af forretningskontinuitetsopgaver [2] [3] . Disaster recovery antager, at hoveddelen af det oprindeligt fungerende informationssystem ikke kan gendannes i nogen tid, og er processen med at gendanne data og tjenester til sekundære overlevende websteder, i modsætning til processen med at gendanne informationssystemer til deres oprindelige sted.
IT-service kontinuitetsplanlægning (ITSC) [4] [5] er en delmængde af forretningskontinuitetsplanlægning (BCP) [6] , der fokuserer på Recovery Point Objective (RPO) og Recovery Time Objective (R.T.O.). Denne proces omfatter to typer planlægning; Planlægning af it-katastrofegenopretning og bredere it-resiliency-planlægning. Derudover omfatter det også ledelseselementer for it-infrastruktur og tjenester relateret til kommunikation, såsom telefoni (tale) og data.
Planlægning omfatter opsætning af standby-steder, uanset om de er varme, varme eller kolde, samt understøttelse af standby-steder med det nødvendige udstyr for at sikre kontinuitet i virksomheden.
I 2008 udgav British Standards Institution en specifik standard relateret til og understøtter BS 25999 forretningskontinuitetsstandarden, kaldet BS25777, specifikt til at tilpasse IT-systemkontinuitet med forretningskontinuitet . Denne standard blev trukket tilbage efter offentliggørelsen i marts 2011 af ISO/IEC 27031 Sikkerhedspraksis. Vejledning om at sikre informations- og kommunikationsteknologiers parathed til forretningskontinuitet” [7] .
ITIL definerer også nogle af disse termer [8] .
Recovery Time Objectives (RTO) Dette udtryk er også oversat som "Recovery Time Objective" [9] [10] er målvarigheden og serviceniveauet, inden for hvilket en forretningsproces skal genoprettes efter en katastrofe (eller fiasko) for at undgå uacceptable konsekvenser forbundet med med forretningsafbrydelse [11] .
I overensstemmelse med Business Continuity Planning-metoden indstilles RTO'en under Business Impact Analysis (BIA) af procesejeren(e) og inkluderer definitionen af en tidsramme for alternative eller manuelle gendannelsesløsninger.
I litteraturen om emnet omtales RTO som komplementær til Recovery Point Objective (RPO). I stedet beskriver de grænserne for acceptabel eller "acceptabel" ITSC-ydelse. RTO og RPO måler henholdsvis ITSC-ydelse i form af tabt tid på grund af den normale funktion af forretningsprocesser og data, der mistes eller ikke er sikkerhedskopieret i den periode (RPO), [11] [12] .
En Forbes-gennemgang bemærker [9] , at Recovery Time Actual (RTA) faktisk er en kritisk målestok for forretningskontinuitet og katastrofegendannelse.
Forretningskontinuitetsteamet gennemfører øvelser med timingen af de faktiske handlinger, der udføres, hvor RTA bestemmes og justeres om nødvendigt [9] .
Recovery Point Objective ( Recovery Point Objective , RPO ) er den maksimale målperiode, hvor transaktionsdata går tabt fra IT-tjenesten på grund af en større hændelse [11] .
For eksempel, hvis RPO måles i minutter (eller endda flere timer), så er det i praksis nødvendigt konstant at vedligeholde fjernspejlede sikkerhedskopier, da daglige båndbackups udenfor stedet ikke er nok [13] .
Relation til restitutionstidsmålEn gendannelse, der ikke er øjeblikkelig, vil tillade, at transaktionsdata gendannes over tid og gøre det uden væsentlig risiko eller tab.
RPO måler den maksimale tid, hvor de seneste data kan gå uigenkaldeligt tabt i tilfælde af en større hændelse og er ikke et direkte mål for størrelsen af et sådant tab. For eksempel, hvis BC planlægger at gendanne data til den seneste tilgængelige sikkerhedskopi, så er RPO det maksimale interval mellem sådanne sikkerhedskopier, der er blevet sikkert fjernet fra lageret.
Det er ofte misforstået, at RPO'en bestemmes af det eksisterende backup-regime, mens forretningskonsekvensanalysen i virkeligheden bestemmer RPO'en for hver tjeneste. Når fjerndata er påkrævet, begynder den periode, hvor data kan gå tabt, ofte fra det øjeblik, sikkerhedskopierne er forberedt, og ikke fra det øjeblik, de overføres fra stedet [12] .
Datasynkroniseringspunktet (det er også backuppunktet ) [14] er det tidspunkt, hvor de fysiske data sikkerhedskopieres. I den enkleste implementering er dette det punkt, hvor behandlingen af dataopdateringskøen i systemet stopper, mens disk-til-disk-kopieringen er i gang. I moderne systemer fortsætter databehandlingen typisk parallelt med backup, som sker ved hjælp af snapshots . Sikkerhedskopieringen [15] vil afspejle en tidligere version af dataene og ikke den tilstand, der opstod, da dataene blev kopieret til sikkerhedskopieringsmediet eller overført til sikkerhedskopieringsstedet.
RTO og RPO skal balanceres mod forretningsrisici såvel som alle andre større systemdesignkriterier.
RPO er bundet til det tidspunkt, hvor backups uploades off site. Synkron kopiering af data til et eksternt spejl overvinder de fleste uforudsete problemer med tilgængeligheden af hovedsiden. Fysisk flytning af bånd (eller andre bærbare medier) off-site giver nogle af sikkerhedskopieringsbehovene til en relativt lav pris. Gendannelse fra sådanne kopier kan udføres på et forudvalgt sted [16] .
For store mængder værdifulde transaktionsdata kan hardwaren opdeles i to eller flere steder ved at adskille efter geografisk område, hvilket forbedrer modstandsdygtigheden.
For mere detaljeret retableringsplanlægning, indikatorer som DOO - Degraded Operations Objective - den acceptable opbremsning i udførelsen af operationer af systemet, der opstår i processen med at overføre databehandling til et backup-sted og NRO - Network Recovery Objective - den mindste netværksbåndbredde der skal gendannes, kan også bruges til at sikre den minimale acceptable ydeevne af det genskabte system [17] .
Disaster recovery og informationsteknologi (IT) planlægning begyndte at udvikle sig i midten til slutningen af 1970'erne, da computercenterledere begyndte at indse deres organisationers afhængighed af computersystemer.
På det tidspunkt var de fleste systemer batch- orienterede mainframes . En anden ekstern mainframe kan starte fra backup-bånd, mens man venter på, at hovedwebstedet gendannes; nedetid var relativt mindre kritisk.
Disaster recovery-industrien opstod som en leverandør af backup-computercentre. Et af de første sådanne centre var placeret i Sri Lanka (Sungard Availability Services, 1978) [18] [19] udviklet til at levere backup computercentre. Et af de tidligste sådanne centre var placeret i Sri Lanka (Sungard Availability Services, 1978). [20] [21] .
I 1980'erne og 90'erne, efterhånden som intern tidsdeling, onlinedataindtastning og realtidsbehandling voksede, var der behov for større tilgængelighed af it-systemer.
IT-servicekontinuitet er vigtig for mange organisationer, når de implementerer business continuity management (BCM) og informationssikkerhedsstyring (ICM), og som en del af implementering og styring af informationssikkerhed og business continuity management som specificeret i henholdsvis ISO/IEC 27001 og ISO 22301 .
Stigningen i cloud computing siden 2010 fortsætter denne tendens: det er nu endnu mindre vigtigt, hvor computing-tjenester er fysisk hostet, bare så længe netværket i sig selv er tilstrækkeligt pålideligt (et særskilt problem og ikke af stor bekymring, da moderne netværk er meget modstandsdygtige ). af design). Recovery as a Service (RaaS) er en af sikkerhedsfunktionerne eller fordelene ved cloud computing, som fremmes af Cloud Security Alliance [22] .
Katastrofer kan klassificeres i tre brede kategorier af trusler og farer. Den første kategori omfatter naturkatastrofer som oversvømmelser, orkaner, tornadoer, jordskælv og epidemier.
Den anden kategori er teknologiske farer, som omfatter ulykker eller svigt i systemer og strukturer, såsom rørledningseksplosioner, transportulykker, forsyningssvigt, dæmningsfejl og utilsigtede udslip af farlige materialer.
Den tredje kategori er menneskeskabte trusler, som omfatter bevidste handlinger såsom aktive ondsindede angreb, kemiske eller biologiske angreb, cyberangreb mod data eller infrastruktur og sabotage. Beredskabsforanstaltninger for alle kategorier og typer af naturkatastrofer falder ind under fem missionsområder: forebyggelse, beskyttelse, afbødning, reaktion og genopretning [23] .
Nyere forskning understøtter ideen om, at en mere holistisk tilgang til planlægning før katastrofe er mere omkostningseffektiv i det lange løb. Hver dollar, der bruges på farebegrænsning (såsom en katastrofeberedskabsplan) sparer samfundet $4 i respons- og genopretningsomkostninger [24] .
Statistikker fra 2015 viser, at en times nedetid kan koste
Efterhånden som it-systemer bliver mere og mere kritiske for en velfungerende virksomhed og muligvis økonomien som helhed, bliver det stadig vigtigere at holde disse systemer oppe og køre hurtigt og genskabe dem hurtigt. For eksempel genåbner 43 % af virksomheder, der oplever et større tab af forretningsdata, aldrig, og 29 % lukker inden for to år. Som følge heraf skal forberedelse til at fortsætte eller genoprette systemer tages meget alvorligt. Dette kræver en betydelig investering af tid og penge for at sikre minimale tab i tilfælde af en destruktiv begivenhed [26] .
Kontrolforanstaltninger er handlinger eller mekanismer, der kan reducere eller eliminere forskellige trusler mod organisationer. Forskellige typer af foranstaltninger kan indgå i en katastrofe genopretningsplan (DRP).
Disaster recovery planlægning er en del af en større proces kendt som forretningskontinuitetsplanlægning og omfatter planlægning for genoptagelse af applikationer, data, udstyr, elektronisk kommunikation (såsom netværk) og anden it-infrastruktur. Business Continuity Plan (BCP) omfatter planlægning af ikke-it-relaterede aspekter såsom nøglepersoner, faciliteter, krisekommunikation og omdømmebeskyttelse og bør henvise til en Disaster Recovery Plan (DRP) for it-relateret infrastrukturgendannelse/kontinuitet.
IT-katastrofegendannelseshåndteringsforanstaltninger kan opdeles i følgende tre typer:
En god DR-plan kræver, at disse tre typer kontroller dokumenteres og regelmæssigt anvendes ved hjælp af såkaldte "disaster recovery tests".
Inden han vælger en katastrofegendannelsesstrategi, konsulterer planlæggeren først deres organisations forretningskontinuitetsplan, som bør specificere nøglemålinger for gendannelsespunktets mål og genopretningstidsmål [28] Forretningsprocesmålingerne kortlægges derefter til deres systemer og infrastruktur [ 29 ] .
Mangel på ordentlig planlægning kan øge virkningen af en naturkatastrofe [30] . Efter at have sammenlignet metrikkerne gennemgår organisationen IT-budgettet; RTO'er og RPO'er skal matche det tilgængelige budget. Cost-benefit-analyse afgør ofte, hvilke katastrofeberedskabsforanstaltninger der skal anvendes.
New York Times skriver, at tilføjelse af cloud backup til fordelene ved lokal og offsite båndarkivering "tilføjer et lag af databeskyttelse" [31] .
De almindeligt anvendte databeskyttelsesstrategier omfatter:
I mange tilfælde kan en organisation vælge at bruge en outsourcet katastrofegendannelsesudbyder til at levere et backup-websted og -systemer i stedet for at bruge deres egne eksterne websteder, i stigende grad gennem cloud computing.
Ud over at forberede sig på behovet for at genoprette systemer, træffer organisationer også forholdsregler for at forhindre katastrofer. Disse kan omfatte:
En udbredt type genopretningsplanklassifikation er syv-niveauklassifikationen, udviklet i slutningen af 1980'erne af SHARE Technical Steering Committee, som blev udviklet i fællesskab med IBM. De udviklede en hvidbog, der beskriver serviceniveauer for katastrofeoprettelse ved hjælp af niveauerne 0 til 6. Siden da er der opstået en række klassifikationer for at konkurrere med dette og afspejle den videre udvikling inden for teknologi og industrien som helhed. Forskellige klassifikationer fokuserer på forskellige aspekter eller tekniske træk ved restaureringsprocessen. Klassificeringen af Wiboobratr og Kosavisutee er således hovedsageligt fokuseret på DRaaS- løsninger . Nedenfor er en sammenlignende tabel over sådanne klassifikationer [33] .
Niveau | DEL/ IBM [34] [35] [36] | Hitachi [37] | Wiboonratr og Kosavisutte [38] | Novell [39] | Xiotech [40] |
---|---|---|---|---|---|
0 | Der er ingen katastrofe genopretningsplan. | ||||
en | Sikkerhedskopier er i gang, sikkerhedskopier flyttes til en separat bygning, men der er ingen hot standby-side . Denne reservationsmetode omtales som Pickup Truck Access Method (PTAM) [17] . | Sikkerhedskopiering til eksternt bånd . | Point-in-time recovery er mulig. | Tape backup/manuel gendannelse. | Niveau 4
Planlagt sikkerhedskopiering til en "kold" backup-side |
2 | Der laves en sikkerhedskopi, der er et hot backup-sted , hvortil data fra en backup kan gendannes [17] . Metoden er kendt som PTAM+hotsite. | Der laves en backup på bånd på det primære eller backup-sted. | Kopier, der er lavet på bånd, leveres til et forudforberedt backup-sted. | Traditionel lagring/gendannelse af diskbillede. | |
3 | "Elektronisk opbevaring" (elektronisk hvælving). Sammenlignet med niveau 2 tilføjes muligheden for regelmæssigt at kopiere (og følgelig gendanne) data fra hovedsiden. Typisk restitutionstid er 24 timer [34] . | "Elektronisk lagring" - svarende til SHARE/IBM-klassifikationen. | Diskkopier, der giver punkt-i-tidsgendannelse, laves til flere steder | Fleksibel (inklusive pr. fil og med valg af filversion til gendannelse) lagring/gendannelse af et diskbillede. | Niveau 3
Relativ hurtig gendannelse fra sikkerhedskopier udført asynkront eller efter en tidsplan til et "varmt" backupsted. |
fire | Der oprettes kopier, der tillader gendannelse på tidspunktet . | En enkelt sikkerhedskopi skrevet til disk. | Fjernlogning af systemdrift udføres. | Sikkerhedskopiering/gendannelse baseret på virtualisering. | |
5 | Sikrer transaktionsdataintegritet . | Evne til at gendanne ved hjælp af filkonsolidering fra forskellige diskbilleder | Opret en skyggekopi af en produktionsdatabase parallelt | Redundans baseret på servere, der kører i en klynge. | Niveau 2
Hurtig gendannelse fra en asynkron kopi til et hot standby-sted. |
6 | Nul eller lidt tab af data efter gendannelse. | Tilgængelighed af data på en disk, der deles mellem det primære og backup-system. | Data bliver fjernkopieret. | ||
7 | Meget automatiseret gendannelse. | Diskspejling mellem primært og sekundært system. | Fjernfejltolerant kopiering af data udføres. | Niveau 1
Øjeblikkelig gendannelse fra en synkron kopi til et hot standby-sted. | |
otte | Komplet duplikering af data. |
Det er underforstået, at hvert næste niveau inden for en af klassifikationerne supplerer eller erstatter det foregående med dets egenskaber.
Disaster Recovery as a Service (DRaaS) er en aftale med en tredjepart, service- og/eller hardwareudbyder. [41] . Udbydes normalt af tjenesteudbydere som en del af deres serviceportefølje. En række store udstyrsleverandører tilbyder modulære datacentre som en del af denne service , hvilket giver dig mulighed for at implementere det nødvendige udstyr til katastrofegendannelse så hurtigt som muligt.