Failover klynge

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 4. august 2016; checks kræver 9 redigeringer .

Failover cluster ( engelsk  High-Availability cluster , HA cluster  - high available cluster ) - en klynge (gruppe af servere ), designet i overensstemmelse med høj tilgængelighedsteknikker og garanterer minimal nedetid på grund af hardwareredundans. Uden klyngedannelse bevirker en serverfejl, at de applikationer eller netværkstjenester, den understøtter, er utilgængelige, indtil de er sikkerhedskopieret. Failover-klynger retter denne situation ved at genstarte applikationer på andre noder i klyngen uden administratorindgriben, hvis der opdages hardware- eller softwarefejl. Genstartsprocessen er kendt som failover . Som en del af denne proces kan klyngesoftwaren yderligere konfigurere noden, før applikationen køres på den (f.eks. importere og montere de relevante filsystemer, omkonfigurere netværkshardwaren eller køre eventuelle hjælpeprogrammer).

Failover-klynger bruges i vid udstrækning til at understøtte kritiske databaser , netværksfillagring, forretningsapplikationer og kundeservicesystemer såsom e- handelswebsteder .

Implementeringer af HA-klynger er forsøg på at opnå fejltolerance for klyngen som helhed ved at eliminere kritiske fejlpunkter, herunder gennem redundans af computerkraft, netværksforbindelser og datalagring, kombineret til et redundant SAN .

Krav til applikationsarkitektur

Ikke alle applikationer kan køre i et meget tilgængeligt klyngemiljø. Der bør træffes passende beslutninger på et tidligt stadium af softwareudviklingen. For at køre i en HA-klynge skal en applikation mindst opfylde følgende tekniske krav, hvoraf de to sidste er afgørende for dens pålidelige drift i en klynge, og som er de sværeste at opfylde fuldt ud:

Byggeplaner

De mest almindelige to-node HA-klynger er den mindste konfiguration, der kræves for at give fejltolerance. Men ofte indeholder klynger meget mere, nogle gange snesevis af noder. Alle disse konfigurationer kan generelt beskrives af en af ​​følgende modeller:

Udtrykkene logisk vært eller clustered logical host bruges til at henvise til den netværksadresse, der bruges til at få adgang til de tjenester, der leveres af klyngen. Det logiske værts-id er ikke bundet til en enkelt klynge node. Det er faktisk en netværksadresse/navn, der er knyttet til den eller de tjenester, der leveres af klyngen. Hvis en klynge node med fx en kørende database går ned, vil databasen blive genstartet på en anden klynge node, og netværksadressen, hvor brugerne får adgang til databasen, vil blive bevaret for enhver ny node, så brugerne vil stadig have adgang til databasen.

Pålidelighed af en enkelt node

HA-klynger, ud over de beskrevne inter-node redundansskemaer, bruger alle de metoder, der normalt bruges i separate (ikke-klynge) systemer og netværksinfrastruktur for at maksimere pålideligheden. Disse omfatter:

Individuelle node-oppetidsmål hjælper med at minimere chancerne for at ty til native failover-klyngemekanismer. Hvis sidstnævnte er aktiveret, kan adgangen til tjenesten blive afbrudt, selv om det kun er i kort tid, og det er mere hensigtsmæssigt at forhindre kritiske udstyrsfejl.

Fejlgendannelsesalgoritmer

Systemer, der håndterer fejl i distribuerede computersystemer, bruger forskellige strategier til at håndtere konsekvenserne af en fejl. For eksempel giver Apache Cassandra API Hector (API) tre muligheder for fejlhåndtering:

For at kontrollere sundheden for knuder i en klynge transmitteres et kontinuerligt periodisk signal ("puls", engelsk  hjerteslag ) normalt i klyngens interne netværk fra hver af knudepunkterne, ved hvis tilstedeværelse kontrolsoftwaren bedømmer den normale drift af naboknuder. Et ikke-oplagt, men alvorligt problem med "split-brain_(computing)" er forbundet med dette -  i tilfælde af samtidig afbrydelse af mange forbindelser i klyngens interne netværk på grund af strømsvigt, netværksudstyrsfejl mv. , vil noden ikke være i stand til at håndtere denne situation korrekt, begynder at opføre sig, som om alle andre klynge noder har fejlet, og starter duplikerede tjenester, der allerede kører i klyngen, hvilket kan føre til datakorruption i det delte lager.

Se også

Noter

Links