Fejltolerance

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 2. april 2020; checks kræver 15 redigeringer .

Fejltolerance er et teknisk systems egenskab til at opretholde sin ydeevne efter svigt af en eller flere af dets komponenter [1] .

Begrebet fejltolerance i teknik

Fejltolerance bestemmes af antallet af enkeltfejl i komponentdelene (elementerne) af systemet, efter hvis forekomst driften af systemet som helhed opretholdes. Det grundlæggende niveau af fejltolerance indebærer beskyttelse mod svigt af et element. Derfor er redundans den vigtigste måde at forbedre fejltolerancen på . Redundans implementeres mest effektivt i hardware ved redundans . Inden for en række teknologiområder er fejltolerance ved hjælp af redundans et obligatorisk krav, som statslige tilsynsmyndigheder pålægger tekniske systemer [2] .

For højrisiko-tekniske systemer er et særligt tilfælde af fejltolerance fejlsikkerhed - et systems evne til i tilfælde af svigt af nogle af dets komponenter at skifte til en driftstilstand, der ikke udgør en fare for mennesker, miljø eller ejendom. I rigtige systemer kan disse to egenskaber betragtes sammen.

Fejltolerance karakteristika

Fejltoleranceegenskaben er forbundet med følgende tekniske egenskaber:

tilgængelighedsfaktor , som viser, hvor stor en andel af den samlede levetid systemet er i funktionsdygtig stand;
systempålidelighedsindikatorer, der bestemmer sandsynligheden for fejlfri drift eller sandsynligheden for visse typer fejl i systemet eller dets elementer over en vis periode.

Fejltolerant arkitektur set fra et ingeniørmæssigt synspunkt er en måde at bygge fejltolerante systemer på, som forbliver operationelle (muligvis med et fald i effektivitet), når elementer svigter [3] . Begrebet bruges ofte i skabelsen af computersystemer, der fortsætter med at arbejde med et muligt fald i gennemløb eller øget responstid i tilfælde af fejl på en del af systemelementerne (problemer med hardware eller software ). Den fejltolerante arkitektur i computere bruges for eksempel i replikeringsprocessen .

På samme måde anvender bærende strukturer strukturer, der bevarer deres integritet og bæreevne, når de beskadiges af korrosion eller træthed , fabrikationsfejl eller utilsigtet beskadigelse.

Foranstaltninger vedrørende fejltolerance kan også implementeres på niveauer af systemelementer. For eksempel, på en bil, der er designet til ikke at miste kontrollen, når et af dækkene svigter, indeholder hvert dæk en gummikerne, så de kan køre i en begrænset periode og ved reduceret hastighed.

Redundans

Redundans kaldes funktionalitet, som ikke er nødvendig for problemfri drift af systemet [4] .

Eksempler er reservedele, der automatisk sættes i drift, hvis den primære går i stykker. Især store lastbiler kan miste et dæk uden alvorlige konsekvenser. De har mange dæk installeret, og det er ikke kritisk at miste et (bortset fra det forreste par, som bruges til kurvekørsel). Ideen om at inkludere redundante dele for at øge systemets pålidelighed blev først foreslået af John von Neumann i 1950'erne [5] .

Der er to typer redundans [6] : rumlig og tidsmæssig. Rumredundans implementeres ved at introducere yderligere komponenter, funktioner eller data, der ikke er nødvendige for problemfri drift. Yderligere (redundante) komponenter kan være hardware, software og information . Midlertidig redundans implementeres ved at genberegne eller sende data, hvorefter resultatet sammenlignes med en gemt kopi af den forrige.

Beslutningskriterier for modstandsdygtighed

Design af fejlsikre strukturer har en omkostning: øget vægt, omkostninger, strømforbrug, omkostninger og tid brugt på at designe, kontrollere og teste. For at bestemme, hvilke dele af systemet der skal designes til at være fejltolerante, er der en række kriterier [7] :

Hvor vigtigt er elementet? For eksempel i en privat bil er radioen ikke en væsentlig del af kørslen, så den behøver ikke at være fejltolerant.
Hvor sandsynligt er det, at elementet fejler? Nogle strukturelle elementer, for eksempel kardanakslen på en bil, går ekstremt sjældent i stykker, og behøver derfor ikke fejltolerance.
Hvor dyrt vil failover være? For eksempel er fejltolerance for personbilsmotorsystemer ikke begrundet i omkostningerne ved oprettelse og drift (størrelse, vægt, kontroller, pris, kontrol og eftersyn på driftsstadiet).

Et eksempel på en genstand, der er gået hele vejen igennem, er sikkerhedsseler . Den primære metode til at fastholde personer i ethvert køretøj er tyngdekraften , men under væltning eller andre g-kraft-forhold virker den primære fastholdelsesmetode muligvis ikke. Et sekundært system, der holder folk på plads under sådanne forhold, øger deres sikkerhed - dermed er det første punkt bekræftet. Tilfælde af udstødning af personer i en ulykke, såsom en bil, var almindelige før indførelsen af sikkerhedsseler, hvilket bekræfter det andet punkt. Prisen for at montere sikkerhedsseler er lav både med hensyn til omkostninger og med hensyn til fremstillingsevne, hvilket bekræfter det tredje punkt. Som et resultat kan vi konkludere, at montering af sikkerhedsseler på alle køretøjer er en rimelig foranstaltning.

Nogle gange kræver hardwareresiliens, at defekte dele fjernes og erstattes med nye, mens systemet fortsætter med at fungere (kendt i computerverdenen som hot swapping ). I sådanne systemer skal den gennemsnitlige tid mellem fejl være høj nok til, at reparationer kan afsluttes, før den overflødige del også svigter.

Ulemper ved fejltolerante systemer

Fordelene ved fejltolerante tekniske løsninger er indlysende, men de har også ulemper.

Vanskeligheder med at opdage latente fejl i overflødige elementer. For eksempel bemærker en bilist måske ikke, at et dæk er punkteret, hvis der anvendes et fejlsikkert system. Problemet kan løses ved at tilføje et specielt system til at opdage fejl (i tilfælde af et dæk overvåger systemet trykket i kamrene og advarer føreren, hvis det falder). Et alternativ ville være at planlægge inspektioner og kontroller for at opdage og forhindre skjulte fejl og skader, såsom førerinspektion af dæk ved hvert køretøjs stop.
Vanskeligheder med at kontrollere flere fejl. Fejltolerancen for et element kan forstyrre registreringen af fejl i et andet. For eksempel, hvis del B udfører en operation baseret på data fra del A , så kan arbejdsdel B skjule problemet, der opstod i A . Hvis del B efterfølgende udskiftes med en mindre pålidelig, kan systemet pludselig svigte, mens det ser ud til, at problemet ligger i den nye del B. Og først efter en grundig kontrol af systemet bliver det klart, at problemet var i del A.
Øget risiko for at ignorere kendte fejl. Selvom operatøren er opmærksom på tilstedeværelsen af en fejl i det redundante element i det fejltolerante system, kan han være langsom til at eliminere det, da systemet fungerer. Dette vil i sidste ende føre til en komplet systemfejl, når alle redundanselementer fejler.
Besvær med at verificere. For nogle kritiske fejlsikre systemer, såsom en atomreaktor , er der ingen nem måde at sikre, at overflødige elementer er operationelle. Et berygtet eksempel er Tjernobyl-ulykken , hvor operatører testede nødkølesystemet ved at lukke hoved- og hjælpesystemerne ned. Nødsystemet kunne ikke holde til det, hvilket resulterede i overophedning af reaktoren og et stort udslip af stråling.
Stigende omkostninger. Foranstaltninger inden for fejltolerance øger omkostningerne til systemets livscyklus på grund af en stigning i udviklings- og testomkostninger, en stigning i masse- og materialeforbrug, systempris, yderligere vedligeholdelses- og reparationsomkostninger osv. F.eks. har bemandede rumfartøjer mere redundante systemer og elementer, hvilket øger deres vægt sammenlignet med ubemandede køretøjer, der ikke kræver dette niveau af fejlsikker.
Risiko for at bruge elementer af lav kvalitet. En fejltolerant arkitektur kan tillade brug af komponenter af lav kvalitet, som ellers ville gøre systemet ubrugeligt. Selvom denne praksis kan bruges til at begrænse omkostningsstigninger, kan brug af flere sådanne dele reducere systemets pålidelighed og forårsage uplanlagte omkostninger pr. trin.

Se også

Noter

↑ GOST R 56111-2014 Integreret logistikstøtte til eksporterede militærprodukter. Nomenklatur for indikatorer for operationelle og tekniske egenskaber . Standardinform (2015). Hentet 16. maj 2020. Arkiveret fra originalen 21. januar 2022. (ubestemt)
↑ Egor Sergeevich Sogomonyan. Selvkontrollerende enheder og fejltolerante systemer . - Radio og kommunikation, 1989. - 207 s. — ISBN 9785256003081 .
↑ Johnson, BW "Fault-Tolerant Microprocessor-Based Systems", IEEE Micro (1984), vol. 4, nr. 6, s. 6-21
↑ Laprie, JC (1985). "Dependable Computing and Fault Tolerance: Concepts and Terminology", Proceedings of 15th International Symposium on Fault-Tolerant Computing (FTSC-15), pp. 2-11
↑ von Neumann, J. (1956). "Probabilistisk logik og syntese af pålidelige organismer fra upålidelige komponenter", i Automata Studies, red. C. Shannon og J. McCarthy, Princeton University Press, s. 43-98
↑ Avizienis, A. (1976). Fault-Tolerant Systems, IEEE Transactions on Computers, vol. 25, nr. 12, s. 1304-1312
↑ Dubrova, E. (2013). "Fejltolerant design", Springer, 2013, ISBN 978-1-4614-2112-2

Litteratur

Ordbog for kybernetik / Redigeret af akademiker V. S. Mikhalevich . - 2. - Kiev: Hovedudgave af den ukrainske sovjetiske encyklopædi opkaldt efter M. P. Bazhan, 1989. - 751 s. - (C48). — 50.000 eksemplarer. - ISBN 5-88500-008-5 .

Ordbøger og encyklopædier	Fantastisk norsk