Robusthed ( eng. robustness ← robust "stærk; stærk; solid; stabil") er en egenskab ved en statistisk metode , der karakteriserer uafhængigheden af indflydelse på resultatet af undersøgelsen af forskellige former for emissioner , modstandsdygtighed over for interferens.
Outlier (robust) metode - en metode, der sigter på at identificere outliers, reducere deres indvirkning eller udelukke dem fra stikprøven .
I praksis kan tilstedeværelsen i stikprøverne af selv et lille antal outliers (outliers) i høj grad påvirke resultatet af undersøgelsen, for eksempel er mindste kvadraters metode og maksimum sandsynlighedsmetoden på specifikke fordelinger underlagt sådanne forvrængninger, og værdier opnået som et resultat af undersøgelsen kan ophøre med at have nogen mening for dig selv. For at eliminere indflydelsen af sådan interferens, bruges forskellige tilgange til at reducere indflydelsen af "dårlige" observationer (outliers) eller fuldstændigt at eliminere dem. Outlier-metodernes hovedopgave er at skelne en "dårlig" observation fra en "god", og selv den simpleste tilgang, subjektiv (baseret på forskerens indre følelser), kan dog være til stor fordel for motiveret afvisning, forskere bruger stadig metoder, der er baseret på en streng matematisk begrundelse. Denne proces er en meget ikke-triviel opgave for en statistiker og definerer et af områderne inden for statistisk videnskab .
Overvej et klassisk eksempel på robuste og ikke-robuste egenskaber til beregning af gennemsnitsindkomsten. Lad der være 10 personer, hvoraf ni tjener 100 rubler hver, og en tjener 500 rubler. Det aritmetiske gennemsnit af tallene er 140, selvom 90 % af personerne i stikprøven tjener mindre. Samtidig er prøvens median 100: en meget anderledes værdi påvirkede ikke værdien af medianen. Medianen er således et eksempel på en robust karakteristik, mens den aritmetiske middelværdi ikke er det.
Outlier stabilitet (robusthed) i statistik forstås som følsomhed over for forskellige afvigelser og inhomogeniteter i prøven, forbundet med visse, generelt ukendte, årsager [1] [2] . Det kan være detektorfejl, der registrerer observationer, nogens samvittighedsfulde eller bevidste forsøg på at "passe" prøven, før den kommer ind i statistikken, designfejl, tastefejl, der har sneget sig ind og meget mere. For eksempel er det mest afvigende estimat af fordelingslovforskydningsparameteren medianen , hvilket er ret indlysende på et intuitivt niveau (for et strengt bevis bør man bruge det faktum, at medianen er et trunkeret M-estimat, se nedenfor ) [ 1] . Udover direkte "defekte" observationer kan der også være en række observationer, der følger en anden fordeling . På grund af betingelserne for distributionslovene , og dette er intet andet end en beskrivelsesmodel, kan prøven i sig selv indeholde nogle uoverensstemmelser med idealet.
Ikke desto mindre er den parametriske tilgang blevet så vant, som beviser dens enkelhed og hensigtsmæssighed, at det er absurd at nægte det. Derfor blev det nødvendigt at tilpasse gamle modeller til nye opgaver.
Det er værd at understrege hver for sig og ikke glemme, at de afviste observationer har brug for separat, nærmere opmærksomhed. Observationer, der virker "dårlige" for én hypotese, kan meget vel være i overensstemmelse med en anden. Endelig er på ingen måde altid skarpt adskilte observationer et "ægteskab". En sådan observation for genteknologi er for eksempel værd at millioner af andre, der adskiller sig lidt fra hinanden.
For at begrænse indflydelsen af inhomogeniteter, eller for at eliminere den helt, er der mange forskellige tilgange. Blandt dem skiller to hovedretninger sig ud.
Ved at gruppere stikprøven kan indflydelsen af individuelle observationer reduceres drastisk uden at kassere dem. Inddelingen i intervaller er ikke særlig svær og giver et meget håndgribeligt resultat. Der er tre mest almindelige partitioneringsmetoder.
En separat tilgang i konstruktionen af outlier-metoder er estimeringen af parametrene i distributionsloven for en "forurenet" prøve ved at bruge den fremgangsmåde, som Hampel har foreslået [1] . For at studere indflydelsen af en enkelt observation på vurderingen (statistik under overvejelse) af en eller anden parameter i distributionsloven, introducerer Hampel den såkaldte indflydelsesfunktion , som ikke er andet end en afledt af denne statistik .
Den funktionelle introduceres som en funktion af en prøve fra fordelingen med parameteren (det er også ). afhænger af . Det samme er en funktion af loven og af parameteren . Lad også opfylde nogle betingelser for konsistens og regelmæssighed :
Den afledte af denne funktional på et punkt med fordeling :
hvor:
Ved substitution tilskrives begivenheden en enhedsmasse i stedet for, som følge heraf kun :
Denne funktion kaldes indflydelsesfunktionen .
Betydningen af indflydelsesfunktionen demonstreres ved at erstatte og erstatte grænsen, som et resultat, udtrykket konverteres til , hvilket svarer til situationen, når en anden ny tilføjes til stikprøven bestående af observationer, der adlyder fordelingen . Således sporer den reaktionen af den brugte funktionalitet på den tilføjede tilføjelse, og viser virkningen af bidraget fra en enkelt observation på vurderingen over hele datasættet.
For at karakterisere indflydelsen af individuelle observationer introduceres også begrebet følsomhed over for en stor fejl :
Hvis påvirkningsfunktionen er begrænset, kaldes det tilsvarende estimat B(be)-robust .
De mest effektive og udbredte estimater af parametrene for distributionslove er maksimumsandsynlighedsestimater (MLE'er), som bestemmes af en af følgende betingelser:
hvor i tilfælde af en ikke-grupperet prøve , og i tilfælde af en grupperet prøve,
M-estimater - der er en vis generalisering af masseødelæggelsesvåben. De defineres på samme måde af en af relationerne:
Hvis vi pålægger en regularitetsbetingelse i substitutionen og differentierer den med hensyn til 0:
så er det ikke svært at få udtryk for indflydelsesfunktionen for M-estimater :
Dette udtryk giver os mulighed for at konkludere, at M-estimaterne er ækvivalente op til en konstant faktor, der ikke er nul.
Det er let at kontrollere, at for MLE i standard normalfordelingsloven ser indflydelsesfunktionerne af henholdsvis skiftparameteren og skalaparameteren ud:
Disse funktioner er ubegrænsede, hvilket betyder, at MLE'en ikke er udbrudstolerant (robust) med hensyn til B-robusthed.
For at rette op på dette begrænser M-estimater kunstigt, og derfor begrænser det (se udtrykket for M-estimater), og sætter en øvre barriere for påvirkningen af outliers (langt fra de forventede værdier af parametrene) observationer. Dette gøres ved at introducere de såkaldte trunkerede M-estimater, defineret ved udtrykket:
hvor og er estimater af henholdsvis skift- og skalaparametrene.
Blandt de trunkerede M-estimater er de trunkerede MLE [1] optimale ud fra et B-robusthedssynspunkt .
At løse ligningen
,en eller anden numerisk metode skal bruges . For at gøre dette skal du vælge de indledende tilnærmelser. Nulforskydningsparameteren er normalt medianen , og skalaparameteren er et multiplum af medianen af afvigelserne fra medianen.
For eksempel, hvis du skal estimere forskydningsparameteren, f.eks. for normalfordelingsloven , kan du bruge Newtons metode til numerisk at finde rødderne til ligningen . Som et resultat reduceres hele proceduren for at finde parameteren til den iterative beregning af udtrykket:
hvor er et estimat af den skalaparameter, der bruges til at udligne fordelinger med forskellige områder.