Standardafvigelse

I sandsynlighedsteori og statistik er rodmiddelkvadratafvigelsen  den mest almindelige indikator for spredningen af ​​værdierne af en tilfældig variabel i forhold til dens matematiske forventning (en analog til det aritmetiske gennemsnit med et uendeligt antal resultater). Normalt betyder det kvadratroden af ​​variansen af ​​en tilfældig variabel, men nogle gange kan det betyde en eller anden variant af estimering af denne værdi.

I litteraturen er det normalt betegnet med det græske bogstav (sigma). I statistik accepteres to betegnelser:  - for den generelle befolkning og sd (fra den engelske standardafvigelse  - standardafvigelse ) - for stikprøven .  

Udtrykket

Der er også synonymer for sætningen standardafvigelse :

I sig selv betyder udtrykket middelkvadrat middelværdi af potens 2 (se nedenfor ).

Grundlæggende information

Standardafvigelsen er defineret som kvadratroden af ​​variansen af ​​en tilfældig variabel : .

Standardafvigelsen måles i enheder af selve den stokastiske variabel og bruges ved beregning af standardfejlen for det aritmetiske middelværdi , ved konstruktion af konfidensintervaller , ved statistisk test af hypoteser , ved måling af en lineær sammenhæng mellem stokastiske variable.

I praksis, når der i stedet for en nøjagtig fordeling af en tilfældig variabel kun er en stikprøve tilgængelig, estimeres standardafvigelsen såvel som den matematiske forventning ( stikprøvevarians ), og dette kan gøres på forskellige måder. Udtrykkene "standardafvigelse" og "standardafvigelse" anvendes normalt på kvadratroden af ​​variansen af ​​en tilfældig variabel (defineret ud fra dens sande fordeling), men nogle gange på forskellige estimater af denne mængde baseret på en stikprøve.

Især hvis  er det i - te element i stikprøven,  er stikprøvestørrelsen,  er stikprøvens aritmetiske middelværdi ( stikprøvemiddelværdi  er et estimat af den matematiske forventning til en værdi):

så skrives de to vigtigste måder at estimere standardafvigelsen på som følger.

Et estimat af standardafvigelsen baseret på et skævt estimat af variansen (nogle gange blot omtalt som prøvevariansen [1] ):

Det er bogstaveligt talt rodmiddelværdien af ​​forskellen mellem de målte værdier og middelværdien.

Et estimat af standardafvigelsen baseret på et upartisk estimat af variansen (korrigeret prøvevarians [1] , i GOST R 8.736-2011 - "standardafvigelse"):

I sig selv er dog ikke et upartisk estimat af kvadratroden af ​​variansen, dvs. at tage kvadratroden "spolerer" upartiskheden.

Begge estimater er konsistente [1] .

Derudover er standardafvigelsen den matematiske forventning af kvadratet af forskellen mellem den sande værdi af en tilfældig variabel og dens estimat for en eller anden estimeringsmetode [2] . Hvis estimatet er upartisk (stikprøvegennemsnittet er blot et upartisk estimat for en tilfældig variabel), så er denne værdi lig med variansen af ​​dette estimat.

Standardafvigelse af middelværdien

Stikprøvegennemsnittet er også en tilfældig variabel med en estimeret standardafvigelse [2]

Three Sigma Rule

Reglen om tre sigma ( ) siger: sandsynligheden for, at enhver tilfældig variabel afviger fra sin middelværdi med mindre end , - .

Næsten alle værdier af en normalfordelt stokastisk variabel ligger i intervallet , hvor  er den matematiske forventning til den stokastiske variabel. Mere strengt, omtrent med en sandsynlighed på 0,9973, ligger værdien af ​​en normalfordelt stokastisk variabel i det angivne interval.

Fortolkning af værdien af ​​standardafvigelse

En større værdi af standardafvigelsen indikerer en større spredning af værdier i det præsenterede sæt med middelværdien af ​​sættet; en mindre værdi angiver henholdsvis, at værdierne i sættet er grupperet omkring gennemsnitsværdien.

For eksempel har vi tre talsæt: {0, 0, 14, 14}, {0, 6, 8, 14} og {6, 6, 8, 8}. Alle tre sæt har middelværdier på 7 og standardafvigelser på henholdsvis 7, 5 og 1. Det sidste sæt har en lille standardafvigelse, fordi værdierne i sættet er samlet omkring middelværdien; det første sæt har den største værdi af standardafvigelsen - værdierne i sættet afviger stærkt fra gennemsnitsværdien.

I en generel forstand kan standardafvigelsen betragtes som et mål for usikkerhed. For eksempel i fysik bruges standardafvigelsen til at bestemme fejlen for en række på hinanden følgende målinger af en vis mængde. Denne værdi er meget vigtig for at bestemme plausibiliteten af ​​det undersøgte fænomen i sammenligning med værdien forudsagt af teorien: hvis middelværdien af ​​målingerne er meget forskellig fra værdierne forudsagt af teorien (stor standardafvigelse), så de opnåede værdier eller metoden til at opnå dem skal kontrolleres igen.

Praktisk anvendelse

I praksis giver standardafvigelsen dig mulighed for at estimere, hvor meget værdier fra et sæt kan afvige fra gennemsnitsværdien.

Økonomi og finans

Standardafvigelsen af ​​porteføljeafkastet identificeres med porteføljens risiko .

I teknisk analyse bruges standardafvigelsen til at bygge Bollinger-bånd , beregne volatilitet .

Risikovurdering og kritik

Standardafvigelsen er meget brugt i den finansielle sektor som et kriterium for vurdering af investeringsrisiko . Ifølge den amerikanske økonom Nassim Taleb bør dette ikke lade sig gøre. Så ifølge teorien skulle omkring to tredjedele af ændringerne passe inden for visse grænser (standardafvigelser på -1 og +1), og at udsving over syv standardafvigelser er praktisk talt umulige. Men i det virkelige liv er alt ifølge Taleb anderledes - spring i individuelle indikatorer kan overstige 10, 20 og nogle gange 30 standardafvigelser. Taleb mener, at risikomanagere bør undgå at bruge standardafvigelsesværktøjer og -metoder såsom regressionsmodeller, bestemmelseskoefficient (R-kvadrat) og betafaktorer. Derudover er standardafvigelsen ifølge Taleb for kompliceret til at forstå metoden. Han mener, at enhver, der forsøger at vurdere risiko ved hjælp af en enkelt indikator, er dømt til at mislykkes [3] .

Klima

Antag, at der er to byer med den samme gennemsnitlige daglige maksimumtemperatur, men den ene ligger ved kysten, og den anden er inde i landet. Kystbyer er kendt for at have mange forskellige daglige maksimale temperaturer, der er mindre end byer inde i landet. Derfor vil standardafvigelsen for de maksimale døgntemperaturer i kystbyen være mindre end i den anden by, på trods af at de har samme gennemsnitsværdi af denne værdi, hvilket i praksis betyder, at sandsynligheden for, at den maksimale lufttemperatur pr. hver dag på året vil være stærkere afvige fra gennemsnitsværdien, højere for en by beliggende inde på kontinentet.

Sport

Lad os antage, at der er flere fodboldhold, der er rangeret efter nogle sæt af parametre, for eksempel antallet af scorede og indkasserede mål, scoringschancer osv. Det er højst sandsynligt, at det bedste hold i denne gruppe vil have de bedste værdier i flere parametre. Jo mindre holdets standardafvigelse for hver af de præsenterede parametre, jo mere forudsigelig er holdets resultat, sådanne hold er afbalancerede. Til gengæld har et hold med stor standardafvigelse svært ved at forudsige resultatet, hvilket igen forklares med en ubalance, for eksempel et stærkt forsvar, men et svagt angreb.

Brugen af ​​standardafvigelsen af ​​holdets parametre gør det muligt at forudsige resultatet af kampen mellem to hold til en vis grad ved at evaluere holdenes styrker og svagheder og dermed de valgte kampmetoder.

Eksempel

Antag, at gruppen af ​​interesse for os ( generel befolkning ) er en klasse på otte elever, som er bedømt efter et 10-punktssystem. Da vi estimerer hele gruppen og ikke en stikprøve af den, kan vi bruge standardafvigelsen baseret på det skæve estimat af variansen. For at gøre dette tager vi kvadratroden af ​​det aritmetiske middelværdi af kvadraterne af værdiernes afvigelser fra deres middelværdi.

Lad karaktererne for eleverne i klassen være som følger:

Så er den gennemsnitlige score:

Lad os beregne de kvadrerede afvigelser af elevernes karakterer fra deres gennemsnitlige karakter:

Det aritmetiske middelværdi af disse værdier kaldes variansen :

Standardafvigelsen er lig med kvadratroden af ​​variansen:

Denne formel er kun gyldig, hvis disse otte værdier er populationen. Hvis disse data var en tilfældig stikprøve fra en stor befolkning (f.eks. karaktererne fra otte tilfældigt udvalgte elever i en stor by), så i stedet for n  = 8, ville nævneren for formlen til beregning af variansen skulle sættes n  − 1 = 7:

og standardafvigelsen ville være:

Dette resultat kaldes standardafvigelsen baseret på det upartiske estimat af variansen. At dividere med n  − 1 i stedet for n giver et upartisk estimat af variansen for store populationer.

Se også

Noter

  1. 1 2 3 Ivchenko G. I., Medvedev Yu. I. Introduktion til matematisk statistik. - M .  : Forlaget LKI, 2010. - §2.2. Udvalgte øjeblikke: eksakt og asymptotisk teori. - ISBN 978-5-382-01013-7 .
  2. ↑ 1 2 C. Patrignani et al. (Partikeldatagruppe). 39 STATISTIK . — I: Gennemgang af partikelfysik // Chin. Phys. C. - 2016. - Vol. 40. - P. 100001. - doi : 10.1088/1674-1137/40/10/100001 .
  3. Taleb, Goldstein, Spitsnagel, 2022 , s. 46.

Litteratur

  • Borovikov V. STATISTICA. Kunsten at analysere computerdata: For fagfolk / V. Borovikov. - Sankt Petersborg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1 . .
  • Nassim Taleb, Daniel Goldstein, Mark Spitznagel. Seks CEO Fejl i Risk Management // Risk Management (Harvard Business Review Series: Top 10 Artikler) = Om styring af risiko / Team af forfattere. - M . : Alpina Publisher , 2022. - S. 41-50. — 206 s. - ISBN 978-5-9614-8186-0 .