Normal fordeling

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 20. oktober 2022; checks kræver 2 redigeringer .
Normal fordeling

Den grønne linje svarer til standard normalfordelingenSandsynlighedstæthed

Farverne i dette skema matcher skemaet ovenfor.distributionsfunktion
Betegnelse
Muligheder μ  - skiftfaktor ( reel ) σ > 0  - skalafaktor (reel, strengt taget positiv)
Transportør
Sandsynlighedstæthed
distributionsfunktion
Forventet værdi
Median
Mode
Spredning
Asymmetrikoefficient
Kurtosis koefficient
Differentiel entropi
Genererende funktion af momenter
karakteristisk funktion

Normalfordelingen [1] [2] , også kaldet Gauss- eller Gauss - Laplace- fordelingen [3]  er en sandsynlighedsfordeling , som i det endimensionelle tilfælde er givet ved en sandsynlighedstæthedsfunktion , der falder sammen med Gauss-funktionen :

, hvor parameteren  er den matematiske forventning (middelværdi), medianen og fordelingstilstanden, og parameteren er  standardafvigelsen , er  fordelingsvariansen .

Den endimensionelle normalfordeling er således en to-parameter familie af fordelinger, der hører til den eksponentielle klasse af fordelinger [4] . Det multivariate tilfælde er beskrevet i artiklen " Multivariat normalfordeling ".

Standardnormalfordelingen er en normalfordeling med middelværdi og standardafvigelse

Generel information

Hvis en størrelse er summen af ​​mange tilfældige, svagt indbyrdes afhængige størrelser, som hver især yder et lille bidrag i forhold til den samlede sum, så tenderer den centrerede og normaliserede fordeling af en sådan mængde til en normalfordeling med et tilstrækkeligt stort antal led .

Dette følger af sandsynlighedsteoriens centrale grænsesætning . I verden omkring os er der ofte mængder, hvis værdi bestemmes af en kombination af mange uafhængige faktorer. Denne kendsgerning, samt det faktum, at fordelingen blev anset for typisk, almindelig, førte til, at man i slutningen af ​​1800-tallet begyndte at bruge begrebet "normalfordeling". Normalfordelingen spiller en fremtrædende rolle inden for mange videnskabsområder, såsom matematisk statistik og statistisk fysik .

En tilfældig variabel, der har en normalfordeling, kaldes en normal eller gaussisk tilfældig variabel.

Definitioner

Standard normalfordeling

Det enkleste tilfælde af en normalfordeling - standardnormalfordelingen  - er et specialtilfælde, når og dens sandsynlighedstæthed er:

Faktoren i udtrykket giver betingelsen for normaliseringen af ​​integralet [5] . Da faktoren i eksponenten giver en spredning lig med en, så er standardafvigelsen lig med 1. Funktionen er symmetrisk i punktet , dens værdi i den er maksimal og lig med funktionens bøjningspunkter : og

Gauss kaldte standard normalfordelingen med det er:

Normalfordeling med parametre

Hver normalfordeling er en variant af standardnormalfordelingen, hvis rækkevidde strækkes med en faktor (standardafvigelse) og overføres til (forventning):

er parametre for normalfordelingen. Sandsynlighedstætheden skal normaliseres , så integralet er lig med 1.

Hvis  er en standard normal stokastisk variabel, så vil værdien have en normalfordeling med matematisk forventning og standardafvigelse Tværtimod, hvis  er en normalvariabel med parametre og så vil den have en standard normalfordeling.

Hvis vi åbner parenteserne i sandsynlighedstæthedseksponenten og tager højde for det , så:

Således er sandsynlighedstætheden for hver normalfordeling eksponenten for en kvadratisk funktion :

hvor

Herfra kan man udtrykke middelværdien som a og variansen som For standardnormalfordelingen og

Betegnelse

Sandsynlighedstætheden af ​​standardnormalfordelingen (med nul middelværdi og enhedsvarians) er ofte angivet med det græske bogstav ( phi ) [6] . En alternativ form af det græske bogstav phi er også ret almindeligt brugt .

Normalfordelingen er ofte betegnet med eller [7] . Hvis den stokastiske variabel er fordelt efter normalloven med middelværdi og variation, så skriver vi:

Distributionsfunktion

Fordelingsfunktionen af ​​standardnormalfordelingen er normalt angivet med et græsk stort bogstav ( phi ) og er et integral:

Fejlfunktionen (sandsynlighedsintegralet) er forbundet med den, hvilket giver sandsynligheden for, at en normal stokastisk variabel med middelværdi 0 og variation 1/2 vil falde ind i segmentet :

Disse integraler er ikke udtrykt i elementære funktioner og kaldes specialfunktioner . Mange af deres numeriske tilnærmelser er kendte. Se nedenfor .

Funktionerne er især forbundet med forholdet:

.

En normalfordeling med densitetsmiddelværdi og varians har følgende fordelingsfunktion :

Du kan bruge funktionen  - den vil give sandsynligheden for, at værdien af ​​den standard normale tilfældige variabel vil overstige :

.

Grafen for standard normalfordelingsfunktionen har 2-fold rotationssymmetri omkring punktet (0; 1/2), det vil sige, at dens ubestemte integral er:

Fordelingsfunktionen af ​​en standard normal stokastisk variabel kan udvides ved hjælp af integrationsmetoden med dele i en serie:

hvor tegnet betyder dobbeltfaktorial .

Den asymptotiske udvidelse af fordelingsfunktionen for store værdier kan også udføres ved at integrere med dele.

Standardafvigelse

Omkring 68% af værdierne fra normalfordelingen er i en afstand på højst en standardafvigelse σ fra middelværdien; omkring 95% af værdierne ligger i en afstand på ikke mere end to standardafvigelser; og 99,7 % ikke mere end tre. Dette faktum er et særligt tilfælde af 3 sigma-reglen for en normal prøve.

Mere præcist er sandsynligheden for at få et normalt tal mellem og :

Med en nøjagtighed på 12 signifikante cifre er værdierne for angivet i tabellen [8] :

OEIS
en 0,682689492137 0,317310507863
3,15148718753
A178647
2 0,954499736104 0,045500263896
21.9778945080
A110894
3 0,997300203937 0,002699796063
370.398347345
A270712
fire 0,999936657516 0,000063342484
15787.1927673
5 0,999999426697 0,000000573303
1744277.89362
6 0,999999998027 0,000000001973
506797345.897

Egenskaber

Øjeblikke

Momenter og absolutte momenter af en stokastisk variabel kaldes de matematiske forventninger til stokastiske variable og hhv. Hvis den matematiske forventning er en tilfældig variabel , kaldes disse parametre centrale momenter . I de fleste tilfælde er momenterne for heltal af interesse.

Hvis den har en normalfordeling, har den (endelige) momenter for alle med en reel del større end −1. For ikke-negative heltal er de centrale momenter:

Her  er et naturligt tal, og notationen betyder det dobbelte faktoriale af tallet, det vil sige (da det er ulige i dette tilfælde) produktet af alle ulige tal fra  1 til

De centrale absolutte momenter for ikke-negative heltal er:

Den sidste formel er også gyldig for vilkårlig .

Fouriertransformation og karakteristisk funktion

Fourier-transformationen af ​​den normale sandsynlighedstæthed med gennemsnitlig standardafvigelse er [9] :

hvor er den imaginære enhed .

Hvis forventning , er den første faktor 1, og Fourier-transformationen, op til en konstant, er den normale sandsynlighedstæthed over frekvensintervaller, med forventning lig med 0 og standardafvigelse . Især standardnormalfordelingen er en egenfunktion af Fourier. transformere.

I sandsynlighedsteori er Fourier-transformationen af ​​fordelingstætheden af ​​en reel stokastisk variabel tæt forbundet med den karakteristiske funktion af denne variabel, som er defineret som den matematiske forventning af og er en funktion af en reel variabel (frekvensparameteren for Fourier-enheden). transformere). Definitionen kan udvides til en kompleks variabel [10] . Forholdet er skrevet således:

Uendelig delelighed

Normalfordelingen er uendelig delelig .

Hvis de stokastiske variable og er uafhængige og har en normalfordeling med henholdsvis middelværdi og og varians , så har den også en normalfordeling med middelværdi og varians

Dette indebærer, at en normal stokastisk variabel kan repræsenteres som summen af ​​et vilkårligt antal uafhængige normale stokastiske variable.

Maksimal entropi

Normalfordelingen har den maksimale differentielle entropi blandt alle kontinuerte fordelinger, hvis varians ikke overstiger en given værdi [11] [12] .

Tre sigma-reglen for en Gaussisk tilfældig variabel

Reglen om tre sigma ( ) - næsten alle værdier af en normalfordelt tilfældig variabel ligger i intervallet:

hvor  er den matematiske forventning og parameteren for en normal stokastisk variabel.

Mere præcist, med tilnærmelsesvis en sandsynlighed på 0,9973, ligger værdien af ​​en normalfordelt stokastisk variabel i det angivne interval.

Simulering af normale pseudo-random variable

I computersimuleringer, især ved anvendelse af Monte Carlo-metoden , er det ønskeligt at bruge mængder fordelt efter normalloven. Mange algoritmer giver standard normale værdier, da normalværdien kan opnås som:

hvor Z er normalværdien.

Algoritmerne bruger også forskellige transformationer af ensartede størrelser. De enkleste omtrentlige modelleringsmetoder er baseret på den centrale grænsesætning . Tilføjer vi et tilstrækkeligt stort antal uafhængige identisk fordelte størrelser med en endelig varians , så vil summen have en fordeling tæt på normalen. For eksempel, hvis du tilføjer 100 uafhængige standard ensartet fordelte stokastiske variable, så vil fordelingen af ​​summen være omtrent normal .

Til programmatisk generering af normalfordelte pseudo-tilfældige variable er det at foretrække at bruge Box-Muller-transformationen . Det giver dig mulighed for at generere en normalfordelt værdi baseret på en ensartet fordelt værdi.

Der er også Ziggurat-algoritmen , som er endnu hurtigere end Box-Muller-transformationen. Det er dog sværere at implementere, men det er berettiget i tilfælde, hvor det er nødvendigt at generere et meget stort antal ulige fordelte tilfældige tal.

Normalfordeling i natur og applikationer

Normalfordelingen findes ofte i naturen. For eksempel er følgende tilfældige variable godt modelleret af normalfordelingen:

  • afvigelse under optagelse;
  • målefejl (dog har nogle måleinstrumenters fejl en anden fordeling);
  • nogle karakteristika ved levende organismer i en population.

Denne fordeling er så udbredt, fordi det er en uendeligt delelig kontinuerlig fordeling med endelig varians. Derfor nærmer nogle andre det i grænsen, såsom binomial og Poisson . Denne fordeling modellerer mange ikke-deterministiske fysiske processer [13] .

Multivariat normalfordeling bruges i undersøgelsen af ​​multivariate stokastiske variable (tilfældige vektorer). Et af de mange eksempler på sådanne anvendelser er studiet af menneskelige personlighedsparametre i psykologi og psykiatri .

Forholdet til andre distributioner

  • Normalfordelingen er en type XI Pearson-fordeling [14] .
  • Forholdet mellem et par uafhængige standard normalfordelte stokastiske variable har en Cauchy-fordeling [15] . Det vil sige, hvis en stokastisk variabel er et forhold (hvor og  er uafhængige standard normale stokastiske variabler), så vil den have en Cauchy-fordeling.
  • Hvis  der er fælles uafhængige standard normale stokastiske variabler, det vil sige, at den stokastiske variabel har en chi-kvadratfordeling med k  frihedsgrader.
  • Hvis en tilfældig variabel har en lognormalfordeling , så har dens naturlige logaritme en normalfordeling . Det vil sige, hvis så Og omvendt, hvis så
  • Hvis uafhængige normalfordelte stokastiske variabler med matematiske forventninger og varianser, så er deres stikprøvemiddelværdi uafhængig af stikprøvens standardafvigelse [16] , og forholdet mellem følgende to variable vil have en t-fordeling med frihedsgrader:
  • Hvis uafhængige standard normale stokastiske variabler, så vil forholdet mellem normaliserede summer af kvadrater have en Fisher-fordeling med ( ) frihedsgrader [17] :
  • Forholdet mellem kvadrater af to standard normale stokastiske variable har en Fisher-fordeling med frihedsgrader

Historie

For første gang optrådte normalfordelingen som grænsen for binomialfordelingen i 1738 i anden udgave af De Moivres "Tilfældighedslæren" [18] . Dette var det første bevis på et særligt tilfælde af den centrale grænsesætning . I 1809 introducerede Gauss i The Theory of the Motion of Celestial Bodies denne fordeling som en følge af gentagne målinger af himmellegemers bevægelse. Gauss udledte imidlertid en formel for reelle tilfældige variabler ud fra princippet om at maksimere den fælles tæthed af alle målinger på et punkt med koordinater svarende til gennemsnittet af alle målinger. Dette princip er efterfølgende blevet kritiseret. I 1812 generaliserede Laplace i Moivre-Laplace-sætningen resultatet af Moivre for en vilkårlig binomialfordeling, det vil sige for summer af identisk fordelte uafhængige binære størrelser [3] .

Se også

Noter

  1. Wentzel E. S. Sandsynlighedsteori. - 10. udg., stereotyp .. - M . : Academia , 2005. - 576 s. — ISBN 5-7695-2311-5 .
  2. Shiryaev A.N. Sandsynlighed. — M .: Nauka, 1980.
  3. 1 2 Matematisk encyklopædisk ordbog . - M .: Soviet Encyclopedia , 1988. - S.  139 -140.
  4. Wasserman L. Alle statistikker . - New York, NY: Springer, 2004. - S.  142 . — 433 s. — ISBN 978-1-4419-2322-6 .
  5. Bevis, se Gaussisk integral
  6. Halperin, Hartley & Hoel, 1965 , punkt 7.
  7. McPherson (1990 )
  8. Wolfram|Alpha: Computational Knowledge Engine . Wolframalpha.com . Hentet: 3. marts 2017.
  9. Bryc (1995 , s. 23)
  10. Bryc (1995 , s. 24)
  11. Cover, Thomas M.; Thomas, Joy A. Elementer af informationsteori. - John Wiley and Sons , 2006. - S. 254.
  12. Park, Sung Y.; Bera, Anil K. Maksimal entropi Autoregressiv betinget heteroskedasticitetsmodel  //  Journal of Econometrics : journal. - Elsevier, 2009. - S. 219-230 . Arkiveret fra originalen den 7. marts 2016.
  13. Taleb N. N. Black Swan. Under uforudsigelighedens tegn = The Black Swan: The Impact of the Highly Usandsynliges. - Hummingbird, 2012. - 525 s. - ISBN 978-5-389-00573-0 .
  14. Korolyuk, 1985 , s. 135.
  15. Galkin V. M., Erofeeva L. N., Leshcheva S. V. Estimater af Cauchy-fordelingsparameteren // Proceedings of the Nizhny Novgorod State Technical University. R. E. Alekseeva . - 2014. - Nr. 2 (104). - S. 314-319. - UDC  513.015.2 .
  16. Lukacs, Eugene. En karakterisering af normalfordelingen  //  Den matematiske statistiks annaler : journal. - 1942. - Bd. 13 , nr. 1 . - S. 91-3 . — ISSN 0003-4851 . - doi : 10.1214/aoms/1177731647 . — .
  17. Lehmann, E. L. Test af statistiske hypoteser . — 2. — Springer, 1997. - S.  199 . — ISBN 978-0-387-94919-2 .
  18. Læren om chancer; eller en metode til at beregne sandsynligheden for begivenheder i spil, L., 1718, 1738, 1756; L., 1967 (gengivet udg.); Miscellanea analytica de scriebus et quadraturis, L., 1730.

Litteratur

  • Korolyuk V. S. , Portenko N. I. , Skorokhod A. V. , Turbin A. F. Håndbog i sandsynlighedsteori og matematisk statistik. - M. : Nauka, 1985. - 640 s.
  • Halperin, Max; Hartley, Herman O.; Hoel, Paul G. Anbefalede standarder for statistiske symboler og notation. COPSS Udvalg for Symboler og Notation  //  Den amerikanske statistiker : journal. - 1965. - Bd. 19 , nr. 3 . - S. 12-14 . - doi : 10.2307/2681417 . — .
  • McPherson, Glen. Statistik i videnskabelig undersøgelse : dens grundlag, anvendelse og fortolkning  . - Springer-Verlag , 1990. - ISBN 978-0-387-97137-7 .
  • Bryc, Wlodzimierz. Normalfordelingen: Karakteriseringer med  applikationer . - Springer-Verlag , 1995. - ISBN 978-0-387-97990-8 .

Links