Chi-kvadrat fordeling

distribution . Pearson distribution
Sandsynlighedstæthed
distributionsfunktion
Betegnelse eller
Muligheder er antallet af frihedsgrader
Transportør
Sandsynlighedstæthed
distributionsfunktion
Forventet værdi
Median om
Mode 0 for hvis
Spredning
Asymmetrikoefficient
Kurtosis koefficient
Differentiel entropi

Genererende funktion af momenter , hvis
karakteristisk funktion

Fordeling (chi-kvadrat) med frihedsgrader  - fordeling af summen af ​​kvadrater af uafhængige standard normale stokastiske variable .

Definition

Lade være  fælles uafhængige standard normale stokastiske variable, det vil sige :. Derefter den tilfældige variabel

har en chi-kvadratfordeling med frihedsgrader, dvs. eller skrevet anderledes:

.

Chi-kvadratfordelingen er et specialtilfælde af gammafordelingen , og dens tæthed er:

,

hvor er gammafordelingen og  er gammafunktionen .

Fordelingsfunktionen har følgende form:

,

hvor og betegner henholdsvis de komplette og ufuldstændige gammafunktioner.

Egenskaber for chi-kvadratfordelingen

, . ved uddeling kl .

Forholdet til andre distributioner

har en fordeling .

.

har en Fisher-fordeling med frihedsgrader .

Variationer og generaliseringer

En yderligere generalisering af chi-kvadratfordelingen er den såkaldte ikke-centrale chi-kvadratfordeling , der forekommer i nogle statistiske problemer.

Kvantiler

En kvantil er et tal (argument), hvor fordelingsfunktionen er lig med en given, påkrævet sandsynlighed. Groft sagt er en kvantil resultatet af at invertere en fordelingsfunktion, men der er finesser med diskontinuerlige fordelingsfunktioner.

Historie

Kriteriet blev foreslået af Karl Pearson i 1900 [1] . Hans arbejde betragtes som grundlaget for moderne matematisk statistik. Pearsons forgængere plottede blot eksperimentelle resultater og hævdede, at de var korrekte. I sin artikel gav Pearson nogle interessante eksempler på misbrug af statistik. Han beviste også, at nogle af observationerne på roulettehjulet (som han eksperimenterede på i to uger i Monte Carlo i 1892) var så langt fra de forventede frekvenser, at chancerne for at få dem igen, forudsat at roulettehjulet er samvittighedsfuldt arrangeret, er lig med 1. ud af 10 29 .

En generel diskussion af kriteriet og en omfattende bibliografi kan findes i gennemgangspapiret af William J. Cochran [2] .

Ansøgninger

Chi-kvadratfordelingen har adskillige anvendelser i statistisk inferens, såsom brug af chi-kvadrat-testen og estimering af varianser. Det bruges i problemet med at estimere middelværdien af ​​en normalfordelt population og problemet med at estimere hældningen af ​​en regressionslinje på grund af dens rolle i elevens t-fordeling . Det bruges i variansanalysen .

Følgende er eksempler på situationer, hvor en chi-kvadratfordeling opstår fra en normal prøve:

Navn Statistikker
chi-kvadratfordeling
ikke-central chi-kvadratfordeling
chi distribution
ikke-central chi-distribution


Tabel over χ 2 og p - værdier

For ethvert tal p mellem 0 og 1 er en p -værdi defineret - sandsynligheden for at opnå for en given sandsynlighedsmodel for fordelingen af ​​værdier  af en stokastisk variabel den samme eller mere ekstreme værdi af statistik (aritmetisk middelværdi, median, osv.), sammenlignet med den observerede, forudsat at nulhypotesen er sand . I dette tilfælde er det distributionen . Da værdien af ​​fordelingsfunktionen i et punkt for de tilsvarende frihedsgrader giver sandsynligheden for at opnå en statistisk værdi mindre ekstrem end dette punkt, kan p -værdien fås ved at trække værdien af ​​fordelingsfunktionen fra enhed. En lille p -værdi - under det valgte signifikansniveau - betyder statistisk signifikans . Dette vil være nok til at forkaste nulhypotesen. For at skelne mellem signifikante og ikke-signifikante resultater, bruges et niveau på 0,05 almindeligvis.

Tabellen giver p -værdier for de tilsvarende værdier for de første ti frihedsgrader.

Frihedsgrader ( df ) Værdi [3]
en 0,004 0,02 0,06 0,15 0,46 1.07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3.22 4,61 5,99 9.21 13,82
3 0,35 0,58 1.01 1,42 2,37 3,66 4,64 6,25 7,81 11.34 16.27
fire 0,71 1.06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13.28 18.47
5 1.14 1,61 2,34 3.00 4,35 6.06 7,29 9,24 11.07 15.09 20,52
6 1,63 2,20 3.07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22.46
7 2.17 2,83 3,82 4,67 6,35 8,38 9,80 12.02 14.07 18.48 24.32
otte 2,73 3,49 4,59 5,53 7,34 9,52 11.03 13.36 15,51 20.09 26.12
9 3,32 4.17 5,38 6,39 8,34 10,66 12.24 14,68 16,92 21,67 27,88
ti 3,94 4,87 6.18 7,27 9,34 11,78 13.44 15,99 18.31 23.21 29,59
p -værdi 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Disse værdier kan beregnes i form af kvantilen (invers fordelingsfunktion) af chi-kvadratfordelingen [4] . For eksempel giver kvantilen for p = 0,05 og df = 7 = 14,06714 ≈ 14,07 , som i tabellen ovenfor. Dette betyder, at for den eksperimentelle observation af syv uafhængige stokastiske variable , med gyldigheden af ​​nulhypotesen "hver variabel er beskrevet af en normal standardfordeling med en median på 0 og en standardafvigelse på 1", kan værdien kun opnås i 5 % af implementeringerne. At opnå en større værdi kan normalt betragtes som tilstrækkelig grund til at forkaste denne nulhypotese.

Tabellen giver afrunding til hundrededele; for mere præcise tabeller for flere frihedsgrader se fx her [5] .

Se også

Noter

  1. Pearson K. På det kriterium, at et givet system af afvigelser fra det sandsynlige i tilfælde af et korreleret system af variable er sådan, at det med rimelighed kan antages at være opstået fra tilfældig stikprøve  //  ​​Philosophical Magazine, Series 5 - Vol. 50 , nej. 302 . - S. 157-175 . - doi : 10.1080/14786440009463897 .
  2. Cochran WG The Test of Goodness of Fit  //  Annals Math. stat. - 1952. - Bd. 23 , nr. 3 . - S. 315-345 .
  3. Chi-Squared Test Arkiveret 18. november 2013 på Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin ved Pennsylvania State University. Denne kilde citerer igen: RA Fisher og F. Yates , Statistical Tables for Biological Agricultural and Medical Research, 6. udgave, tabel IV. To værdier er blevet korrigeret, 7,82 gange 7,81 og 4,60 gange 4,61.
  4. R Tutorial: Chi-squared Distribution . Dato for adgang: 19. november 2019. Arkiveret fra originalen den 16. februar 2021.
  5. StatSoft: Fordelingstabeller - Chi-kvadratfordeling . Hentet 29. januar 2020. Arkiveret fra originalen 26. januar 2020.