Pearson's goodness -of-fit test eller goodness -of-fit test (chi-square) er en ikke-parametrisk metode, der giver dig mulighed for at vurdere betydningen af forskelle mellem det faktiske (afsløret som et resultat af undersøgelsen) antal resultater eller kvalitative karakteristika for stikprøven, der falder ind under hver kategori, og det teoretiske antal, der kan forventes i de undersøgte grupper, hvis nulhypotesen er sand. I enklere vendinger giver metoden dig mulighed for at evaluere den statistiske signifikans af forskelle mellem to eller flere relative indikatorer (frekvenser, andele).
Det er det mest almindeligt anvendte kriterium til at teste hypotesen om, at den observerede stikprøvestørrelse tilhører en eller anden teoretisk distributionslov .
Chi-kvadrat-kriteriet for analyse af beredskabstabeller blev udviklet og foreslået i 1900 af grundlæggeren af matematisk statistik , den engelske videnskabsmand Karl Pearson .
Kriteriet kan bruges til at teste simple hypoteser om formen
hvor er den kendte vektor af parametre for den teoretiske lov, og når man tester komplekse hypoteser af formen
når et estimat af en skalar- eller vektorfordelingsparameter beregnes over den samme prøve.
Proceduren for test af hypoteser ved hjælp af typekriterier involverer gruppering af observationer. Definitionsdomænet for en stokastisk variabel er opdelt i ikke-skærende intervaller af grænsepunkter
hvor er den nedre grænse for definitionsdomænet for en stokastisk variabel; - øverste kant.
I overensstemmelse med den givne partition beregnes antallet af prøveværdier, der falder ind i det th interval og sandsynligheden for at falde ind i intervallet
svarende til en teoretisk lov med fordelingsfunktion
Hvori
ogNår man tester en simpel hypotese, er både lovens form og alle dens parametre kendt (skalar- eller vektorparameteren er kendt ).
Statistikken, der anvendes i typens goodness-of-fit-test, er baseret på måling af afvigelser fra .
Pearson goodness-of-fit-statistikken bestemmes af relationen
I tilfælde af at teste en simpel hypotese, i grænsen ved , adlyder denne statistik en -fordeling med frihedsgrader, hvis den testede hypotese er sand . Tætheden af -fordelingen, som er et særligt tilfælde af gammafordelingen , er beskrevet af formlen
Den testede hypotese afvises for store værdier af statistikken, når værdien af statistikken beregnet ud fra stikprøven er større end den kritiske værdi
eller det opnåede signifikansniveau ( p - værdi ) er mindre end det givne signifikansniveau (den givne fejlsandsynlighed af 1. art ) .
Ved testning af komplekse hypoteser, hvis lovens parametre for den samme prøve er estimeret som et resultat af minimering af statistik eller for en grupperet prøve ved brug af maksimumsandsynlighedsmetoden , så adlyder statistikken , hvis den testede hypotese er sand, en -fordeling med frihedsgrader, hvor er antallet af parametre estimeret fra stikprøven.
Hvis parametrene estimeres ud fra den oprindelige ugrupperede stikprøve, vil fordelingen af statistikken ikke være en -fordeling [1] . Desuden vil fordelingen af statistik, når hypotesen er sand , afhænge af grupperingsmetoden, det vil sige, hvordan definitionsdomænet er opdelt i intervaller [2] .
Når du estimerer den maksimale sandsynlighedsmetode for parametre for en ikke-grupperet prøve, kan du bruge modificerede kriterier som [3] [4] [5] [6] .
Ved brug af godhedskriterier opstilles der som regel ingen konkurrerende hypoteser: stikprøven tilhører en bestemt lov, og som en konkurrerende hypotese betragtes enhver anden lov. Naturligvis vil kriteriet være i stand til på forskellige måder at skelne fra den tilsvarende lov, love tæt på eller langt fra den. Hvis vi specificerer en konkurrerende hypotese og en konkurrerende lov, der svarer til den , så kan vi allerede tale om fejl af to typer: ikke kun om en fejl af 1. slags (afvisning af hypotesen, der testes, når den er sand) og sandsynligheden for denne fejl , men også om en fejl af 2. art (ikke-afvisning under rimelighed ) og sandsynligheden for denne fejl .
Kriteriets magt i forhold til den konkurrerende hypotese er karakteriseret ved værdien . Jo bedre kriteriet genkender et par konkurrerende hypoteser og , jo højere er dets styrke.
Styrken af Pearsons godhed-of-fit test afhænger væsentligt af metoden til gruppering [7] [8] og af det valgte antal intervaller [8] [9] .
Under asymptotisk optimal gruppering, som maksimerer forskellige funktioner i Fisher-informationsmatrixen over de grupperede data (minimerer tabene forbundet med gruppering), har Pearson goodness-of-fit-testen den maksimale styrke i forhold til "(meget) tætte" konkurrerende hypoteser [ 10] [8] [9] .
Når man tester simple hypoteser og bruger asymptotisk optimal gruppering, har Pearsons goodness-of-fit-test en magtfordel i forhold til ikke-parametriske goodness-of-fit-tests. Når man tester komplekse hypoteser, øges styrken af ikke-parametriske kriterier, og der er ingen sådan fordel [11] [12] . For ethvert par af konkurrerende hypoteser (konkurrerende love) er det dog muligt at maksimere kriteriets magt [13] ved at vælge antallet af intervaller og metoden til at opdele definitionsdomænet for en tilfældig variabel i intervaller .