F-test

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 26. oktober 2017; checks kræver 8 redigeringer .

F-test eller Fishers test (F-test, φ*-test) er en statistisk test , hvis teststatistikker, når nulhypotesen er opfyldt, har Fisher-fordelingen (F-fordeling).

På en eller anden måde kommer teststatistikker ned til forholdet mellem stikprøvevarianser (summer af kvadrater divideret med "frihedsgrader"). For at en statistik skal have en Fisher-fordeling, skal tælleren og nævneren være uafhængige stokastiske variable, og de tilsvarende kvadratsummer skal have en chi-kvadratfordeling . Dette kræver, at dataene har en normalfordeling. Derudover antages det, at variansen af de stokastiske variable, hvis kvadrater summeres, er den samme.

Testen udføres ved at sammenligne værdien af statistikken med den kritiske værdi af den tilsvarende Fisher-fordeling på et givet signifikansniveau. Det er kendt, at hvis , så . Derudover har mængderne af Fisher-distributionen ejendommen . Derfor er der normalt i praksis en potentielt stor værdi involveret i tælleren, en mindre værdi involveret i nævneren, og sammenligningen udføres med fordelingens "rigtige" kvantil. Testen kan dog være både bilateral og ensidig. I det første tilfælde bruges kvantilen til signifikansniveauet , og til den ensidede test bruges [1] . $F \sim F(m,n)$ $1/F \sim F(n,m)$ $F_{1-\alpha}=1/F_{\alpha}$ $\alfa$ $F_{\alpha/2}$ $F_{\alpha}$

En mere bekvem måde at teste hypoteser på er med en p-værdi , sandsynligheden for, at en stokastisk variabel med en given Fisher-fordeling vil overstige en given værdi af statistikken. Hvis (for en tosidet test - )) er mindre end signifikansniveauet , så forkastes nulhypotesen, ellers accepteres den. $p(F)$ $p(F)$ $2p(F$ $\alfa$

F-test eksempler

F-test for lighed af varians

To valg

Lad der være to stikprøver af henholdsvis størrelse m og n af stokastiske variable X og Y med en normalfordeling. Det er nødvendigt at kontrollere ligheden af deres varianser. Test statistik

$F=\frac {\hat{\sigma}^2_X}{\hat{\sigma}^2_Y}~ \sim ~F(m-1,n-1)$

hvor er prøvevariansen af . ${\hat{\sigma}^2}$

Hvis statistikken er større end den kritiske værdi, der svarer til det valgte signifikansniveau , anerkendes varianserne af stokastiske variable som ikke de samme.

Flere valg

Lad en stikprøve af størrelse N af en stokastisk variabel X opdeles i k grupper med antallet af observationer i den i -te gruppe. $n_{i}$

Intergroup (“forklaret”) varians: $\hat{\sigma}^2_{BG}=\sum^k_{i=1} n_i (\overline {x_i}-\overline {x})^2/(k-1)$

Inden for gruppe ("uforklaret") varians: $\hat{\sigma}^2_{WG}=\sum^k_{i=1}\sum^{n_i}_{j=1} (x_{ij}-\overline {x}_i)^2/( Nk)$

$F=\frac {\hat{\sigma}^2_{BG}}{\hat{\sigma}^2_{WG}}~\sim~F(k-1,Nk)$

Denne test kan reduceres til at teste betydningen af regressionen af variabel X på dummy-variabler - indikatorer for grupper. Hvis statistikken overstiger den kritiske værdi, forkastes hypotesen om ligheden af midler i stikprøverne, ellers kan midlerne betragtes som de samme.

Kontrol af begrænsninger på regressionsparametre

Teststatistikken til at teste lineære begrænsninger på parametrene for klassisk normal lineær regression bestemmes af formlen:

$F={\frac {(RSS_{S}-RSS_{L})/q}{RSS_{L}/(n-k_{L})))={\frac {(R_{L}^ {2}-R_{S}^{2})/q}{(1-R_{L}^{2})/(n-k_{L})}}~\sim ~F(q,n- k_{L})$

hvor er antallet af restriktioner, n er stikprøvestørrelsen, k er antallet af modelparametre, RSS er summen af kvadraterne af modelresidualerne, er bestemmelseskoefficienten, indekserne S og L refererer til de korte og lange modeller , henholdsvis (modeller med begrænsninger og modeller uden begrænsninger). $q=k_L-k_S$ $R^2$

Bemærk

F-testen beskrevet ovenfor er nøjagtig i tilfælde af en normalfordeling af tilfældige modelfejl. F-testen kan dog også anvendes i et mere generelt tilfælde. I dette tilfælde er det asymptotisk. Den tilsvarende F-statistik kan beregnes ud fra statistikken for de andre asymptotiske test – Wald (W) testen, Lagrange multiplikator (LM) testen og likelihood ratio (LR) testen – som følger:

$F=\frac {nk}{q} W/n ~,~ F=\frac {nk}{q} \frac {LM} {n-LM} ~,~F=\frac {nk}{q}( e^{LR/n}-1)$ Alle disse statistikker har asymptotisk fordelingen F(q, nk), på trods af at deres værdier kan variere på små prøver.

Signifikanstest af lineær regression

Denne test er meget vigtig i regressionsanalyse og er i det væsentlige et særligt tilfælde af begrænsningstest. I dette tilfælde handler nulhypotesen om den samtidige lighed til nul af alle koefficienter under faktorerne i regressionsmodellen (det vil sige de samlede restriktioner k-1). I dette tilfælde er den korte model blot en konstant som en faktor, det vil sige, at bestemmelseskoefficienten for den korte model er nul. Teststatistikken er:

$F=\frac {R^2/(k-1)}{(1-R^2)/(nk)}~\sim ~F(k-1,nk)$

Følgelig, hvis værdien af denne statistik er større end den kritiske værdi på et givet signifikansniveau, så forkastes nulhypotesen, hvilket betyder, at regressionen er statistisk signifikant. Ellers anses modellen for ubetydelig.

Eksempel

Lad en lineær regression af fødevareudgifternes andel af de samlede udgifter estimeres for en konstant, logaritmen af de samlede udgifter, antallet af voksne familiemedlemmer og antallet af børn under 11 år. Det vil sige, at der er 4 estimerede parametre i modellen (k=4). Lad bestemmelseskoefficienten fås baseret på resultaterne af regressionsvurderingen . Ved hjælp af ovenstående formel beregner vi værdien af F-statistikken, hvis regressionen er estimeret ud fra data fra 34 observationer og fra data fra 64 observationer: $R^{2}=41.2366\%$ $F_1=\frac {0,412366/(4-1)}{(1-0,412366)/(34-4)}=0,70174*10=7,02$

$F_2=\frac {0,412366/(4-1)}{(1-0,412366)/(64-4)}=0,70174*20=14,04$

Den kritiske værdi af statistikken på 1 % signifikansniveau (i Excel, FDISP-funktionen) i det første tilfælde er , og i det andet tilfælde . I begge tilfælde anses regressionen for signifikant på et givet signifikansniveau. I det første tilfælde er P-værdien 0,1 %, og i det andet er den 0,00005 %. I det andet tilfælde er tilliden til regressionens signifikans således væsentligt højere (sandsynligheden for en fejl er meget mindre, hvis modellen anerkendes som signifikant). $F_{1\%}(3.30)=4.51$ $F_{1\%}(3.60)=4.13$

Test for heteroskedasticitet

Se Goldfeld-Quandt test

Se også

Noter

↑ F-test for lighed af to varianser . NIST . Dato for adgang: 29. marts 2017. Arkiveret fra originalen 9. marts 2017.