Variansanalyse er en metode i matematisk statistik, der har til formål at finde afhængigheder i eksperimentelle data ved at undersøge betydningen af forskelle i gennemsnitsværdier [1] [2] . I modsætning til t-testen giver den dig mulighed for at sammenligne midlerne for tre eller flere grupper. Udviklet af R. Fisher til at analysere resultaterne af eksperimentelle undersøgelser. Betegnelsen ANOVA (fra engelsk. ANAlysis Of VARiance ) [3] findes også i litteraturen .
Essensen af variansanalyse er at studere indflydelsen af en eller flere uafhængige variable , sædvanligvis omtalt som faktorer, på den afhængige variabel . Afhængige variable er repræsenteret ved værdierne af absolutte skalaer (forholdsskala). Uafhængige variabler er nominative (navneskala), det vil sige, at de afspejler gruppetilhørsforhold og kan have to eller flere værdier (type, graduering eller niveau). Eksempler på en uafhængig variabel med to værdier ville være køn (kvinde: , mand: ) eller type behandlingsgruppe (kontrol: , eksperimentel: ). Gradationerne, der svarer til uafhængige prøver af objekter, kaldes intergruppe, og gradueringerne, der svarer til afhængige prøver, kaldes intragruppe.
Afhængigt af typen og antallet af variabler er der:
Den matematiske model for spredningsanalyse er et specialtilfælde af den grundlæggende lineære model . Lad metoderne bruges til at måle flere parametre, hvis nøjagtige værdier er . I dette tilfælde kan resultaterne af målinger af forskellige mængder ved forskellige metoder repræsenteres som:
,
hvor:
Derefter varianserne af følgende tilfældige variable: (hvor:
)
er udtrykt som:
og opfylde identiteten:
Variansanalyseproceduren består i at bestemme forholdet mellem systematisk (mellem grupper) varians og tilfældig (inden for gruppe) varians i de målte data. Som indikator for variabilitet bruges summen af kvadraterne af parameterværdiernes afvigelse fra middelværdien: (fra engelsk. Sum of Squares ). Det kan vises, at den samlede sum af kvadrater dekomponerer i en intergruppesum af kvadrater og en intragruppesum af kvadrater :
Lad den nøjagtige værdi af hver parameter være dens matematiske forventning lig med populationsmiddelværdien . I mangel af systematiske fejl er gruppegennemsnittet og populationsgennemsnittet identiske: . Så er den tilfældige målefejl forskellen mellem måleresultatet og gruppegennemsnittet: . Hvis metoden har en systematisk effekt, så er den systematiske fejl under påvirkning af denne faktor forskellen mellem gruppegennemsnittet og befolkningsgennemsnittet: .
Så kan ligningen repræsenteres som følger:
, eller
.
Derefter
hvor
følgelig
Frihedsgrader dekomponeres på lignende måde:
hvor
og er størrelsen af den fulde prøve, og er antallet af grupper.
Så er variansen af hver del, omtalt i variansanalysemodellen som "middelkvadrat", eller (fra det engelske Mean Square ), forholdet mellem summen af kvadrater og antallet af deres frihedsgrader:
Forholdet mellem intergruppe- og intragruppevarianser har en F -fordeling ( Fischer-fordeling ) og bestemmes ved hjælp af ( Fishers F -kriterium ):
Udgangspunkterne for variansanalysen er
Nulhypotesen i variansanalysen er udsagnet om ligheden af gennemsnitsværdierne:
Når nulhypotesen forkastes, accepteres den alternative hypotese, at ikke alle midler er lige, det vil sige, at der er mindst to grupper, der adskiller sig i midler:
Hvis der er tre eller flere grupper, bruges post-hoc t - tests eller kontrastmetoden til at bestemme forskellene mellem middelværdierne .
Det enkleste tilfælde af variansanalyse er en en-dimensionel envejsanalyse for to eller flere uafhængige grupper, når alle grupper kombineres efter én egenskab. Under analysen testes nulhypotesen om midlernes lighed. Ved analyse af to grupper er variansanalysen identisk med to-stikprøven Students t - test for uafhængige stikprøver, og værdien af F - statistikken er lig med kvadratet af den tilsvarende t -statistik .
For at bekræfte udsagnet om ligheden af dispersioner, bruges Levene's test normalt . Hvis hypotesen om varianslighed forkastes, er hovedanalysen ikke anvendelig. Hvis varianserne er ens, bruges Fishers F -kriterium til at vurdere forholdet mellem intergruppe og intragruppevariabilitet :
Hvis F -statistikken overstiger den kritiske værdi, så kan nulhypotesen ikke accepteres (forkastes), og der drages en konklusion om midlernes ulighed. Når gennemsnittet af de to grupper analyseres, kan resultaterne fortolkes umiddelbart efter anvendelse af Fisher-testen .
Hvis der er tre eller flere grupper, kræves parvis sammenligning af middelværdier for at identificere statistisk signifikante forskelle mellem dem. A priori-analyse inkluderer metoden til kontraster, hvor intergruppesummen af kvadrater er opdelt i summen af kvadrater af individuelle kontraster:
hvor der er en kontrast mellem middelværdierne for de to grupper, og derefter ved hjælp af Fisher -testen, kontrolleres forholdet mellem middelkvadraten for hver kontrast og inden for gruppens middelkvadrat:
A posteriori-analyse omfatter post-hoc t- test ved brug af Bonferroni- eller Scheffe-metoderne, samt en sammenligning af gennemsnitlige forskelle ved hjælp af Tukey-metoden. Et træk ved post-hoc tests er brugen af et intragruppemiddelkvadrat til at evaluere ethvert middelpar. Bonferroni- og Scheffe-testene er de mest konservative, da de bruger den mindste kritiske region på et givet signifikansniveau .
Ud over at estimere gennemsnittet inkluderer variansanalysen bestemmelsen af bestemmelseskoefficienten , der viser, hvilken andel af den samlede variabilitet denne faktor forklarer:
, hvor:
I modsætning til den univariate model, hvor der er én intergruppesum af kvadrater, inkluderer den multivariate analysemodel kvadratsummen for hver faktor separat og kvadratsummen af alle interaktioner mellem dem. I tofaktormodellen er intergruppesummen af kvadrater således dekomponeret i summen af kvadrater af faktoren , summen af kvadraterne af faktoren og summen af kvadraterne af samspillet mellem faktorerne og :
Følgelig inkluderer trefaktormodellen summen af kvadraterne af faktoren , summen af kvadraterne af faktoren , summen af kvadraterne på faktoren og summen af kvadraterne af faktorernes vekselvirkninger og , og , og samt samspillet mellem alle tre faktorer :
Frihedsgraderne udvides på lignende måde:
hvor
og er volumen af den fulde prøve, er antallet af niveauer (grupper) af faktoren , og er antallet af niveauer (grupper) af faktoren .
Analysen tester flere nulhypoteser :
Hver hypotese testes ved hjælp af Fisher-kriteriet:
Når nulhypotesen om en enkelt faktors indflydelse afvises, accepteres udsagnet om, at der er en hovedeffekt af faktoren ( osv.). Når nulhypotesen om faktorernes vekselvirkning afvises, accepteres udsagnet om, at faktorens indflydelse manifesterer sig forskelligt på forskellige niveauer af faktoren . Normalt, i dette tilfælde, anerkendes resultaterne af den generelle analyse som ugyldige, og faktorens indflydelse kontrolleres separat på hvert niveau af faktoren ved hjælp af en envejs variansanalyse eller t - test .
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |
Mindste kvadrater og regressionsanalyse | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beregningsstatistik _ |
| ||||||||
Korrelation og afhængighed |
| ||||||||
Regressions analyse |
| ||||||||
Regression som statistisk model |
| ||||||||
Variansnedbrydning |
| ||||||||
Modelstudie |
| ||||||||
Forudsætninger |
| ||||||||
Eksperiment planlægning |
| ||||||||
Numerisk tilnærmelse | |||||||||
Ansøgninger |
|