Analyse af varians

Variansanalyse  er en metode i matematisk statistik, der har til formål at finde afhængigheder i eksperimentelle data ved at undersøge betydningen af ​​forskelle i gennemsnitsværdier [1] [2] . I modsætning til t-testen giver den dig mulighed for at sammenligne midlerne for tre eller flere grupper. Udviklet af R. Fisher til at analysere resultaterne af eksperimentelle undersøgelser. Betegnelsen ANOVA (fra engelsk.  ANAlysis Of VARiance ) [3] findes også i litteraturen .

Typer af ANOVA

Essensen af ​​variansanalyse er at studere indflydelsen af ​​en eller flere uafhængige variable , sædvanligvis omtalt som faktorer, på den afhængige variabel . Afhængige variable er repræsenteret ved værdierne af absolutte skalaer (forholdsskala). Uafhængige variabler er nominative (navneskala), det vil sige, at de afspejler gruppetilhørsforhold og kan have to eller flere værdier (type, graduering eller niveau). Eksempler på en uafhængig variabel med to værdier ville være køn (kvinde: , mand: ) eller type behandlingsgruppe (kontrol: , eksperimentel: ). Gradationerne, der svarer til uafhængige prøver af objekter, kaldes intergruppe, og gradueringerne, der svarer til afhængige prøver, kaldes intragruppe.

Afhængigt af typen og antallet af variabler er der:

Matematisk model for variansanalyse

Den matematiske model for spredningsanalyse er et specialtilfælde af den grundlæggende lineære model . Lad metoderne bruges til at måle flere parametre, hvis nøjagtige værdier er . I dette tilfælde kan resultaterne af målinger af forskellige mængder ved forskellige metoder repræsenteres som:

,

hvor:

Derefter varianserne af følgende tilfældige variable: (hvor:




)

er udtrykt som:

og opfylde identiteten:

Variansanalyseproceduren består i at bestemme forholdet mellem systematisk (mellem grupper) varians og tilfældig (inden for gruppe) varians i de målte data. Som indikator for variabilitet bruges summen af ​​kvadraterne af parameterværdiernes afvigelse fra middelværdien: (fra engelsk. Sum of Squares ). Det kan vises, at den samlede sum af kvadrater dekomponerer i en intergruppesum af kvadrater og en intragruppesum af kvadrater :

Lad den nøjagtige værdi af hver parameter være dens matematiske forventning lig med populationsmiddelværdien . I mangel af systematiske fejl er gruppegennemsnittet og populationsgennemsnittet identiske: . Så er den tilfældige målefejl forskellen mellem måleresultatet og gruppegennemsnittet: . Hvis metoden har en systematisk effekt, så er den systematiske fejl under påvirkning af denne faktor forskellen mellem gruppegennemsnittet og befolkningsgennemsnittet: .

Så kan ligningen repræsenteres som følger:

, eller

.

Derefter

hvor

følgelig

Frihedsgrader dekomponeres på lignende måde:

hvor

og er størrelsen af ​​den fulde prøve, og  er antallet af grupper.

Så er variansen af ​​hver del, omtalt i variansanalysemodellen som "middelkvadrat", eller (fra det engelske Mean Square ), forholdet mellem summen af ​​kvadrater og antallet af deres frihedsgrader:

Forholdet mellem intergruppe- og intragruppevarianser har en F -fordeling ( Fischer-fordeling ) og bestemmes ved hjælp af ( Fishers F -kriterium ):

Principper og anvendelser

Udgangspunkterne for variansanalysen er

Nulhypotesen i variansanalysen er udsagnet om ligheden af ​​gennemsnitsværdierne:

Når nulhypotesen forkastes, accepteres den alternative hypotese, at ikke alle midler er lige, det vil sige, at der er mindst to grupper, der adskiller sig i midler:

Hvis der er tre eller flere grupper, bruges post-hoc t - tests eller kontrastmetoden til at bestemme forskellene mellem middelværdierne .

Envejsanalyse af varians

Det enkleste tilfælde af variansanalyse er en en-dimensionel envejsanalyse for to eller flere uafhængige grupper, når alle grupper kombineres efter én egenskab. Under analysen testes nulhypotesen om midlernes lighed. Ved analyse af to grupper er variansanalysen identisk med to-stikprøven Students t - test for uafhængige stikprøver, og værdien af ​​F - statistikken er lig med kvadratet af den tilsvarende t -statistik .

For at bekræfte udsagnet om ligheden af ​​dispersioner, bruges Levene's test normalt . Hvis hypotesen om varianslighed forkastes, er hovedanalysen ikke anvendelig. Hvis varianserne er ens, bruges Fishers F -kriterium til at vurdere forholdet mellem intergruppe og intragruppevariabilitet :

Hvis F -statistikken overstiger den kritiske værdi, så kan nulhypotesen ikke accepteres (forkastes), og der drages en konklusion om midlernes ulighed. Når gennemsnittet af de to grupper analyseres, kan resultaterne fortolkes umiddelbart efter anvendelse af Fisher-testen .

Hvis der er tre eller flere grupper, kræves parvis sammenligning af middelværdier for at identificere statistisk signifikante forskelle mellem dem. A priori-analyse inkluderer metoden til kontraster, hvor intergruppesummen af ​​kvadrater er opdelt i summen af ​​kvadrater af individuelle kontraster:

hvor der er en kontrast mellem middelværdierne for de to grupper, og derefter ved hjælp af Fisher -testen, kontrolleres forholdet mellem middelkvadraten for hver kontrast og inden for gruppens middelkvadrat:

A posteriori-analyse omfatter post-hoc t- test ved brug af Bonferroni- eller Scheffe-metoderne, samt en sammenligning af gennemsnitlige forskelle ved hjælp af Tukey-metoden. Et træk ved post-hoc tests er brugen af ​​et intragruppemiddelkvadrat til at evaluere ethvert middelpar. Bonferroni- og Scheffe-testene er de mest konservative, da de bruger den mindste kritiske region på et givet signifikansniveau .

Ud over at estimere gennemsnittet inkluderer variansanalysen bestemmelsen af ​​bestemmelseskoefficienten , der viser, hvilken andel af den samlede variabilitet denne faktor forklarer:

Multivariat variansanalyse

, hvor:

I modsætning til den univariate model, hvor der er én intergruppesum af kvadrater, inkluderer den multivariate analysemodel kvadratsummen for hver faktor separat og kvadratsummen af ​​alle interaktioner mellem dem. I tofaktormodellen er intergruppesummen af ​​kvadrater således dekomponeret i summen af ​​kvadrater af faktoren , summen af ​​kvadraterne af faktoren og summen af ​​kvadraterne af samspillet mellem faktorerne og :

Følgelig inkluderer trefaktormodellen summen af ​​kvadraterne af faktoren , summen af ​​kvadraterne af faktoren , summen af ​​kvadraterne på faktoren og summen af ​​kvadraterne af faktorernes vekselvirkninger og , og , og samt samspillet mellem alle tre faktorer :

Frihedsgraderne udvides på lignende måde:

hvor

og er volumen af ​​den fulde prøve,  er antallet af niveauer (grupper) af faktoren , og  er antallet af niveauer (grupper) af faktoren .

Analysen tester flere nulhypoteser :

Hver hypotese testes ved hjælp af Fisher-kriteriet:

Når nulhypotesen om en enkelt faktors indflydelse afvises, accepteres udsagnet om, at der er en hovedeffekt af faktoren ( osv.). Når nulhypotesen om faktorernes vekselvirkning afvises, accepteres udsagnet om, at faktorens indflydelse manifesterer sig forskelligt på forskellige niveauer af faktoren . Normalt, i dette tilfælde, anerkendes resultaterne af den generelle analyse som ugyldige, og faktorens indflydelse kontrolleres separat på hvert niveau af faktoren ved hjælp af en envejs variansanalyse eller t - test .

Noter

  1. Variansanalyse . Hentet 15. marts 2011. Arkiveret fra originalen 23. maj 2012.
  2. Spredningsanalyse - artikel fra Great Soviet Encyclopedia . Bolshev, L.N.. 
  3. A. D. Nasledov. Matematiske metoder til psykologisk forskning. St. Petersborg, 2008. ISBN 5-9268-0275-X

Litteratur