Multiple sammenligninger, multiplicitet, multiple test problemkorrektion [ 1] er en måde at eliminere effekten af multiple sammenligninger [2] , der opstår, når det er nødvendigt at opbygge en familie af statistiske slutninger. Under test af statistiske hypoteser , når hovedhypotesen (H 0 ) forkastes, er en fejl mulig (falsk afvisning af hypotesen, fejl af den første slags ). Sandsynligheden for en sådan hændelse er begrænset af en lille forudvalgt værdi - signifikansniveauet (normalt ). Derefter, når man konstruerer konklusioner, er det øverste estimat af sandsynligheden for, at mindst én af dem vil være forkert, lig med , hvilket er tilstrækkeligt stort selv for små (for eksempel for , det er lig med ). Der er udviklet flere tilgange til at eliminere denne effekt [3] .
Den første omtale af problemet med flere sammenligninger kan betragtes som ræsonnementet fra Antoine Augustine Cournot i Exposition de La Theorie Des Chances Et Des Probabilites (1843), at når man opdeler en befolkning i så mange grupper som muligt, vil der før eller siden være en gruppe, der er væsentligt forskellig fra de øvrige aggregater. Så blev problemet anset for uløseligt [4] .
Efter Bonferronis arbejde (Teoria statistica delle classi e calcolo delle probabilità, 1936) opstod en bølge af interesse for problemet med multiple tests i 1950'erne i forbindelse med John Tukeys og Henry Scheffes arbejde . Efterfølgende arbejde var rettet mod at øge rettelsernes kraft. Således blev en mere kraftfuld Holm-Bonferroni-korrektion udviklet i 1979. I 1995 begyndte man med en artikel af Benjamini og Hochberg at arbejde med FDR (false rejection rate of hypotheses), hvilket gjorde det muligt at teste en lang række hypoteser [4] .
I 1996 blev den første konference om test af flere hypoteser afholdt i Israel , hvorefter den er blevet afholdt hvert andet år rundt om i verden [5] .
Nulhypotesen er sand | Nulhypotesen er falsk | i alt | |
---|---|---|---|
Vi accepterer hypotesen | |||
Vi afviser hypotesen | |||
i alt |
Med for mange forsøg øges sandsynligheden for at få et falsk-positivt resultat (en stigning i antallet af begåede fejl af den første slags ). Problemet er at vælge en metode, der tillader det mindste antal af falske afvisninger af hypoteser og falske accepter . For at gøre dette er det nødvendigt at vælge en anden regel for at afvise hypoteser. For problemet med test af flere hypoteser er der et stort antal mængder, der generaliserer definitionen af en fejl af den første art. De mest kendte er følgende:
Hver af de ovennævnte tiltag har sin egen måde at stramme betydningstærsklen på.
Et af de mål, der generaliserer fejlen af den første slags, taget i betragtning ved test af statistiske hypoteser. Værdien er defineret som sandsynligheden for at lave mindst én type I fejl [6] . Per definition: [6] . Styring af FWER på et fast signifikansniveau betyder, at uligheden [6] er opfyldt .
Der er flere metoder til at styre FWER.
Bonferroni-ændringsforslagBonferroni - korrektionsmetoden siger, at for at reducere falske positive resultater er det nødvendigt at afvise de hypoteser, for hvilke p-værdien ifølge kriteriet [8] [9] . Denne ændring gør det muligt at opnå , fordi
Booles ulighed indebærer, at sandsynligheden for, at mindst én af dem vil indtræffe, for et endeligt eller tælligt sæt begivenheder ikke er større end summen af sandsynligheden for de enkelte begivenheder . Således, hvis hver enkelt test testes på signifikansniveauet , hvor er antallet af hypoteser, der tages i betragtning, så er signifikansniveauet for hele familien af hypoteser fastsat på niveauet :
,
hvor er antallet af afviste sande hypoteser [10] .
NoterMed en stigning som følge af anvendelse af Bonferroni-korrektionen falder kraften i den statistiske procedure kraftigt - chancerne for at forkaste forkerte hypoteser falder [7] .
Holms metode (Holm-Bonferroni korrektion)Holms metode ( Holm-Bonferroni-korrektion ) er ensartet mere kraftfuld end Bonferroni-korrektionen og løser problemet med effektfald i takt med at antallet af hypoteser vokser [11] . Top-down metode [12] .
Lad - , ordnet fra mindste til største. - relevante hypoteser. Holms procedure er defineret som følger [12] [13] .
Proceduren giver [12] . Den er ensartet mere kraftfuld end Bonferroni-metoden [11] .
EksempelOvervej at teste 4 hypoteser for . Lad p-værdier opnås for dem: 0,01; 0,04; 0,03 og 0,005. Lad os arrangere dem i stigende rækkefølge: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Følgende uligheder vil blive kontrolleret:
Signifikansniveauet for hypoteser er fastsat som følger: . [14] Metoden giver FWER forudsat at statistikerne er uafhængige, eller at egenskaben "positiv afhængighed" [15] [16] er opfyldt :
, [16]
Lad os sammensætte en variationsrække af p-værdier: , hvor er de tilsvarende hypoteser. Fremgangsmåden ser således ud:
faldende procedure. Signifikansniveauer for hypoteser er fastsat som følger [17] :
Styrer FWER på et signifikansniveau, hvis statistikken er uafhængig i befolkningen. Hvis statistikken er uafhængig i befolkningen, er det umuligt at konstruere en procedure, der styrer FWER på det niveau, der er mere kraftfuldt end Shidak-Holm-metoden. I det store og hele adskiller den sig lidt fra Holms metode [17] .
Denne værdi er defineret som den matematiske forventning til andelen af fejl blandt de afviste hypoteser.
Definer som forholdet mellem antallet af forkert afviste hypoteser og alle afviste hypoteser : . Således FDR:
ved [7] .
Niveaukontrol af FDR betyder, at:
[7] .
Benjamini-Hochberg metodeDette er en bottom-up procedure med følgende betydningsniveauer [7] :
.
Lad være betydningsniveauerne , ordnet fra mindste til største. - relevante hypoteser. Benjamini-Hochberg-proceduren er defineret som følger.
Hvis statistikken er uafhængig, kontrollerer denne metode FDR på [7] niveau .
I mange undersøgelser, for eksempel inden for genomik , skal tusinder eller endda mange flere hypoteser testes. Inden for genetiske associationsstudier er der et problem med ikke-reproducerbarhed af resultater: et resultat, der er meget signifikant i en undersøgelse, gentages ikke i den næste. Årsagen til dette er blandt andet konsekvenserne af multiple tests [18] .
Inden for forskellige videnskabsområder er holdningen til multiple tests tvetydig. Der er en opfattelse af, at brugen af en korrektion til flere sammenligninger, når der er gode grunde til at tro, at resultaterne vil være sande, ikke er nødvendig [19] . Det hævdes også, at justering for multiple tests er en ineffektiv metode til at udføre empirisk forskning , fordi det ved at kontrollere for falske positiver fører til et stort antal falske negativer. Men på den anden side hævdes det, at forbedringer i målemetoder og informationsteknologi har lettet fremkomsten af store datasæt til eksplorativ analyse , hvilket har ført til test af et stort antal hypoteser uden først at antage, at de fleste af dem er sande. Og det betyder et stort antal falske positive, hvis korrektionen for flere tests ikke udføres.
I storskala test, hvis nøjagtige resultater skal opnås, er FWER bedst, men hvis undersøgelsen er eksplorativ og signifikante resultater vil blive testet i en uafhængig undersøgelse, foretrækkes FDR [7] [20] [21] . FDR, defineret som den forventede andel af falske positive blandt alle positive (signifikante), giver dig mulighed for at bestemme det sæt af "positive kandidater", der kan overvejes i yderligere undersøgelser [22] .
Praksis med at lave mange ujusterede sammenligninger i håbet om at finde noget meningsfuldt, hvad enten det er bevidst anvendt eller ej, omtales nogle gange som "p-hacking" [23] [24] .
Problemet med multipel sammenligning i biologi er allestedsnærværende i analysen af omics data [20] [25] [26] , da mange variabler analyseres samtidigt. I genom-dækkende associationsstudier og differentiel genekspressionsanalyse testes således hundredtusinder til millioner af hypoteser samtidigt. I de fleste tilfælde anvendes Bonferroni-korrektionen eller den generelt accepterede p-værdi-tærskel for GWAS [27] , men dette resulterer i et fald i undersøgelsens kraft med en samtidig stigning i risikoen for falske negative resultater. Antagelsen af Bonferroni-korrektionen om uafhængigheden af de sammenligninger, der foretages, er også overtrådt, da der er en koblingsuligevægt , når frekvenserne af SNP- kombinationer adskiller sig fra dem, der forventes i fravær af kobling, så spørgsmålet opstår, hvor mange reelle uafhængige der foretages sammenligninger. Det er muligt at definere antallet af uafhængige sammenligninger under sådanne forhold som antallet af hovedkomponenter, der tilsammen dækker mere end variansen af de undersøgte data, derefter genberegnes tærskelværdien for p-værdien, der giver statistisk signifikans på niveauet , som følger:
[28] [29]
Også permutationstests [28] [30] såsom Rank product bruges til at løse problemet med flere sammenligninger . Antagelsen af permutationstests er, at hvis de sammenlignede prøver kom fra den samme population, så burde udvekslingen af elementer mellem prøverne ikke føre til en signifikant ændring i teststatistikken. En omtrentlig generel algoritme for permutationstest er som følger [30] :
Ved anvendelse af permutationstests er den faktiske korrektion af signifikansniveauet eller test p-værdier ikke påkrævet. Permutationstests er ikke følsomme over for prøveubalance, hvilket er nyttigt i analysen af biologiske data [31] .