Korrektion for test af flere hypoteser

Multiple sammenligninger, multiplicitet, multiple test problemkorrektion [ 1] er en  måde at eliminere effekten af ​​multiple sammenligninger [2] , der opstår, når det er nødvendigt at opbygge en familie af statistiske slutninger. Under test af statistiske hypoteser , når hovedhypotesen (H 0 ) forkastes, er en fejl mulig (falsk afvisning af hypotesen, fejl af den første slags ). Sandsynligheden for en sådan hændelse er begrænset af en lille forudvalgt værdi - signifikansniveauet (normalt ). Derefter, når man konstruerer konklusioner, er det øverste estimat af sandsynligheden for, at mindst én af dem vil være forkert, lig med , hvilket er tilstrækkeligt stort selv for små (for eksempel for , det er lig med ). Der er udviklet flere tilgange til at eliminere denne effekt [3] .

Historie

Den første omtale af problemet med flere sammenligninger kan betragtes som ræsonnementet fra Antoine Augustine Cournot i Exposition de La Theorie Des Chances Et Des Probabilites (1843), at når man opdeler en befolkning i så mange grupper som muligt, vil der før eller siden være en gruppe, der er væsentligt forskellig fra de øvrige aggregater. Så blev problemet anset for uløseligt [4] .

Efter Bonferronis arbejde (Teoria statistica delle classi e calcolo delle probabilità, 1936) opstod en bølge af interesse for problemet med multiple tests i 1950'erne i forbindelse med John Tukeys og Henry Scheffes arbejde . Efterfølgende arbejde var rettet mod at øge rettelsernes kraft. Således blev en mere kraftfuld Holm-Bonferroni-korrektion udviklet i 1979. I 1995 begyndte man med en artikel af Benjamini og Hochberg at arbejde med FDR (false rejection rate of hypotheses), hvilket gjorde det muligt at teste en lang række hypoteser [4] .

I 1996 blev den første konference om test af flere hypoteser afholdt i Israel , hvorefter den er blevet afholdt hvert andet år rundt om i verden [5] .

Notation

Nulhypotesen er sand Nulhypotesen er falsk i alt
Vi accepterer hypotesen
Vi afviser hypotesen
i alt

Metoder til at løse problemet med flere sammenligninger

Med for mange forsøg øges sandsynligheden for at få et falsk-positivt resultat (en stigning i antallet af begåede fejl af den første slags ). Problemet er at vælge en metode, der tillader det mindste antal af falske afvisninger af hypoteser og falske accepter . For at gøre dette er det nødvendigt at vælge en anden regel for at afvise hypoteser. For problemet med test af flere hypoteser er der et stort antal mængder, der generaliserer definitionen af ​​en fejl af den første art. De mest kendte er følgende:

Hver af de ovennævnte tiltag har sin egen måde at stramme betydningstærsklen på.

Gruppesandsynlighed for type I fejl

Et af de mål, der generaliserer fejlen af ​​den første slags, taget i betragtning ved test af statistiske hypoteser. Værdien er defineret som sandsynligheden for at lave mindst én type I fejl [6] . Per definition: [6] . Styring af FWER på et fast signifikansniveau betyder, at uligheden [6] er opfyldt .

Der er flere metoder til at styre FWER.

Bonferroni-ændringsforslag

Bonferroni - korrektionsmetoden siger, at for at reducere falske positive resultater er det nødvendigt at afvise de hypoteser, for hvilke p-værdien ifølge kriteriet [8] [9] . Denne ændring gør det muligt at opnå , fordi

Booles ulighed indebærer, at sandsynligheden for, at mindst én af dem vil indtræffe, for et endeligt eller tælligt sæt begivenheder ikke er større end summen af ​​sandsynligheden for de enkelte begivenheder . Således, hvis hver enkelt test testes på signifikansniveauet , hvor er antallet af hypoteser, der tages i betragtning, så er signifikansniveauet for hele familien af ​​hypoteser fastsat på niveauet :

,

hvor  er antallet af afviste sande hypoteser [10] .

Noter

Med en stigning som følge af anvendelse af Bonferroni-korrektionen falder kraften i den statistiske procedure kraftigt - chancerne for at forkaste forkerte hypoteser falder [7] .

Holms metode (Holm-Bonferroni korrektion)

Holms metode ( Holm-Bonferroni-korrektion ) er ensartet mere kraftfuld end Bonferroni-korrektionen og løser problemet med effektfald i takt med at antallet af hypoteser vokser [11] . Top-down metode [12] .

Lad  - , ordnet fra mindste til største.  - relevante hypoteser. Holms procedure er defineret som følger [12] [13] .

  • Trin 1. Hvis , accepter hypoteserne og stop. Ellers, hvis , afvis hypotesen og fortsæt med at teste de resterende hypoteser på signifikansniveauet .
  • Trin 2. Hvis , accepter hypoteserne og stop. Ellers, hvis , afvis hypotesen og fortsæt med at teste de resterende hypoteser på signifikansniveauet .
  • Etc.

Proceduren giver [12] . Den er ensartet mere kraftfuld end Bonferroni-metoden [11] .

Eksempel

Overvej at teste 4 hypoteser for . Lad p-værdier opnås for dem: 0,01; 0,04; 0,03 og 0,005. Lad os arrangere dem i stigende rækkefølge: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Følgende uligheder vil blive kontrolleret:

  1. → afvis denne nulhypotese, fortsæt.
  2. → afvis denne nulhypotese, fortsæt.
  3. → accepter denne og den næste nulhypotese, stop.
Shidak-metoden

Signifikansniveauet for hypoteser er fastsat som følger: . [14] Metoden giver FWER forudsat at statistikerne er uafhængige, eller at egenskaben "positiv afhængighed" [15] [16] er opfyldt :

, [16]

Lad os sammensætte en variationsrække af p-værdier: , hvor er de tilsvarende hypoteser. Fremgangsmåden ser således ud:

  1. Hvis , så accepterer vi alle hypoteser og stopper, ellers afviser vi og fortsætter;
  2. Hvis , så accepterer vi alle hypoteser og stopper, ellers afviser vi og fortsætter;
  3. … etc.
Shidak-Holm-metoden

faldende procedure. Signifikansniveauer for hypoteser er fastsat som følger [17] :

Styrer FWER på et signifikansniveau, hvis statistikken er uafhængig i befolkningen. Hvis statistikken er uafhængig i befolkningen, er det umuligt at konstruere en procedure, der styrer FWER på det niveau, der er mere kraftfuldt end Shidak-Holm-metoden. I det store og hele adskiller den sig lidt fra Holms metode [17] .

Gennemsnitlig falsk afvisningsrate

Denne værdi er defineret som den matematiske forventning til andelen af ​​fejl blandt de afviste hypoteser.

Definer som forholdet mellem antallet af forkert afviste hypoteser og alle afviste hypoteser : . Således FDR:

ved [7] .

Niveaukontrol af FDR betyder, at:

[7] .

Benjamini-Hochberg metode

Dette er en bottom-up procedure med følgende betydningsniveauer [7] :

.

Lad være  betydningsniveauerne , ordnet fra mindste til største.  - relevante hypoteser. Benjamini-Hochberg-proceduren er defineret som følger.

  • Trin 1. Hvis , accepter hypoteserne og stop. Ellers, hvis , afvis hypotesen og fortsæt med at teste de resterende hypoteser på signifikansniveauet .
  • Trin 2. Hvis , accepter hypoteserne og stop. Ellers, hvis , afvis hypotesen og fortsæt med at teste de resterende hypoteser på signifikansniveauet .
  • Etc.

Hvis statistikken er uafhængig, kontrollerer denne metode FDR på [7] niveau .

Massiv multitestning

I mange undersøgelser, for eksempel inden for genomik , skal tusinder eller endda mange flere hypoteser testes. Inden for genetiske associationsstudier er der et problem med ikke-reproducerbarhed af resultater: et resultat, der er meget signifikant i en undersøgelse, gentages ikke i den næste. Årsagen til dette er blandt andet konsekvenserne af multiple tests [18] .

Inden for forskellige videnskabsområder er holdningen til multiple tests tvetydig. Der er en opfattelse af, at brugen af ​​en korrektion til flere sammenligninger, når der er gode grunde til at tro, at resultaterne vil være sande, ikke er nødvendig [19] . Det hævdes også, at justering for multiple tests er en ineffektiv metode til at udføre empirisk forskning , fordi det ved at kontrollere for falske positiver fører til et stort antal falske negativer. Men på den anden side hævdes det, at forbedringer i målemetoder og informationsteknologi har lettet fremkomsten af ​​store datasæt til eksplorativ analyse , hvilket har ført til test af et stort antal hypoteser uden først at antage, at de fleste af dem er sande. Og det betyder et stort antal falske positive, hvis korrektionen for flere tests ikke udføres.

I storskala test, hvis nøjagtige resultater skal opnås, er FWER bedst, men hvis undersøgelsen er eksplorativ og signifikante resultater vil blive testet i en uafhængig undersøgelse, foretrækkes FDR [7] [20] [21] . FDR, defineret som den forventede andel af falske positive blandt alle positive (signifikante), giver dig mulighed for at bestemme det sæt af "positive kandidater", der kan overvejes i yderligere undersøgelser [22] .

Praksis med at lave mange ujusterede sammenligninger i håbet om at finde noget meningsfuldt, hvad enten det er bevidst anvendt eller ej, omtales nogle gange som "p-hacking" [23] [24] .

Ansøgninger i bioinformatik

Problemet med multipel sammenligning i biologi er allestedsnærværende i analysen af ​​omics data [20] [25] [26] , da mange variabler analyseres samtidigt. I genom-dækkende associationsstudier og differentiel genekspressionsanalyse testes således hundredtusinder til millioner af hypoteser samtidigt. I de fleste tilfælde anvendes Bonferroni-korrektionen eller den generelt accepterede p-værdi-tærskel for GWAS [27] , men dette resulterer i et fald i undersøgelsens kraft med en samtidig stigning i risikoen for falske negative resultater. Antagelsen af ​​Bonferroni-korrektionen om uafhængigheden af ​​de sammenligninger, der foretages, er også overtrådt, da der er en koblingsuligevægt , når frekvenserne af SNP- kombinationer adskiller sig fra dem, der forventes i fravær af kobling, så spørgsmålet opstår, hvor mange reelle uafhængige der foretages sammenligninger. Det er muligt at definere antallet af uafhængige sammenligninger under sådanne forhold som antallet af hovedkomponenter, der tilsammen dækker mere end variansen af ​​de undersøgte data, derefter genberegnes tærskelværdien for p-værdien, der giver statistisk signifikans på niveauet , som følger:

[28] [29]

Også permutationstests [28] [30] såsom Rank product bruges til at løse problemet med flere sammenligninger . Antagelsen af ​​permutationstests er, at hvis de sammenlignede prøver kom fra den samme population, så burde udvekslingen af ​​elementer mellem prøverne ikke føre til en signifikant ændring i teststatistikken. En omtrentlig generel algoritme for permutationstest er som følger [30] :

  1. Værdien af ​​teststatistikker for prøver af eksperimentelle data beregnes
  2. Prøver kombineres i en enkelt pulje
  3. Prøver af samme størrelse dannes tilfældigt fra datapuljen
  4. Værdien af ​​teststatistikken for det nye sæt prøver beregnes
  5. Ved gentagen gentagelse af punkt 2-4 konstrueres fordelingen af ​​teststatistikker
  6. Ud fra den konstruerede fordeling og den eksperimentelle værdi af teststatistikken bestemmes p-værdien

Ved anvendelse af permutationstests er den faktiske korrektion af signifikansniveauet eller test p-værdier ikke påkrævet. Permutationstests er ikke følsomme over for prøveubalance, hvilket er nyttigt i analysen af ​​biologiske data [31] .

Se også

Noter

  1. Procedurer for multiple hypotesetests . Hentet 1. maj 2019. Arkiveret fra originalen 1. marts 2018.
  2. Om problemet med flere test af statistiske hypoteser . Hentet 1. maj 2019. Arkiveret fra originalen 17. marts 2018.
  3. Multiple test . Hentet 1. maj 2019. Arkiveret fra originalen 1. maj 2019.
  4. ↑ 1 2 Medicinsk biostatistik for komplekse sygdomme . - Weinheim: Wiley-VCH, 2010. - 1 online ressource (400 sider) s. ISBN 9783527630332 _
  5. MCP-konference 2019  (engelsk) . MCP Conference 2019. Hentet 12. april 2019. Arkiveret fra originalen 12. april 2019.
  6. ↑ 1 2 3 4 Hochberg Y. Tamhane, AC Flere sammenligningsprocedurer. New York: Wiley. s. 5. ISBN 978-0-471-82222-6 , 1987.
  7. ↑ 1 2 3 4 5 6 7 8 Yoav Benjamini, Yosef Hochberg. Kontrol af den falske opdagelsesrate: En praktisk og kraftfuld tilgang til flere tests  // Journal of the Royal Statistical Society: Series B (metodologisk). — 1995-01. - T. 57 , no. 1 . - S. 289-300 . — ISSN 0035-9246 . - doi : 10.1111/j.2517-6161.1995.tb02031.x .
  8. P. MIRONE. UN METODO APPROSSIMATO PER IL CALCOLO DELLE FREQUENZE DI VIBRAZIONE DI MOLECOLE CONTENENTI GRUPPI METILICI  // Fremskridt inden for molekylær spektroskopi. - Elsevier, 1962. - S. 293-296 . — ISBN 9781483213323 .
  9. Teoria Statistica Delle Classi e Calcolo Delle Probabilità  // Encyclopedia of Research Design. - 2455 Teller Road, Thousand Oaks Californien 91320 USA: SAGE Publications, Inc. - ISBN 9781412961271 , 9781412961288 .
  10. Josef Hochberg. En skarpere Bonferroni-procedure for flere test af betydning  // Biometrika. — 1988-12. - T. 75 , nr. 4 . - S. 800 . — ISSN 0006-3444 . - doi : 10.2307/2336325 .
  11. ↑ 1 2 Mikel Aickin og Helen Gensler. Justering for flere tests ved rapportering af forskningsresultater: Bonferroni vs Holm-metoderne // American Journal of Public Health, Vol.86, No.5. - 1996. - Maj.
  12. ↑ 1 2 3 Sture Holm. A Simple Sequentially Rejective Multiple Test Procedure // Scandinavian Journal of Statistics, Vol. 6, nr. 2 (1979), s. 65-70.
  13. Korrektion: En forbedret sekventielt afvisende Bonferroni-testprocedure  // Biometri. - 1987-09. - T. 43 , no. 3 . - S. 737 . — ISSN 0006-341X . - doi : 10.2307/2532027 .
  14. Zbyněk Šidak. Rektangulære konfidensregioner for midlerne til multivariate normalfordelinger  //  Journal of the American Statistical Association. — 1967-6. — Bd. 62 , udg. 318 . - s. 626-633 . — ISSN 1537-274X 0162-1459, 1537-274X . doi : 10.1080/ 01621459.1967.10482935 . Arkiveret fra originalen den 30. januar 2020.
  15. JP Shaffer. Multiple Hypothesis Testing  (engelsk)  // Annual Review of Psychology. — 1995-1. — Bd. 46 , udg. 1 . - S. 561-584 . — ISSN 1545-2085 0066-4308, 1545-2085 . - doi : 10.1146/annurev.ps.46.020195.003021 . Arkiveret fra originalen den 16. april 2019.
  16. ↑ 1 2 Burt S. Holland, Margaret D. Copenhaver. Forbedrede flere testprocedurer af Bonferroni-typen  // Psychological Bulletin. - 1988. - T. 104 , no. 1 . - S. 145-149 . — ISSN 0033-2909 . - doi : 10.1037//0033-2909.104.1.145 .
  17. ↑ 1 2 Statistisk analyse af data (forelæsningsforløb, K.V. Vorontsov) . www.machinelearning.ru Hentet 18. april 2019. Arkiveret fra originalen 10. maj 2019.
  18. Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Statistisk signifikans i genetiske associationsstudier  // Clinical & Investigative Medicine. - 2010-10-01. - T. 33 , no. 5 . - S. 266 . — ISSN 1488-2353 . - doi : 10.25011/cim.v33i5.14351 .
  19. Rothman, Kenneth J. Ingen justeringer er nødvendige for flere sammenligninger  (ubestemt)  // Epidemiologi. - 1990. - T. 1 , nr. 1 . - S. 43-46 . - doi : 10.1097/00001648-199001000-00010 . — PMID 2081237 . — .
  20. ↑ 1 2 J. D. Storey, R. Tibshirani. Statistisk signifikans for genomomfattende undersøgelser  (engelsk)  // Proceedings of the National Academy of Sciences . - National Academy of Sciences , 2003-07-25. — Bd. 100 , iss. 16 . - P. 9440-9445 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.1530509100 . Arkiveret fra originalen den 19. juli 2008.
  21. Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia. Empirisk Bayes-analyse af et mikroarray-eksperiment  //  Journal of the American Statistical Association  : tidsskrift. - 2001. - Bd. 96 , nr. 456 . - S. 1151-1160 . - doi : 10.1198/016214501753382129 . — .
  22. William S Noble. Hvordan fungerer korrektion af flere test?  (engelsk)  // Nature Biotechnology . - Nature Publishing Group , 2009-12. — Bd. 27 , udg. 12 . - S. 1135-1137 . - ISSN 1546-1696 1087-0156, 1546-1696 . - doi : 10.1038/nbt1209-1135 . Arkiveret fra originalen den 12. april 2019.
  23. Young, SS, Karr, A. Deming, data og observationsstudier  (neopr.)  // Significance. - 2011. - T. 8 , nr. 3 . - S. 116-120 . - doi : 10.1111/j.1740-9713.2011.00506.x .
  24. Smith, GD, Shah, E. Dataudmudring, bias eller confounding  // BMJ  :  journal. - 2002. - Bd. 325 , nr. 7378 . - S. 1437-1438 . - doi : 10.1136/bmj.325.7378.1437 . PMID 12493654 .
  25. Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. En multipel testprocedure for multidimensionelle parvise sammenligninger med anvendelse på genekspressionsstudier  // BMC Bioinformatics. — 2016-02-25. - T. 17 . — ISSN 1471-2105 . - doi : 10.1186/s12859-016-0937-5 .
  26. ScienceDirect . www.sciencedirect.com. Dato for adgang: 13. april 2019.
  27. Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Guidelines for Genome-Wide Association Studies  // PLoS Genetics. — 2012-07-05. - T. 8 , nej. 7 . — ISSN 1553-7390 . - doi : 10.1371/journal.pgen.1002812 . Arkiveret fra originalen den 7. januar 2021.
  28. ↑ 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Regnskab for flere sammenligninger i en genom-wide association undersøgelse (GWAS)  // BMC Genomics. — 2010-12-22. - T. 11 . - S. 724 . — ISSN 1471-2164 . - doi : 10.1186/1471-2164-11-724 .
  29. Xiaoyi Gao, Joshua Starmer, Eden R. Martin. En korrektionsmetode med flere tests til genetiske associationsstudier ved brug af korrelerede enkeltnukleotidpolymorfier  // Genetisk epidemiologi. - 2008-5. - T. 32 , no. 4 . - S. 361-369 . — ISSN 0741-0395 . - doi : 10.1002/gepi.20310 . Arkiveret fra originalen den 13. april 2019.
  30. ↑ 1 2 Ronglin Che, John R Jack, Alison A Motsinger-Reif, Chad C Brown. En adaptiv permutationstilgang til genom-dækkende associationsundersøgelse: evaluering og anbefalinger til brug  // BioData Mining. — 2014-06-14. - T. 7 . - S. 9 . — ISSN 1756-0381 . - doi : 10.1186/1756-0381-7-9 .
  31. Benjamin T. Files, Vernon J. Lawhern, Anthony J. Ries, Amar R. Marathe. En permutationstest for ubalancerede parrede sammenligninger af global feltkraft  // hjernetopografi. - 2016. - T. 29 . - S. 345-357 . — ISSN 0896-0267 . - doi : 10.1007/s10548-016-0477-3 .

Litteratur

  • E.L. Lehmann, J.P. Romano. Kapitel 9: Multipel testning og samtidig inferens // Test af statistiske hypoteser : [ eng. ] . — 3. udg. - New York: Springer, 2005. - 786 s.
  • Peter H. Westfall, S. Stanley Young. Resampling-baseret multiple test: eksempler og metoder til p-værdijustering: [ eng. ] . - Wiley, 1993. - 360 s. - ISBN 978-0-471-55761-6 .