Karakterstatistik

Estimationsstatistik ( Estimation statistics ) er en tilgang til dataanalyse , der omfatter en kombination af metoder: effektstørrelse , konfidensintervaller , planlægningsnøjagtighed og metaanalyse til design af eksperimenter , analyse af data og fortolkning af resultater. [1] Denne tilgang adskiller sig fra nulhypotesens signifikanstest (NHST), som anses for mindre informativ. [2] [3] Scoringsstatistikken, eller simpelthen scoring , også kendt som ny statistik , [3] bruges i psykologi , medicinsk forskning, biovidenskab og en lang række andre eksperimentelle videnskaber, hvor der testes for betydningen af nulhypotesen er stadig almindelig tilgang [4] på trods af, at estimeringsstatistikker i løbet af de sidste par årtier er blevet anbefalet som den foretrukne tilgang. [5] [6]

Hovedformålet med estimatstatistikken er at rapportere effektstørrelsen (punktestimat) sammen med dets konfidensinterval , som er relateret til estimatets nøjagtighed. [7] Konfidensintervallet opsummerer rækken af sandsynlige værdier for hovedpopulationseffekten. Tilhængere af scoringsstatistikker foretrækker at rapportere effektstørrelser med deres konfidensintervaller i stedet for p-signifikansniveauer [8] og mener, at scoringsstatistikker bør erstatte signifikanstestmetoden til dataanalyse . [9]

Historie

Fysik har længe brugt metoden med vægtede gennemsnit , svarende til meta-analyse . [ti]

Estimationsstatistikkens historie begyndte med udviklingen af standardiserede effektstørrelser af Jacob Cohen i 1960'erne. De første undersøgelser ved hjælp af evaluerende statistik blev banebrydende af Gene W. Glass sammen med udviklingen af metaanalysemetoden i 1970'erne. [11] Siden da er estimeringsstatistiske metoder blevet forfinet af Larry Hedges, Michael Borenstein, Doug Altman, Martin Gardner, Jeff Cumming og andre. Systematisk gennemgang kombineret med metaanalyse er en beslægtet metode, der er meget brugt i medicinsk forskning. På trods af den udbredte brug af meta-analyse, er den scoring statistiske tilgang stadig ikke brugt på et konsekvent grundlag i mainstream biomedicinsk forskning. [fire]

I 1990'erne forbød redaktør Kenneth Rothman brugen af p-værdier i tidsskriftet Epidemiology ; forfatterne støttede initiativet, men det påvirkede ikke deres analytiske tænkning, når de forskede. [12]

For nylig er evalueringsstatistiske metoder blevet anvendt inden for områder som neurovidenskab , pædagogisk psykologi og psykologi . [13]

Publikationsretningslinjerne fra American Psychological Association anbefaler estimering (estimation) snarere end test (testning) af hypoteser. [14] Dokumentet Uniform Requirements for Manuscripts Submitted to Biomedical Journals giver en lignende anbefaling: "Undgå udelukkende at stole på statistisk hypotesetestning, såsom p-værdier , som ikke kan formidle vigtig information om effektstørrelser ." [femten]

I 2019 introducerede Society for Neuroscience -tidsskriftet eNeuro en politik, der anbefaler brugen af scorestatistikplot som den foretrukne metode til præsentation af data. [16]

Metode

Mange signifikanstest har en pendant i evalueringsstatistikker. [17] I næsten alle tilfælde kan testresultatet (eller dets p-værdi ) simpelthen erstattes med en effektstørrelse og en præcisionsscore . I stedet for at bruge Students t-test kan en analytiker f.eks. sammenligne to uafhængige grupper ved at beregne den gennemsnitlige forskel og dens 95 % konfidensinterval . Passende metoder kan bruges til parret t-test og flere sammenligninger. Tilsvarende skal analytikeren for regressionsanalyse rapportere bestemmelseskoefficienten (R 2 ) og modelligningen i stedet for modellens p-værdi .

Men tilhængere af evaluerende statistik anbefaler at analysere og præsentere data gennem datavisualisering ud over numeriske beregninger. [2] [6] [7] Eksempler på egnede visualiseringer er scatter-plot for regression og Gardner-Altman-plot for to uafhængige grupper. [18] Mens klassiske plots (såsom histogrammer , whisker-kasser og violinplot) ikke viser sammenligning, tilføjer partiturstatistikplot en anden akse for tydeligt at visualisere effektstørrelsen . [19]

Gardner-Altman plot

Gardner-Altman middelforskelle plot blev først beskrevet af Martin Gardner og Doug Altman i 1986 [18] Dette statistiske plot viser data fra to uafhængige grupper. [6] Der er også en version af grafen, der er egnet til sammenkædede prøver . De vigtigste instruktioner til at konstruere dette diagram er: (1) plot alle observerede værdier for begge grupper side om side; (2) placer den anden akse til højre, forskyd den for at vise den gennemsnitlige forskelsskala ; og (3) plot den gennemsnitlige forskel med dets konfidensinterval som en markør med en fejlværdi på . [3] Gardner-Altman-plot kan genereres med brugerdefineret kode ved hjælp af pakkerne Ggplot2 , seaborn eller DABEST ; alternativt kan analytikeren bruge praktisk software såsom Estimation Stats -appen .

Cummings diagram

For flere grupper introducerede Jeff Cumming et ekstra panel til at plotte to eller flere gennemsnitsforskelle og deres konfidensintervaller , placeret under det første panel af observerede værdier [3] : dette arrangement gør det nemt at sammenligne gennemsnitsforskelle ("deltaer") på tværs af flere datagrupper. Cumming-plot kan genereres ved hjælp af ESCI , DABEST eller Estimation Stats -applikationen .

Andre metoder

Udover middel forskel er der mange andre typer effektstørrelser med deres egne fordele i forhold til hinanden. Hovedtyperne omfatter Cohens d-type effektstørrelser og bestemmelseskoefficient (R 2 ) til regressionsanalyse . For ikke-normale fordelinger er der en række mere robuste måder at beregne effektstørrelser på , herunder Cliff-deltaet og Kolmogorov-Smirnov- statistikken .

Svagheder i hypotesetestning

Ved hypotesetestning er hovedformålet med statistisk beregning at opnå en p-værdi , sandsynligheden for at se et givet resultat eller et mere ekstremt resultat, hvis nulhypotesen antages at være sand. Hvis p -værdien er lav (normalt <0,05), rådes statistikeren til at forkaste nulhypotesen . Tilhængere af estimeringsstatistikker afviser gyldigheden af hypotesetestmetoden [ 3] [7] af følgende grunde:

P-værdier er let og ofte fejlfortolket. For eksempel forveksles p-værdien ofte med "sandsynligheden for, at nulhypotesen er sand" [20] .
Nulhypotesen er altid forkert for hvert sæt observationer: der er altid en eller anden effekt , selvom den er lille. [21]
Hypotesetestning giver vilkårligt dikotomiske ja-nej-svar, mens vigtige informationer om effektstørrelse kasseres . [22]
Enhver bestemt p-værdi er resultatet af interaktionen mellem effektstørrelse , stikprøvestørrelse (ceteris paribus, en større prøvestørrelse giver en mindre p-værdi) og prøveudtagningsfejl . [23]
Ved lav effekt viser datasimulering, at prøvetagningsfejl gør p-værdier ekstremt flygtige. [24]

Fordele ved evalueringsstatistikker

Fordele ved konfidensintervaller

Konfidensintervaller opfører sig forudsigeligt. Per definition har 95 % konfidensintervaller en 95 % chance for at fange populationsgennemsnittet (μ). Denne funktion forbliver den samme, når stikprøvestørrelsen øges ; det, der ændrer sig, er, at intervallet bliver mindre (mere præcist). Derudover er 95 % konfidensintervaller også 83 % forudsigelsesintervaller: Et enkelt eksperiment konfidensinterval har en 83 % chance for at fange gennemsnittet af ethvert fremtidigt eksperiment . [3] At kende 95 % konfidensintervallerne for et individuelt eksperiment giver således analytikeren et plausibelt interval for populationsmiddelværdien og plausible resultater fra eventuelle efterfølgende replikationseksperimenter .

Evidensbaseret statistik

Psykologiske undersøgelser af opfattelsen af statistik viser, at scoringsintervaller giver en mere præcis opfattelse af data end rapporter om p-værdier . [25]

Præcisionsplanlægning

Nøjagtigheden af estimatet er formelt defineret som 1/ varians og, som det er power , som stiger med stikprøvestørrelsen. Ligesom strøm er høj nøjagtighed arbejdskrævende. Ansøgninger om forskningsstøtte bør ideelt set omfatte en nøjagtigheds-/omkostningsanalyse. Tilhængere af estimeringsstatistikker mener, at nøjagtighedsplanlægning bør erstatte magt , da statistisk magt i sig selv er begrebsmæssigt relateret til signifikanstestning . [3]

Noter

↑ Ellis, Paul Ofte stillede spørgsmål om effektstørrelse . Hentet 20. januar 2021. Arkiveret fra originalen 26. januar 2021. (ubestemt)
↑ 1 2 Cohen, Jacob Jorden er rund (p<.05) . Hentet 20. januar 2021. Arkiveret fra originalen 11. oktober 2017. (ubestemt)
↑ 1 2 3 4 5 6 7 Cumming, Geoff. Forståelse af den nye statistik: Effektstørrelser, konfidensintervaller og metaanalyse. — New York: Routledge, 2012.
↑ 1 2 Button, Katherine; John P. A. Ioannidis; Claire Mokrysz; Brian A. Nosek; Jonathan Flint; Emma SJ Robinson; Marcus R. Munafò (2013). "Strømsvigt: hvorfor lille stikprøvestørrelse underminerer pålideligheden af neurovidenskab." Naturanmeldelser Neurovidenskab . 14 (5): 365-76. DOI : 10.1038/nrn3475 . PMID23571845 . _
↑ Altman, Douglas. Praktisk statistik for medicinsk forskning . — London: Chapman og Hall, 1991.
↑ 1 2 3 Statistik med tillid / Douglas Altman. — London: Wiley-Blackwell, 2000.
↑ 1 2 3 Cohen, Jacob (1990). "Hvad jeg har lært (indtil videre)" . Amerikansk psykolog . 45 (12): 1304. DOI : 10.1037/0003-066x.45.12.1304 . Arkiveret fra originalen 2021-01-21 . Hentet 2021-01-20 . Forældet parameter brugt |deadlink=( hjælp )
↑ Ellis, Paul Hvorfor kan jeg ikke bare bedømme mit resultat ved at se på p-værdien? (31. maj 2010). Hentet 5. juni 2013. Arkiveret fra originalen 28. januar 2021. (ubestemt)
↑ Claridge-Chang, Adam; Assam, Pryseley N (2016). "Estimatstatistik bør erstatte signifikanstestning" . Naturens metoder . 13 (2): 108-109. DOI : 10.1038/nmeth.3729 . PMID26820542 . _ S2CID 205424566 . Arkiveret fra originalen 2021-01-22 . Hentet 2021-01-20 . Forældet parameter brugt |deadlink=( hjælp )
↑ Hedges, Larry (1987). "Hvor hård er hård videnskab, hvor blød er blød videnskab" . Amerikansk psykolog . 42 (5): 443. CiteSeerX 10.1.1.408.2317 . DOI : 10.1037/0003-066x.42.5.443 .
↑ Hunt, Morton. Sådan gør videnskaben status: historien om metaanalyse . - New York: The Russell Sage Foundation, 1997. - ISBN 978-0-87154-398-1 .
↑ Fidler, Fiona (2004). "Redaktører kan lede forskere til konfidensintervaller, men kan ikke få dem til at tænke" . Psykologisk Videnskab . 15 (2): 119-126. DOI : 10.1111/j.0963-7214.2004.01502008.x . PMID 14738519 . S2CID 21199094 .
↑ Cumming, Geoff ESCI (Exploratory Software for Confidence Intervals) . Hentet 20. januar 2021. Arkiveret fra originalen 29. december 2013. (ubestemt)
↑ Udgivelsesmanual fra American Psychological Association, sjette udgave . Dato for adgang: 17. maj 2013. Arkiveret fra originalen 5. marts 2013. (ubestemt)
↑ Ensartede krav til manuskripter indsendt til biomedicinske tidsskrifter (downlink) . Hentet 17. maj 2013. Arkiveret fra originalen 15. maj 2013. (ubestemt)
↑ Ændring af måden, vi rapporterer, fortolker og diskuterer vores resultater på, for at genopbygge tilliden til vores forskning . Hentet 20. januar 2021. Arkiveret fra originalen 22. januar 2021. (ubestemt)
↑ Cumming, Geoff. Introduktion til den nye statistik: Estimation, Open Science og Beyond / Geoff Cumming, Robert Calin-Jageman. - Routledge, 2016. - ISBN 978-1138825529 .
↑ 12 Gardner , MJ; Altman, DG (1986-03-15). "Konfidensintervaller frem for P-værdier: estimering snarere end hypotesetestning" . British Medical Journal (Clinical Research Ed.) . 292 (6522): 746-750. DOI : 10.1136/bmj.292.6522.746 . ISSN 0267-0623 . PMC 1339793 . PMID 3082422 .
↑ Ho, Joses; Tumkaya; Arial; Choi; Claridge-Chang (2018). "Bevægelse ud over P-værdier: Hverdagsdataanalyse med estimeringsplot" . bioRxiv : 377978. doi : 10.1101 /377978 . Arkiveret fra originalen 2018-07-28 . Hentet 2021-01-20 . Forældet parameter brugt |deadlink=( hjælp )
↑ Baril GL, Cannon JT Hvad er sandsynligheden for, at nulhypotesetestning er meningsløs? (engelsk). - 1995.
↑ Cohen, Jacob (1994). "Jorden er rund (p <.05)". Amerikansk psykolog . 49 (12): 997-1003. DOI : 10.1037/0003-066X.49.12.997 .
↑ Ellis, Paul. Den essentielle guide til effektstørrelser: statistisk kraft, metaanalyse og fortolkning af forskningsresultater. — Cambridge: Cambridge University Press, 2010.
↑ The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. - Aldine Transaction, 2006. - ISBN 978-0202308791 .
↑ Cumming, Geoff Dans af p-værdierne . Hentet 20. januar 2021. Arkiveret fra originalen 13. februar 2021. (ubestemt)
↑ Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). "Statistisk kognition: Mod evidensbaseret praksis i statistik og statistikundervisning". Statistics Education Research Journal . 7 :20-39.