Estimationsstatistik ( Estimation statistics ) er en tilgang til dataanalyse , der omfatter en kombination af metoder: effektstørrelse , konfidensintervaller , planlægningsnøjagtighed og metaanalyse til design af eksperimenter , analyse af data og fortolkning af resultater. [1] Denne tilgang adskiller sig fra nulhypotesens signifikanstest (NHST), som anses for mindre informativ. [2] [3] Scoringsstatistikken, eller simpelthen scoring , også kendt som ny statistik , [3] bruges i psykologi , medicinsk forskning, biovidenskab og en lang række andre eksperimentelle videnskaber, hvor der testes for betydningen af nulhypotesen er stadig almindelig tilgang [4] på trods af, at estimeringsstatistikker i løbet af de sidste par årtier er blevet anbefalet som den foretrukne tilgang. [5] [6]
Hovedformålet med estimatstatistikken er at rapportere effektstørrelsen (punktestimat) sammen med dets konfidensinterval , som er relateret til estimatets nøjagtighed. [7] Konfidensintervallet opsummerer rækken af sandsynlige værdier for hovedpopulationseffekten. Tilhængere af scoringsstatistikker foretrækker at rapportere effektstørrelser med deres konfidensintervaller i stedet for p-signifikansniveauer [8] og mener, at scoringsstatistikker bør erstatte signifikanstestmetoden til dataanalyse . [9]
Fysik har længe brugt metoden med vægtede gennemsnit , svarende til meta-analyse . [ti]
Estimationsstatistikkens historie begyndte med udviklingen af standardiserede effektstørrelser af Jacob Cohen i 1960'erne. De første undersøgelser ved hjælp af evaluerende statistik blev banebrydende af Gene W. Glass sammen med udviklingen af metaanalysemetoden i 1970'erne. [11] Siden da er estimeringsstatistiske metoder blevet forfinet af Larry Hedges, Michael Borenstein, Doug Altman, Martin Gardner, Jeff Cumming og andre. Systematisk gennemgang kombineret med metaanalyse er en beslægtet metode, der er meget brugt i medicinsk forskning. På trods af den udbredte brug af meta-analyse, er den scoring statistiske tilgang stadig ikke brugt på et konsekvent grundlag i mainstream biomedicinsk forskning. [fire]
I 1990'erne forbød redaktør Kenneth Rothman brugen af p-værdier i tidsskriftet Epidemiology ; forfatterne støttede initiativet, men det påvirkede ikke deres analytiske tænkning, når de forskede. [12]
For nylig er evalueringsstatistiske metoder blevet anvendt inden for områder som neurovidenskab , pædagogisk psykologi og psykologi . [13]
Publikationsretningslinjerne fra American Psychological Association anbefaler estimering (estimation) snarere end test (testning) af hypoteser. [14] Dokumentet Uniform Requirements for Manuscripts Submitted to Biomedical Journals giver en lignende anbefaling: "Undgå udelukkende at stole på statistisk hypotesetestning, såsom p-værdier , som ikke kan formidle vigtig information om effektstørrelser ." [femten]
I 2019 introducerede Society for Neuroscience -tidsskriftet eNeuro en politik, der anbefaler brugen af scorestatistikplot som den foretrukne metode til præsentation af data. [16]
Mange signifikanstest har en pendant i evalueringsstatistikker. [17] I næsten alle tilfælde kan testresultatet (eller dets p-værdi ) simpelthen erstattes med en effektstørrelse og en præcisionsscore . I stedet for at bruge Students t-test kan en analytiker f.eks. sammenligne to uafhængige grupper ved at beregne den gennemsnitlige forskel og dens 95 % konfidensinterval . Passende metoder kan bruges til parret t-test og flere sammenligninger. Tilsvarende skal analytikeren for regressionsanalyse rapportere bestemmelseskoefficienten (R 2 ) og modelligningen i stedet for modellens p-værdi .
Men tilhængere af evaluerende statistik anbefaler at analysere og præsentere data gennem datavisualisering ud over numeriske beregninger. [2] [6] [7] Eksempler på egnede visualiseringer er scatter-plot for regression og Gardner-Altman-plot for to uafhængige grupper. [18] Mens klassiske plots (såsom histogrammer , whisker-kasser og violinplot) ikke viser sammenligning, tilføjer partiturstatistikplot en anden akse for tydeligt at visualisere effektstørrelsen . [19]
Gardner-Altman middelforskelle plot blev først beskrevet af Martin Gardner og Doug Altman i 1986 [18] Dette statistiske plot viser data fra to uafhængige grupper. [6] Der er også en version af grafen, der er egnet til sammenkædede prøver . De vigtigste instruktioner til at konstruere dette diagram er: (1) plot alle observerede værdier for begge grupper side om side; (2) placer den anden akse til højre, forskyd den for at vise den gennemsnitlige forskelsskala ; og (3) plot den gennemsnitlige forskel med dets konfidensinterval som en markør med en fejlværdi på . [3] Gardner-Altman-plot kan genereres med brugerdefineret kode ved hjælp af pakkerne Ggplot2 , seaborn eller DABEST ; alternativt kan analytikeren bruge praktisk software såsom Estimation Stats -appen .
For flere grupper introducerede Jeff Cumming et ekstra panel til at plotte to eller flere gennemsnitsforskelle og deres konfidensintervaller , placeret under det første panel af observerede værdier [3] : dette arrangement gør det nemt at sammenligne gennemsnitsforskelle ("deltaer") på tværs af flere datagrupper. Cumming-plot kan genereres ved hjælp af ESCI , DABEST eller Estimation Stats -applikationen .
Udover middel forskel er der mange andre typer effektstørrelser med deres egne fordele i forhold til hinanden. Hovedtyperne omfatter Cohens d-type effektstørrelser og bestemmelseskoefficient (R 2 ) til regressionsanalyse . For ikke-normale fordelinger er der en række mere robuste måder at beregne effektstørrelser på , herunder Cliff-deltaet og Kolmogorov-Smirnov- statistikken .
Ved hypotesetestning er hovedformålet med statistisk beregning at opnå en p-værdi , sandsynligheden for at se et givet resultat eller et mere ekstremt resultat, hvis nulhypotesen antages at være sand. Hvis p -værdien er lav (normalt <0,05), rådes statistikeren til at forkaste nulhypotesen . Tilhængere af estimeringsstatistikker afviser gyldigheden af hypotesetestmetoden [ 3] [7] af følgende grunde:
Konfidensintervaller opfører sig forudsigeligt. Per definition har 95 % konfidensintervaller en 95 % chance for at fange populationsgennemsnittet (μ). Denne funktion forbliver den samme, når stikprøvestørrelsen øges ; det, der ændrer sig, er, at intervallet bliver mindre (mere præcist). Derudover er 95 % konfidensintervaller også 83 % forudsigelsesintervaller: Et enkelt eksperiment konfidensinterval har en 83 % chance for at fange gennemsnittet af ethvert fremtidigt eksperiment . [3] At kende 95 % konfidensintervallerne for et individuelt eksperiment giver således analytikeren et plausibelt interval for populationsmiddelværdien og plausible resultater fra eventuelle efterfølgende replikationseksperimenter .
Psykologiske undersøgelser af opfattelsen af statistik viser, at scoringsintervaller giver en mere præcis opfattelse af data end rapporter om p-værdier . [25]
Nøjagtigheden af estimatet er formelt defineret som 1/ varians og, som det er power , som stiger med stikprøvestørrelsen. Ligesom strøm er høj nøjagtighed arbejdskrævende. Ansøgninger om forskningsstøtte bør ideelt set omfatte en nøjagtigheds-/omkostningsanalyse. Tilhængere af estimeringsstatistikker mener, at nøjagtighedsplanlægning bør erstatte magt , da statistisk magt i sig selv er begrebsmæssigt relateret til signifikanstestning . [3]