En statistik er en målbar numerisk funktion af en prøve , der ikke afhænger af de ukendte parametre for fordelingen af prøveelementer.
Lad et tilfældigt udsnit af observationer gives . Som regel, da vi taler om problemer med matematisk statistik , er fordelingen af elementerne i denne prøve ikke fuldstændig kendt for forskeren (for eksempel indeholder den ukendte numeriske parametre).
En statistik er en vilkårlig målbar samplingsfunktion , der ikke afhænger af ukendte fordelingsparametre.
Betingelsen for målbarhed af statistik betyder, at denne funktion er en tilfældig variabel , det vil sige, at sandsynligheden for, at den falder i intervaller og andre Borel-sæt på linjen bestemmes.
Det mest meningsfulde aspekt af dette koncept, som adskiller det fra andre tilfældige variabler, der afhænger af stikprøven, er, at denne funktion ikke afhænger af ukendte parametre, det vil sige, at forskeren ved hjælp af de data, han har til sin rådighed, kan finde værdien af denne funktion, og derfor basere på denne værdi af vurderingen og andre statistiske konklusioner.
Antag, at der er en numerisk stikprøve , hvis elementer har en normalfordeling . Antag, at værdien af parameteren ( matematisk forventning ) er kendt, det vil sige, at det er et bestemt tal, og værdien af standardafvigelsen er ukendt (og skal estimeres). Følgende statistik kan bruges til dette:
Men hvis værdien af parameteren også er ukendt, er funktionen ikke en statistik. I dette tilfælde kan den stadig studeres teoretisk (for eksempel for at bevise, at den matematiske forventning er ), men dens numeriske værdi kan ikke beregnes, så den kan ikke bruges til at opnå direkte statistiske konklusioner. I dette tilfælde er parameterestimatet konstrueret på en anden måde (se nedenfor).
Følgende er eksempler på nogle almindeligt anvendte statistikker. De antager alle, at observationerne er numeriske, .
I de senere år er statistikken over objekter af ikke-numerisk karakter også blevet aktivt udviklet .
Selektiv asymmetrikoefficient :
.Hvis fordelingstætheden er symmetrisk, så . Hvis den venstre hale af fordelingen er "tyngre", så , hvis den højre hale er "tyngre", så .
Prøveskævhedsfaktoren bruges til at teste fordelingen for symmetri , såvel som en grov foreløbig test for normalitet . Det giver dig mulighed for at afvise, men tillader dig ikke at acceptere hypotesen om normalitet.
Prøvekoefficient for kurtosis :
.Normalfordelingen har nul kurtosis :.
Hvis halerne af fordelingen er "lettere", og toppen er "skarpere" end en normalfordeling, så .
Hvis halerne af fordelingen er "tyngre", og toppen er mere "fladet" end normalfordelingens, så .
Prøveudtagningskoefficienten for kurtosis bruges ofte som en grov indledende test for normalitet . Det giver dig mulighed for at afvise, men tillader dig ikke at acceptere hypotesen om normalitet.
Den empiriske fordeling af en tilfældig variabel , konstrueret ud fra en tilfældig stikprøve , er en funktion:
.Ved enhver fast værdi kan betragtes som en statistik.
Ordinalstatistik er baseret på beregningen af variationsrækken , som er opnået fra den originale prøve ved at bestille dens elementer i stigende rækkefølge:
.Værdien kaldes th ordens statistik.
Værdien kaldes prøveelementets rang , hvis .
En rangstatistik er enhver statistik, der er en funktion af elementrækker , ikke deres værdier . Overgangen fra værdier til deres rækker giver dig mulighed for at bygge ikke-parametriske statistiske test , der ikke er afhængige af a priori antagelser om prøvens fordelingsfunktion. De har et meget bredere anvendelsesområde end parametriske statistiske tests .
En analog af prøvegennemsnittet er den gennemsnitlige rangering:
Mange rangstatistikker, der anvendes i praksis, tilhører familien af lineære rangstatistikker eller nærmer sig asymptotisk lineære som . Lineær rangstatistik i det generelle tilfælde har formen:
,hvor er en vilkårlig given numerisk matrix af størrelse .