Statistik (stikprøvefunktion)

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 28. november 2019; verifikation kræver 1 redigering .

En statistik er en målbar numerisk funktion af en prøve , der ikke afhænger af de ukendte parametre for fordelingen af prøveelementer.

Definition

Lad et tilfældigt udsnit af observationer gives . Som regel, da vi taler om problemer med matematisk statistik , er fordelingen af elementerne i denne prøve ikke fuldstændig kendt for forskeren (for eksempel indeholder den ukendte numeriske parametre). $x^{m}=(x_{1},\ldots,x_{m})$ $x_{i}\i X$

En statistik er en vilkårlig målbar samplingsfunktion , der ikke afhænger af ukendte fordelingsparametre. $T:X^{m}\to {\mathbb {R}}$

Betingelsen for målbarhed af statistik betyder, at denne funktion er en tilfældig variabel , det vil sige, at sandsynligheden for, at den falder i intervaller og andre Borel-sæt på linjen bestemmes.

Det mest meningsfulde aspekt af dette koncept, som adskiller det fra andre tilfældige variabler, der afhænger af stikprøven, er, at denne funktion ikke afhænger af ukendte parametre, det vil sige, at forskeren ved hjælp af de data, han har til sin rådighed, kan finde værdien af denne funktion, og derfor basere på denne værdi af vurderingen og andre statistiske konklusioner.

Eksempel

Antag, at der er en numerisk stikprøve , hvis elementer har en normalfordeling . Antag, at værdien af parameteren ( matematisk forventning ) er kendt, det vil sige, at det er et bestemt tal, og værdien af standardafvigelsen er ukendt (og skal estimeres). Følgende statistik kan bruges til dette: $x^{m}=(x_{1},x_{2},\ldots,x_{m})$ ${\mathcal {N}}(a,\sigma )$ $-en$ $\sigma$

T={\frac {1}{m}}\sum _{{i=1}}^{m}(x_{i}-a)^{2}.

Men hvis værdien af parameteren også er ukendt, er funktionen ikke en statistik. I dette tilfælde kan den stadig studeres teoretisk (for eksempel for at bevise, at den matematiske forventning er ), men dens numeriske værdi kan ikke beregnes, så den kan ikke bruges til at opnå direkte statistiske konklusioner. I dette tilfælde er parameterestimatet konstrueret på en anden måde (se nedenfor). $-en$ $T$ $\sigma ^{2}$ $\sigma$

Følgende er eksempler på nogle almindeligt anvendte statistikker. De antager alle, at observationerne er numeriske, . $x_{i}$ $X={\mathbb {R}}$

I de senere år er statistikken over objekter af ikke-numerisk karakter også blevet aktivt udviklet .

Statistik brugt til at estimere momenter (sample moments)

Prøvemiddelværdi : ${\bar x}={\frac 1m}\sum _{{i=1}}^{m}x_{i}.$
Prøvevarians : $s^{2}=s_{m}^{2}={\frac {1}{m))\sum _{i=1}^{m}\left(x_{i}-{\ søjle {x}}\right)^{2}$ .
Uvildig estimator af varians: $s^{2}=s_{m}^{2}={\frac 1{m-1}}\sum _{{i=1}}^{m}\left(x_{i}-{\bar x}\højre)^{2}.$
Prøvemoment af th orden (prøvegennemsnit er tidspunktet af første orden): $k$ $M_{k}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}^{k}$ .
Eksemplets centrale moment af th orden (stikprøvevariansen er anden ordens centrale moment): $k$ ${\overset {\circ }{M}}_{k}={\frac {1}{m}}\sum _{i=1}^{m}\left(x_{i}-{ \bar {x}}\right)^{k}$ .
Uvildige skøn over centrale øjeblikke: ${\overset {\bullet }{M}}_{2}={\frac {m}{m-1}}{\overset {\circ }{M}}_{2}$ ; ${\overset {\bullet }{M}}_{3}={\frac {m^{2}}{(m-1)(m-2))){\overset {\circ }{ M}}_{3}$ ; ${\overset {\bullet }{M}}_{4}={\frac {m(m^{2}-2m+3){\overset {\circ }{M}}_{4} +3m(2m-3){\overset {\cirkel}{M}}_{2}^{2}}{(m-1)(m-2)(m-3)))$ .

Selektiv skævhedsfaktor

Selektiv asymmetrikoefficient :

\gamma _{1}={\frac ({\overset {\bullet }{M}}_{3}}({\overset {\bullet}{M}}_{2}^{3/ 2}}}={\frac {\sqrt {m(m-1)}}{m-2}}\venstre({\frac {{\overset {\circ }{M}}_{3}}{ {\overset {\circ }{M}}_{2}^{3/2}}}\right)

Hvis fordelingstætheden er symmetrisk, så . Hvis den venstre hale af fordelingen er "tyngre", så , hvis den højre hale er "tyngre", så . $\gamma _{1}=0$ $\gamma _{1}>0$ $\gamma _{1}<0$

Prøveskævhedsfaktoren bruges til at teste fordelingen for symmetri , såvel som en grov foreløbig test for normalitet . Det giver dig mulighed for at afvise, men tillader dig ikke at acceptere hypotesen om normalitet.

Prøvekoefficient for kurtosis

Prøvekoefficient for kurtosis :

\gamma _{2}={\frac ({\overset {\bullet }{M}}_{4}}({\overset {\bullet}{M}}_{2}^{2} }}-3={\frac {m^{2}-1}{(m-2)(m-3)))\venstre({\frac {{\overset {\circ }{M}}_{ 4}}{{\overset {\circ }{M}}_{2}^{2}}}-3+{\frac {6}{m+1}}\right)

Normalfordelingen har nul kurtosis :. $\gamma _{2}=0$

Hvis halerne af fordelingen er "lettere", og toppen er "skarpere" end en normalfordeling, så . $\gamma _{2}>0$

Hvis halerne af fordelingen er "tyngre", og toppen er mere "fladet" end normalfordelingens, så . $\gamma _{2}<0$

Prøveudtagningskoefficienten for kurtosis bruges ofte som en grov indledende test for normalitet . Det giver dig mulighed for at afvise, men tillader dig ikke at acceptere hypotesen om normalitet.

Statistik relateret til den empiriske fordeling

Den empiriske fordeling af en tilfældig variabel , konstrueret ud fra en tilfældig stikprøve , er en funktion: $x$ $x^{m}$

\displaystyle F_{m}(x)={\frac {1}{m}}\sum _{i=1}^{m}\left[x_{i}<x\right]

Ved enhver fast værdi kan betragtes som en statistik. $a\in {\mathbb {R}}$ $F_{m}(a)$

Ordrestatistik

Ordinalstatistik er baseret på beregningen af variationsrækken , som er opnået fra den originale prøve ved at bestille dens elementer i stigende rækkefølge: $x^{m}=(x_{1},\ldots,x_{m})$

{\displaystyle x^{(1)}\leqslant x^{(2)}\leqslant \cdots \leqslant x^{(m)))

Værdien kaldes th ordens statistik. $x^{{(k)}}$ $k$

Selektiv - kvantil ved : $\lambda$ $0<\lambda<1$ $x^{{(m\lambda +1)}}.$
Prøveområde: ${\displaystyle \Delta =x^{(m)}-x^{(1)))$ .
Prøve median : $\mu ={\begin{cases}{\frac {1}{2}}\left(x^{(k)}+x^{(k+1)}\right),&m=2k; \\x^{(k+1)},&m=2k+1\end{cases}}$ .

Rangstatistikker

Værdien kaldes prøveelementets rang , hvis . $r_{i}$ $x_{i}$ $x_{i}=x^{{(r_{i})}}$

En rangstatistik er enhver statistik, der er en funktion af elementrækker , ikke deres værdier . Overgangen fra værdier til deres rækker giver dig mulighed for at bygge ikke-parametriske statistiske test , der ikke er afhængige af a priori antagelser om prøvens fordelingsfunktion. De har et meget bredere anvendelsesområde end parametriske statistiske tests . $r_{i}$ $x_{i}$

Gennemsnitlig rangering

En analog af prøvegennemsnittet er den gennemsnitlige rangering:

R={\frac 1m}\sum _{{i=1}}^{m}r_{i}.

Lineær rankingsstatistik

Mange rangstatistikker, der anvendes i praksis, tilhører familien af lineære rangstatistikker eller nærmer sig asymptotisk lineære som . Lineær rangstatistik i det generelle tilfælde har formen: $m\to\infty$

T=\sum _{i=1}^{m}a(i,r_{i})

hvor er en vilkårlig given numerisk matrix af størrelse . $a(i,j)$ $m \ gange m$

Litteratur

Sandsynlighed og matematisk statistik: Encyclopedia / Ed. Yu. V. Prokhorova. - M .: Great Russian Encyclopedia, 2003. - 912 s.
Kobzar AI anvendt matematisk statistik. — M.: Fizmatlit, 2006.
Forelæsningskurser REC / Matematisk Institut. V. A. Steklov RAS (MIAN). - M.: MIAN, 2009. Udgave. 14: Forelæsninger om den asymptotiske teori om rangkriterier / Chibisov D. M. - 176 s.
Levin B.R. Teoretisk grundlag for statistisk radioteknik. – 3. udg. revideret og yderligere - M .: Radio og kommunikation, 1989. - 656 s.: ill. ISBN 5-256-00264-3