Bootstrap (statistik)

Bootstrap [1] ( engelsk bootstrap ) i statistik er en praktisk computermetode til at studere fordelingen af statistik over sandsynlighedsfordelinger , baseret på multiple generationer af prøver ved Monte Carlo-metoden baseret på den eksisterende prøve [2] . Giver dig mulighed for nemt og hurtigt at evaluere en lang række statistikker ( konfidensintervaller , varians , korrelation og så videre) for komplekse modeller.

Konceptet blev introduceret i 1977 af Bradley Efron (den første publikation går tilbage til 1979 [3] ). Essensen af metoden er at opbygge en empirisk fordeling baseret på den eksisterende stikprøve . Ved at bruge denne fordeling som en teoretisk sandsynlighedsfordeling er det muligt at generere et næsten ubegrænset antal pseudo-samples af vilkårlig størrelse, for eksempel den samme som den oprindelige, ved hjælp af en pseudo-tilfældig talgenerator. På et sæt pseudosampler kan man ikke kun evaluere de analyserede statistiske karakteristika, men også studere deres sandsynlighedsfordelinger. Således er det for eksempel muligt at estimere variansen eller kvantiterne af enhver statistik, uanset dens kompleksitet. Denne metode er en metode til ikke-parametrisk statistik .

Sammen med "jackknife"-metoderne udgør krydsvalidering og permutationstest ( eng. exact test ) en klasse af resamplinggenereringsmetoder ( eng. resampling ).

Etymologi

Ordet stammer fra udtrykket: "At trække sig over et hegn ved sine støvlestropper." (bogstaveligt talt - "at komme over hegnet ved at trække i stropperne på dine støvler" (se billedet til højre). For russisktalende mennesker vil historien om baron Munchausen være tættere på, som trak sig i håret, trak sig og sin hest ud af sumpen.

Selve bootstrap-anglicismen bruges på mange vidensområder, hvor du skal formidle betydningen af at få noget "gratis" eller på magisk vis få noget værd ud af ingenting. Inden for statistik er den nærmeste analog af udtrykket med hensyn til etymologi "selvtrækkende".

Indledende eksempel

Lad der være to observationer:

(x_{1},y_{1})=(1,1),\ (x_{2},y_{2})=(2,3)

Antag, at vi skal estimere en parameter i en regression af y på x :

{\displaystyle y_{i}=\theta x_{i}+\epsilon _{i))

Parameterestimatet opnået ved mindste kvadraters metode vil være lig med

{\hat {\theta }}={\frac {x_{1}y_{1}+x_{2}y_{2}}{x_{1}^{2}+x_{2}^{ 2}}}={\frac {1\ gange 1+2\ gange 3}{1^{2}+2^{2}}}={\frac {7}{5}}

Den empiriske fordelingsfunktion er i dette tilfælde lig med

(x,y)'={\begin{cases}(1,1)',\quad p=1/2\\(2,3)',\quad p=1/2\\\end {cases}}

I dette tilfælde vil data fra to observationer med hensyn til den empiriske fordeling blive fordelt som følger:

(x_{1},y_{1})',(x_{2},y_{2})'={\begin{cases}(1,1)',(1,1)',\ quad p=1/4\\(1,1)',(2,3)',\quad p=1/4\\(2,3)',(1,1)',\quad p=1 /4\\(2,3)',(2,3)',\quad p=1/4\\\end{cases}}

Dette er bootstrap-distributionen. Dernæst kan vi finde fordelingen af OLS-estimatet:

{\hat {\theta }}_{2}^{*}={\begin{cases}1,\quad \quad p=1/4\\7/5,\quad p=1/2 \\3/2,\quad p=1/4\\\end{cases}}

Ansøgning

Bootstrappen bruges til at korrigere bias, teste hypoteser, opbygge konfidensintervaller.

Bootstrap-konfidensinterval: En algoritme

Lad der være en stikprøve fra den generelle befolkning , og det er nødvendigt at estimere parameteren . Det er nødvendigt at vælge antallet af pseudo-prøver, der vil blive dannet fra elementerne i den originale prøve med retur. For hver af pseudo -prøverne beregnes en pseudo-statistik . $(z_{1};z_{2};\dots ;z_{n})$ $\theta$ $B$ $(z_{1}^{*};z_{2}^{*};\dots ;z_{n}^{*})_{b},b=1,2,\dots ,B$ ${\hat {\theta }}_{b}^{*}$

Pseudo-statistikker er sorteret fra mindste til største. Kvantiler tager værdier . De bruges til at konstruere et konfidensinterval. ${\hat {\theta }}_{1}^{*},{\hat {\theta}}_{2}^{*},\dots,{\hat {\theta}}_{ B}^{*}$ $q_{\alpha _{1}}^{*},q_{1-\alpha _{2}}^{*}$ ${\hat {\theta }}_{[B\alpha _{1}]}^{*},{\hat {\theta}}_{[B(1-\alpha _{2}) +1]}^{*}$

Noter

↑ Også bootstrap , bootstrap , bootstrapping , bootstrapping .
↑ アーカイブされたコピー. Hentet 23. marts 2007. Arkiveret fra originalen 12. juli 2012. (ubestemt)
↑ Efron, 1979 .

Litteratur

Stanislav Anatoliev . Økonometri for avancerede. Foredragskursus. - 2002.
Bradley Efron . Bootstrap Methods: Another Look at the Jackknife // Annals of Statistics. - 1979. - Bd. 7 , nr. 1 . - S. 1-26 . — ISSN 0090-5364 . - doi : 10.1214/aos/1176344552 .

Links

Bootstrap tutorial fra ICASSP 99 (downlink siden 13-05-2013 [3451 dage] - historie ) : Tutorial fra et signalbehandlingsperspektiv
Bootstrap sampling tutorial ved hjælp af MS Excel
Animationer til bootstrapping iid-data (downlink siden 13-05-2013 [3451 dage] - historie ) af Yihui Xie ved hjælp af R
Bootstrap tutorial

I bibliografiske kataloger	BNF : 12378257v J9U : 987007536908405171 LCCN : sh91004766 NKC : ph225449