Bootstrap (statistik)

Bootstrap [1] ( engelsk  bootstrap ) i statistik  er en praktisk computermetode til at studere fordelingen af ​​statistik over sandsynlighedsfordelinger , baseret på multiple generationer af prøver ved Monte Carlo-metoden baseret på den eksisterende prøve [2] . Giver dig mulighed for nemt og hurtigt at evaluere en lang række statistikker ( konfidensintervaller , varians , korrelation og så videre) for komplekse modeller.

Konceptet blev introduceret i 1977 af Bradley Efron (den første publikation går tilbage til 1979 [3] ). Essensen af ​​metoden er at opbygge en empirisk fordeling baseret på den eksisterende stikprøve . Ved at bruge denne fordeling som en teoretisk sandsynlighedsfordeling er det muligt at generere et næsten ubegrænset antal pseudo-samples af vilkårlig størrelse, for eksempel den samme som den oprindelige, ved hjælp af en pseudo-tilfældig talgenerator. På et sæt pseudosampler kan man ikke kun evaluere de analyserede statistiske karakteristika, men også studere deres sandsynlighedsfordelinger. Således er det for eksempel muligt at estimere variansen eller kvantiterne af enhver statistik, uanset dens kompleksitet. Denne metode er en metode til ikke-parametrisk statistik .

Sammen med "jackknife"-metoderne udgør krydsvalidering og permutationstest ( eng.  exact test ) en klasse af resamplinggenereringsmetoder ( eng.  resampling ).

Etymologi

Ordet stammer fra udtrykket: "At trække sig over et hegn ved sine støvlestropper." (bogstaveligt talt - "at komme over hegnet ved at trække i stropperne på dine støvler" (se billedet til højre). For russisktalende mennesker vil historien om baron Munchausen være tættere på, som trak sig i håret, trak sig og sin hest ud af sumpen.

Selve bootstrap-anglicismen bruges på mange vidensområder, hvor du skal formidle betydningen af ​​at få noget "gratis" eller på magisk vis få noget værd ud af ingenting. Inden for statistik er den nærmeste analog af udtrykket med hensyn til etymologi "selvtrækkende".

Indledende eksempel

Lad der være to observationer:

Antag, at vi skal estimere en parameter i en regression af y på x :

Parameterestimatet opnået ved mindste kvadraters metode vil være lig med

Den empiriske fordelingsfunktion er i dette tilfælde lig med

I dette tilfælde vil data fra to observationer med hensyn til den empiriske fordeling blive fordelt som følger:

Dette er bootstrap-distributionen. Dernæst kan vi finde fordelingen af ​​OLS-estimatet:

Ansøgning

Bootstrappen bruges til at korrigere bias, teste hypoteser, opbygge konfidensintervaller.

Bootstrap-konfidensinterval: En algoritme

Lad der være en stikprøve fra den generelle befolkning , og det er nødvendigt at estimere parameteren . Det er nødvendigt at vælge antallet af pseudo-prøver, der vil blive dannet fra elementerne i den originale prøve med retur. For hver af pseudo -prøverne beregnes en pseudo-statistik .

Pseudo-statistikker er sorteret fra mindste til største. Kvantiler tager værdier . De bruges til at konstruere et konfidensinterval.

Noter

  1. Også bootstrap , bootstrap , bootstrapping , bootstrapping .
  2. アーカイブされたコピー. Hentet 23. marts 2007. Arkiveret fra originalen 12. juli 2012.
  3. Efron, 1979 .

Litteratur

Links