Bagning

Bootstrap-aggregering , eller bagging , er en kompositorisk maskinlæringsmetaalgoritme designet til at forbedre stabiliteten og nøjagtigheden af ​​maskinlæringsalgoritmer, der bruges til statistisk klassificering og regression . Algoritmen reducerer også varians og hjælper med at undgå overfitting . Selvom det generelt anvendes til beslutningstræbaserede maskinlæringsmetoder , kan det bruges med enhver form for metode. Bagning er en særlig type model, som gennemsnittet .

Beskrivelse af teknologi

Hvis der gives et standard træningssæt af størrelse n genererer poser m nye træningssæt , hver af størrelse n′ , ved at udtage prøver fra D jævnt og backtracking . Med tilbagesporing kan nogle observationer gentages i hver . Hvis n ′= n , så forventes for store n at sættet har en (1 - 1/ e ) (≈63,2%) andel af unikke forekomster fra D , resten er gentagelser [1] . Denne type sampling er kendt som bootstrap - sampling. Disse m modeller udjævnes ved hjælp af ovenstående m bootstrap-eksempler og kombineres med gennemsnit (til regression) eller afstemning (til klassificering).

Bagging fører til "forbedring af ustabile procedurer" [2] , som omfatter for eksempel kunstige neurale netværk , klassifikations- og regressionstræer og delmængdeudvælgelse i lineær regression [3] . En interessant anvendelse af poser, der viser forbedring i billedbehandling, er vist i artikler af Sahu, Apley et al. [4] [5] . På den anden side kan metoden en smule forringe ydeevnen af ​​stabile metoder såsom K-nærmeste naboer [2] .

Eksempel: Temperaturafhængighed af ozonkoncentration

For at illustrere de grundlæggende principper for poser, er nedenfor en analyse af forholdet mellem ozon og temperatur (data hentet fra Russevs bogog Leroy [6] . Analysen blev udført i programmeringssproget R ).

Forholdet mellem temperatur og ozon i dette datasæt er naturligvis ikke-lineært. For at beskrive dette forhold blev der brugt LOESS- udglattere(med en båndbredde på 0,5). I stedet for at bygge en enkelt glattere fra hele datasættet, blev 100 bootstrap -dataeksempler udtrukket. Hver prøve er forskellig fra det originale datasæt, men de er stadig de samme i fordeling og varians. For hver bootstrap-prøve blev LOESS-glatteren påført. Derefter foretages en forudsigelse ud fra data baseret på disse 100 udjævninger. De første 10 udjævninger er vist som grå linjer i nedenstående figur. Linjerne ser ud til at være meget bølgede og lider af dataovertilpasning - båndresultatet er for lille.

Tager vi gennemsnittet af 100 udjævnere, der blev anvendt på undersæt af det originale datasæt, får vi den sammensatte prædiktor (rød linje). Det er klart, at middelværdien er mere robust og ikke så tilbøjelig til at overfitte .

Historie

Bagging (fra engelsk  Bagging = B ootstrap agg regating ) blev foreslået af Leo Breiman i 1994 for at forbedre klassificeringen ved at kombinere klassificeringen af ​​tilfældigt genererede træningssæt. Se teknisk rapport #421 [3] .

Se også

Noter

  1. Aslam, Popa, Rivest, 2007 .
  2. 1 2 Breiman, 1996 , s. 123-140.
  3. 1 2 Breiman, 1994 .
  4. Sahu, Runger, Apley, 2011 , s. 1-7.
  5. Shinde, Sahu, Apley, Runger, 2014 .
  6. Rousseeuw, Leroy, 1987 , s. 84-93.

Litteratur