Bagning

Bootstrap-aggregering , eller bagging , er en kompositorisk maskinlæringsmetaalgoritme designet til at forbedre stabiliteten og nøjagtigheden af maskinlæringsalgoritmer, der bruges til statistisk klassificering og regression . Algoritmen reducerer også varians og hjælper med at undgå overfitting . Selvom det generelt anvendes til beslutningstræbaserede maskinlæringsmetoder , kan det bruges med enhver form for metode. Bagning er en særlig type model, som gennemsnittet .

Beskrivelse af teknologi

Hvis der gives et standard træningssæt $D$ af størrelse n genererer poser m nye træningssæt , hver af størrelse n′ , ved at udtage prøver fra D jævnt og backtracking . Med tilbagesporing kan nogle observationer gentages i hver . Hvis n ′= n , så forventes for store n at sættet har en (1 - 1/ e ) (≈63,2%) andel af unikke forekomster fra D , resten er gentagelser [1] . Denne type sampling er kendt som bootstrap - sampling. Disse m modeller udjævnes ved hjælp af ovenstående m bootstrap-eksempler og kombineres med gennemsnit (til regression) eller afstemning (til klassificering). $D_{i}$ $D_{i}$ $D_{i}$

Bagging fører til "forbedring af ustabile procedurer" [2] , som omfatter for eksempel kunstige neurale netværk , klassifikations- og regressionstræer og delmængdeudvælgelse i lineær regression [3] . En interessant anvendelse af poser, der viser forbedring i billedbehandling, er vist i artikler af Sahu, Apley et al. [4] [5] . På den anden side kan metoden en smule forringe ydeevnen af stabile metoder såsom K-nærmeste naboer [2] .

Eksempel: Temperaturafhængighed af ozonkoncentration

For at illustrere de grundlæggende principper for poser, er nedenfor en analyse af forholdet mellem ozon og temperatur (data hentet fra Russevs bogog Leroy [6] . Analysen blev udført i programmeringssproget R ).

Forholdet mellem temperatur og ozon i dette datasæt er naturligvis ikke-lineært. For at beskrive dette forhold blev der brugt LOESS- udglattere(med en båndbredde på 0,5). I stedet for at bygge en enkelt glattere fra hele datasættet, blev 100 bootstrap -dataeksempler udtrukket. Hver prøve er forskellig fra det originale datasæt, men de er stadig de samme i fordeling og varians. For hver bootstrap-prøve blev LOESS-glatteren påført. Derefter foretages en forudsigelse ud fra data baseret på disse 100 udjævninger. De første 10 udjævninger er vist som grå linjer i nedenstående figur. Linjerne ser ud til at være meget bølgede og lider af dataovertilpasning - båndresultatet er for lille.

Tager vi gennemsnittet af 100 udjævnere, der blev anvendt på undersæt af det originale datasæt, får vi den sammensatte prædiktor (rød linje). Det er klart, at middelværdien er mere robust og ikke så tilbøjelig til at overfitte .

Historie

Bagging (fra engelsk Bagging = B ootstrap agg regating ) blev foreslået af Leo Breiman i 1994 for at forbedre klassificeringen ved at kombinere klassificeringen af tilfældigt genererede træningssæt. Se teknisk rapport #421 [3] .

Se også

Noter

↑ Aslam, Popa, Rivest, 2007 .
↑ 1 2 Breiman, 1996 , s. 123-140.
↑ 1 2 Breiman, 1994 .
↑ Sahu, Runger, Apley, 2011 , s. 1-7.
↑ Shinde, Sahu, Apley, Runger, 2014 .
↑ Rousseeuw, Leroy, 1987 , s. 84-93.

Litteratur

Rousseeuw PJ, Leroy AM Robust regression og outlier-detektion. - New York, Chichester, Brisbane, Toronto, Singapure: John Willey & Sons, 1987. - ISBN 0-471-85233-3 .
Javed A. Aslam, Raluca A. Popa, Ronald L. Rivest. Om estimering af størrelsen og pålideligheden af en statistisk revision // Proceedings of the Electronic Voting Technology Workshop (EVT '07) . - Boston, MA, 2007.
Sahu A., Runger G., Apley D. Billednedtoning med en flerfaset kerne-principal komponent tilgang og en ensembleversion // IEEE Applied Imagery Pattern Recognition Workshop. - 2011. - S. 1-7.
Amit Shinde, Anshuman Sahu, Daniel Apley, George Runger. Forbilleder til variationsmønstre fra Kernel PCA og Bagging // IIE-transaktioner. - 2014. - T. 46 , no. 5 .
Leo Breiman. Bagging prædiktorer // Machine Learning . - 1996. - T. 24 , no. 2 . — S. 123–140 . - doi : 10.1007/BF00058655 .
Breiman L. Bagging Predictors . Teknisk rapport nr. 421. - 1994.
Alfaro E., Gámez M., García N. adabag: En R-pakke til klassificering med AdaBoost.M1, AdaBoost-SAMME og Bagging . – 2012.

Machine learning og data mining
Opgaver	Klassifikationsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-Net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG