Tilfældig skovmetode

Den tilfældige skovmetode er en maskinlæringsalgoritme foreslået af Leo Breiman [ 1] [2] og Adele Cutler , som består i at bruge et udvalg (ensemble) af beslutningstræer . Algoritmen kombinerer to hovedideer: Breiman- bagging - metoden og random subspace-metoden .foreslået af Tin Kam Ho. Algoritmen bruges til klassificering, regression og klyngeproblemer. Hovedideen er at bruge et stort ensemble af beslutningstræer , som hver i sig selv giver en meget lav kvalitet af klassificering, men på grund af deres store antal er resultatet godt.

Klassificeringsindlæringsalgoritme

Lad træningssættet bestå af N prøver, dimensionen af trækrummet er M , og parameteren m (normalt i klassifikationsproblemer ) er givet som et ufuldstændigt antal træk til læring. $m\ca {\sqrt {M}}$

Den mest almindelige måde at bygge ensembletræer på - bagging ( eng. bagging , forkortelse for eng. bootstrap aggregation) - udføres som følger:

Lad os generere en tilfældig gentaget delprøve af størrelse fra træningsprøven. Nogle prøver vil falde ind i det to eller flere gange, mens prøver i gennemsnit (for store ca , hvor er bunden af den naturlige logaritme ) ikke er inkluderet i sættet eller ikke er valgt ( engelsk out-of-bag ). $N$ ${\displaystyle N(1-1/N)^{N))$ $N$ $N/e$ $e$
Lad os bygge et beslutningstræ, der klassificerer prøverne af denne delprøve, og i løbet af oprettelsen af den næste knude i træet, vil vi vælge et sæt funktioner, som opdelingen foretages på grundlag af (ikke fra alle M funktioner , men kun fra m tilfældigt udvalgte). Valget af det bedste af disse m funktioner kan gøres på forskellige måder. Breimans oprindelige metode bruger Gini-kriteriet , som også bruges i CART -beslutningstræalgoritmen . I nogle implementeringer af algoritmen bruges informationsforstærkningskriteriet i stedet for . [3]
Træet bygges, indtil delprøvetagningen er fuldstændig opbrugt og er ikke udsat for beskæringsproceduren ( eng. pruning - afskæring af grene), i modsætning til beslutningstræerne for algoritmer som CART eller C4.5 .

Klassificeringen af objekter udføres ved afstemning: hvert træ i komiteen tildeler objektet, der klassificeres, til en af klasserne, og den klasse, der har det største antal træer, der er stemt på, vinder.

Det optimale antal træer vælges på en sådan måde, at klassificeringsfejlen på testprøven minimeres. Hvis den er fraværende, minimeres fejlestimatet på prøver, der ikke er inkluderet i sættet.

Vurdering af betydningen af variabler

Tilfældige skove opnået ved de ovenfor beskrevne metoder kan naturligvis bruges til at vurdere betydningen af variable i regressions- og klassifikationsproblemer . Den følgende måde at foretage en sådan vurdering blev beskrevet af Breiman.

Det første trin i at evaluere vigtigheden af en variabel i et træningssæt er at træne en tilfældig skov på det sæt. Under modelbygningsprocessen registreres en såkaldt out-of-bag-fejl for hvert element i træningssættet. ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ (fejl fra umarkerede elementer). Derefter beregnes gennemsnittet af denne fejl for hver enhed over hele den tilfældige skov.

For at evaluere vigtigheden af den -th parameter efter træning, blandes værdierne af den -th parameter for alle registreringer af træningssættet, og out-of-bag-fejlen beregnes igen. Vigtigheden af parameteren er estimeret ved at tage et gennemsnit af forskellen i out-of-bag fejlrater over alle træer før og efter blanding af værdierne. I dette tilfælde normaliseres værdierne af sådanne fejl til standardafvigelsen . $j$ $j$

Prøveparametre, der producerer større værdier, anses for at være vigtigere for træningssættet. Metoden har en potentiel ulempe - for kategoriske variable med et stort antal værdier har metoden en tendens til at betragte sådanne variable som vigtigere. Delvis blanding af værdier i dette tilfælde kan reducere indflydelsen af denne effekt. [4] [5] Fra grupperne af korrelerede parametre, hvis betydning viser sig at være den samme, udvælges de mindre grupper. [6]

Fordele

Evnen til effektivt at behandle data med et stort antal funktioner og klasser.
Ufølsomhed over for skalering (og generelt over for enhver monotone transformation) af egenskabsværdier.
Både kontinuerlige og diskrete funktioner behandles lige godt. Der er metoder til at konstruere træer ud fra data med manglende funktionsværdier.
Der findes metoder til at estimere betydningen af individuelle træk i en model.
Intern vurdering af modellens evne til at generalisere (test på ikke-udvalgte prøver).
Høj paralleliserbarhed og skalerbarhed .

Ulemper

Den store størrelse af de resulterende modeller. Der kræves hukommelse for at gemme modellen, hvor er antallet af træer. $O(K)$ $K$

Brug i videnskabelige artikler

Algoritmen bruges i videnskabelige artikler, for eksempel til at evaluere kvaliteten af Wikipedia- artikler [7] [8] [9] .

Noter

↑ Breiman, Leo . Tilfældige skove // Machine Learning : journal. - 2001. - Bd. 45 , nr. 1 . - S. 5-32 . - doi : 10.1023/A:1010933404324 . (engelsk) (dato for adgang: 7. juni 2009)
↑ Algoritmebeskrivelse på Leo Breimans hjemmeside Arkiveret 22. juni 2008. (engelsk) (dato for adgang: 7. juni 2009)
↑ En beskrivelse af træbygningsproceduren brugt i Apache Mahout Arkiveret 13. maj 2012 på Wayback Machine ( Åbnet 7. juni 2009)
↑ Deng, H.; Runger, G.; Tuv, E. (2011). Bias af vigtige mål for attributter og løsninger med flere værdier . Proceedings of the 21st International Conference on Artificial Neurale Networks (ICANN). pp. 293-300.
↑ Altmann A., Tolosi L., Sander O., Lengauer T. Permutation important:a corrected feature important measure (engelsk) // Bioinformatics : journal. - 2010. - doi : 10.1093/bioinformatics/btq134 .
↑ Tolosi L., Lengauer T. Klassifikation med korrelerede funktioner: upålidelighed af funktionsrangering og løsninger. (engelsk) // Bioinformatik: tidsskrift. - 2011. - doi : 10.1093/bioinformatics/btr300 .
↑ Węcel K., Lewoniewski W. Modeling the Quality of Attributes in Wikipedia Infoboxes // Lecture Notes in Business Information Processing : journal. - 2015. - 2. december ( bind 228 ). - S. 308-320 . - doi : 10.1007/978-3-319-26762-3_27 .
↑ Lewoniewski W., Węcel K., Abramowicz W. Kvalitet og betydning af Wikipedia-artikler på forskellige sprog // Informations- og softwareteknologier. ICIST 2016. Communications in Computer and Information Science: tidsskrift. - 2016. - 22. september ( bind 639 ). - s. 613-624 . - doi : 10.1007/978-3-319-46254-7_50 .
↑ Warncke-Wang M., Cosley D., Riedl J. Fortæl mig mere: En brugbar kvalitetsmodel for wikipedia // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : journal. - 2013. - doi : 10.1145/2491055.2491063 .

Litteratur

Hastie, T., Tibshirani R., Friedman J. Kapitel 15. Tilfældige skove // Elementerne i statistisk læring: Data Mining, Inferens og Forudsigelse . — 2. udg. - Springer-Verlag, 2009. - 746 s. - ISBN 978-0-387-84857-0 . .

Links

Implementeringer

Forfatterens implementering af Breiman og Cutler i Fortran 77
RandomForest - pakken til R er en porteret version af den originale forfatters kode i R
Partypakken til R indeholder en modifikation af algoritmen
Implementering af ændringen af algoritmen på alglib.sources.ru
FastRandomForest
Apache Mahout Arkiveret 2. april 2015 på Wayback Machine .

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG