Klyngeanalyse

Klyngeanalyse er en multidimensionel statistisk procedure, der indsamler data, der indeholder information om en prøve af objekter, og derefter arrangerer objekter i relativt homogene grupper [1] [2] [3] [4] . Klyngeproblemet refererer til statistisk bearbejdning og også til en bred klasse af uovervågede læringsproblemer .

De fleste forskere (se f.eks. [5] ) er tilbøjelige til at tro, at udtrykket "klyngeanalyse" ( engelsk klynge - bundt, koagel, bundle) for første gang blev foreslået af psykologen R. Tryon [6] . Efterfølgende opstod der en række begreber, som i dag anses for at være synonyme med begrebet "klyngeanalyse": automatisk klassifikation, botryologi.

Anvendelsesområdet for klyngeanalyse er meget bredt: det bruges i arkæologi , medicin , psykologi , kemi , biologi , offentlig administration , filologi , antropologi , marketing , sociologi , geologi og andre discipliner. Anvendelsens universalitet har imidlertid ført til fremkomsten af en lang række inkompatible termer, metoder og tilgange, der gør det vanskeligt entydigt at bruge og konsekvent fortolke klyngeanalyse.

Opgaver og betingelser

Klyngeanalyse udfører følgende hovedopgaver:

Udvikling af en typologi eller klassifikation.
Udforskning af nyttige konceptuelle skemaer til gruppering af objekter.
Generering af hypoteser baseret på dataudforskning.
Hypotesetestning eller forskning for at bestemme, om typer (grupper) identificeret på den ene eller anden måde faktisk er til stede i de tilgængelige data.

Uanset studieemnet involverer brugen af klyngeanalyse følgende trin:

Prøveudtagning til klyngedannelse. Det er underforstået, at det giver mening kun at gruppere kvantitative data.
Definition af et sæt variabler, som objekter i prøven vil blive evalueret efter, det vil sige et feature space.
Beregning af værdierne af et eller andet mål for lighed (eller forskel) mellem objekter.
Anvendelse af klyngeanalysemetoden til at skabe grupper af lignende objekter.
Validering af resultaterne af klyngeløsningen.

Du kan finde en beskrivelse af to grundlæggende krav til data - ensartethed og fuldstændighed. Homogenitet kræver, at alle klyngede enheder er af samme natur, beskrevet af et lignende sæt af karakteristika [7] . Hvis klyngeanalyse er forudgået af faktoranalyse , behøver prøven ikke at blive "repareret" - de angivne krav udføres automatisk af selve faktormodelleringsproceduren (der er en anden fordel - z-standardisering uden negative konsekvenser for prøven; hvis det udføres direkte til klyngeanalyse, det kan føre til at resultere i et fald i klarheden af adskillelsen af grupper). Ellers skal prøven justeres.

Typologi af klyngeproblemer

Input datatyper

Vejledende beskrivelse af objekter. Hvert objekt er beskrevet af et sæt af dets egenskaber, kaldet funktioner . Funktioner kan være numeriske eller ikke-numeriske.
Afstandsmatrix mellem objekter. Hvert objekt er beskrevet ved afstande til alle andre objekter i det metriske rum .
Lighedsmatrix mellem objekter [8] . Graden af lighed mellem objektet med andre objekter i prøven i det metriske rum tages i betragtning. Ligheden her supplerer afstanden (forskellen) mellem objekter til 1.

I moderne videnskab bruges flere algoritmer til behandling af inputdata. Analyse ved at sammenligne objekter baseret på træk (mest udbredt i de biologiske videnskaber) kaldes Q -type analyse, og i tilfælde af sammenligning af træk baseret på objekter - R - type analyse. Der er forsøg på at bruge hybride analysetyper (for eksempel RQ- analyse ), men denne metode er endnu ikke blevet ordentligt udviklet.

Mål for klyngedannelse

Forstå data ved at identificere klyngestruktur. Opdeling af prøven i grupper af lignende objekter gør det muligt at forenkle yderligere databehandling og beslutningstagning ved at anvende sin egen analysemetode til hver klynge (“ del og hersk ”-strategien).
Datakomprimering . Hvis den oprindelige prøve er for stor, kan den reduceres, hvilket efterlader en af de mest typiske repræsentanter fra hver klynge.
Nyhedsdetektion _ _ _ _ Der vælges atypiske objekter, som ikke kan knyttes til nogen af klyngerne.

I det første tilfælde forsøger de at gøre antallet af klynger mindre. I det andet tilfælde er det vigtigere at sikre en høj grad af lighed mellem objekter inden for hver klynge, og der kan være et hvilket som helst antal klynger. I det tredje tilfælde er individuelle objekter, der ikke passer ind i nogen af klyngerne, af størst interesse.

I alle disse tilfælde kan hierarkisk clustering anvendes , når store klynger opdeles i mindre, som igen opdeles endnu mindre osv. Sådanne opgaver kaldes taksonomiopgaver . Resultatet af taksonomi er en trælignende hierarkisk struktur. Derudover er hvert objekt kendetegnet ved en opregning af alle klynger, som det tilhører, normalt fra store til små.

Klyngemetoder

Der er ingen almindeligt accepteret klassificering af klyngemetoder, men der kan skelnes mellem en række grupper af tilgange (nogle metoder kan henføres til flere grupper på én gang, og derfor foreslås det at betragte denne typificering som en tilnærmelse til den reelle klassificering af klyngedannelse. metoder) [9] :

Probabilistisk tilgang . Det antages, at hvert objekt under overvejelse tilhører en af k-klasserne. Nogle forfattere (for eksempel A. I. Orlov) mener, at denne gruppe slet ikke tilhører klyngedannelse og modsætter sig den under navnet "diskriminering", det vil sige valget af at tildele objekter til en af de kendte grupper (træningsprøver).
Tilgange baseret på kunstige intelligenssystemer: en meget betinget gruppe, da der er mange metoder, og metodisk er de meget forskellige.
- C-betyder fuzzy clustering-metode ( C-betyder )
- Kohonens neurale netværk
- genetisk algoritme
logisk tilgang. Konstruktionen af et dendrogram udføres ved hjælp af et beslutningstræ.
Grafteoretisk tilgang.
- Grafklyngealgoritmer
Hierarkisk tilgang. Tilstedeværelsen af indlejrede grupper (klynger af forskellige rækkefølger) antages. Algoritmer er til gengæld opdelt i agglomerative (forenende) og dividerende (adskillende). I henhold til antallet af funktioner skelnes der nogle gange mellem monotetiske og polytetiske klassificeringsmetoder.
- Hierarkisk divisionsklynger eller taksonomi. Klyngeproblemer behandles i kvantitativ taksonomi .
Andre metoder. Ikke inkluderet i de tidligere grupper.
- Statistiske klyngealgoritmer
- Ensemble af clusterers
- Algoritmer fra KRAB-familien
- Algoritme baseret på sigtemetoden
- DBSCAN osv.

Tilgange 4 og 5 kombineres nogle gange under navnet på den strukturelle eller geometriske tilgang, som har et mere formaliseret koncept om nærhed [10] . På trods af de betydelige forskelle mellem de anførte metoder, er de alle afhængige af den oprindelige " kompakthedshypotese ": i objektrummet skal alle tætte objekter tilhøre den samme klynge, og alle forskellige objekter skal henholdsvis være i forskellige klynger.

Formel erklæring om klyngeproblemet

Lad være et sæt af objekter, være et sæt tal (navne, etiketter) af klynger. Afstandsfunktionen mellem objekter er angivet . Der er et begrænset træningssæt af objekter . Det er påkrævet at opdele prøven i ikke-overlappende delmængder, kaldet klynger , så hver klynge består af objekter, der er tæt på metrisk , og objekterne i forskellige klynger adskiller sig væsentligt. I dette tilfælde tildeles hvert objekt et klyngenummer . $x$ $Y$ $\rho (x,x')$ $X^{m}=\{x_{1},\dots ,x_{m}\}\undersæt X$ $\rho$ $x_{i}\in X^{m}$ $y_{i}$

Klyngealgoritmen er en funktion , der forbinder ethvert objekt med et klyngenummer . Sættet er i nogle tilfælde kendt på forhånd, men oftere er opgaven at bestemme det optimale antal klynger i forhold til et eller andet kriterium for klyngekvalitet. $a\kolon X\til Y$ $x\i X$ $y\i Y$ $Y$

Clustering (ikke-overvåget læring ) adskiller sig fra klassificering ( overvåget læring ) ved, at etiketterne for de originale objekter ikke er sat til at begynde med, og selve sættet kan endda være ukendt . $y_{i}$ $Y$

Løsningen af klyngeproblemet er grundlæggende tvetydig, og det er der flere årsager til (ifølge en række forfattere):

der er ikke noget unikt bedste kriterium for kvaliteten af klyngedannelse. Der kendes en række heuristiske kriterier, samt en række algoritmer, der ikke har et klart defineret kriterium, men som udfører en nogenlunde rimelig klyngedannelse "ved konstruktion". Alle kan give forskellige resultater. For at bestemme kvaliteten af clustering kræves derfor en ekspert på fagområdet, som kan vurdere meningsfuldheden af udvælgelsen af klynger.
antallet af klynger er normalt ukendt på forhånd og er sat efter et eller andet subjektivt kriterium. Dette gælder kun for diskriminationsmetoder, da i klyngemetoder udvælges klynger ved hjælp af en formaliseret tilgang baseret på nærhedsforanstaltninger.
klyngeresultatet afhænger væsentligt af metrikken, hvis valg som regel også er subjektivt og bestemmes af en ekspert. Men der er en række anbefalinger til valg af nærhedsforanstaltninger til forskellige opgaver.

Ansøgning

I biologi

Inden for biologi har klyngedannelse mange anvendelser inden for en lang række områder. For eksempel i bioinformatik bruges det til at analysere komplekse netværk af interagerende gener, nogle gange bestående af hundredvis eller endda tusindvis af elementer. Klyngeanalyse giver dig mulighed for at identificere undernet, flaskehalse, hubs og andre skjulte egenskaber ved det undersøgte system, hvilket i sidste ende giver dig mulighed for at finde ud af hvert gens bidrag til dannelsen af det undersøgte fænomen.

Inden for økologi er det meget brugt til at identificere rumligt homogene grupper af organismer, samfund osv. Mindre almindeligt bruges klyngeanalysemetoder til at studere samfund over tid. Heterogeniteten af strukturen af fællesskaber fører til fremkomsten af ikke-trivielle metoder til klyngeanalyse (for eksempel Czekanowski-metoden ).

Historisk set er mål for lighed mere almindeligt brugt som mål for nærhed i biologi , snarere end mål for forskel (afstand).

I sociologi

Når man analyserer resultaterne af sociologisk forskning, anbefales det at udføre analysen ved hjælp af metoderne fra en hierarkisk agglomerativ familie, nemlig Ward-metoden, hvor den minimale spredning er optimeret inden for klyngerne, som følge heraf klynger af omtrent lige store størrelser er skabt. Wards metode er den mest succesrige til analyse af sociologiske data. Som et mål for forskel er den kvadratiske euklidiske afstand bedre, hvilket bidrager til en forøgelse af kontrasten af klynger. Hovedresultatet af hierarkisk klyngeanalyse er et dendrogram eller "istapdiagram". Ved fortolkning af det står forskerne med et problem af samme art som fortolkningen af resultaterne af faktoranalyse - manglen på entydige kriterier for at identificere klynger. Det anbefales at bruge to metoder som de vigtigste - visuel analyse af dendrogrammet og sammenligning af resultaterne af clustering udført ved forskellige metoder.

Visuel analyse af dendrogrammet involverer "skæring" af træet på det optimale niveau af lighed mellem prøveelementerne. "Vine branch" (terminologi af M. S. Oldenderfer og R. K. Blashfield [11] ) bør "afskæres" ved 5-mærket på Rescaled Distance Cluster Combine-skalaen, således vil et 80% lighedsniveau blive opnået. Hvis udvælgelsen af klynger efter denne etiket er vanskelig (flere små klynger smelter sammen til en stor på den), så kan du vælge en anden etiket. Denne teknik er foreslået af Oldenderfer og Blashfield.

Nu opstår spørgsmålet om stabiliteten af den vedtagne klyngeløsning. Faktisk kommer kontrol af stabiliteten af clustering ned til at kontrollere dens pålidelighed. Der er en tommelfingerregel her - en stabil typologi bevares, når klyngemetoder ændres. Resultaterne af hierarkisk klyngeanalyse kan verificeres ved iterativ k-betyder klyngeanalyse. Hvis de sammenlignede klassifikationer af grupper af respondenter har en andel af tilfældigheder på mere end 70 % (mere end 2/3 af tilfældigheder), så træffes en klyngebeslutning.

Det er umuligt at kontrollere løsningens tilstrækkelighed uden at ty til en anden type analyse. I det mindste teoretisk er dette problem ikke blevet løst. Oldenderfer og Blashfields klassiske Cluster Analysis uddyber og afviser i sidste ende fem yderligere robusthedstestmetoder:

kofenetisk korrelation - ikke anbefalet og begrænset i brug;
signifikanstest (variansanalyse) - giver altid et signifikant resultat;
teknikken med gentagne (tilfældige) prøver, som dog ikke beviser gyldigheden af beslutningen;
signifikanstest for eksterne egenskaber er kun egnede til gentagne målinger;
Monte Carlo metoder er meget komplekse og kun tilgængelige for erfarne matematikere .

I datalogi

Klynger af søgeresultater - bruges til "intelligent" gruppering af resultater ved søgning efter filer , websteder , andre objekter , hvilket giver brugeren mulighed for hurtigt at navigere, vælge en kendt mere relevant delmængde og udelukke en kendt mindre relevant - hvilket kan øge brugervenligheden af grænsefladen sammenlignet med output i form af en simpel sorteret efter relevansliste .
- Clusty er Vivísimos klyngesøgemaskine .
- Nigma er en russisk søgemaskine med automatisk clustering af resultater
- Quintura - visuel clustering i form af en sky af søgeord
Billedsegmentering ( eng. image segmentation ) - clustering kan bruges til at opdele et digitalt billede i separate områder for at detektere grænser ( eng. edge detection ) eller objektgenkendelse .
Data mining - klyngedannelse i Data Mining bliver værdifuldt, når det fungerer som et af stadierne i dataanalysen og bygger en komplet analytisk løsning . Det er ofte lettere for en analytiker at identificere grupper af lignende objekter, studere deres egenskaber og bygge en separat model for hver gruppe end at skabe én generel model for alle data. Denne teknik bruges konstant i markedsføring, fremhæver grupper af kunder, købere, varer og udvikler en separat strategi for hver af dem.

Se også

Dokumentklynger
Dokumentklassificering
Neurale netværk
Selvorganiserende kort over Kohonen
Cluster Analysis of Financial Markets Arkiveret 21. februar 2017 på Wayback Machine

Noter

↑ Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Anvendt statistik: Klassifikation og dimensionsreduktion. - M .: Finans og statistik, 1989. - 607 s.
↑ Mandel I. D. Klyngeanalyse. — M.: Finans og statistik, 1988. — 176 s.
↑ Khaidukov D.S. Anvendelse af klyngeanalyse i offentlig administration // Mathematics Philosophy: Actual Problemer. — M.: MAKS Press, 2009. — 287 s.
↑ Klassifikation og klynge. Ed. J. Wen Raizina. M.: Mir, 1980. 390 s.
↑ Mandel I. D. Klyngeanalyse. - M .: Finans og statistik, 1988. - S. 10.
↑ Tryon RC Cluster analyse. - London: Ann Arbor Edwards Bros, 1939. - 139 s.
↑ Zhambyu M. Hierarkisk klyngeanalyse og korrespondancer. — M.: Finans og statistik, 1988. — 345 s.
↑ Duran B., Odell P. Klyngeanalyse. — M.: Statistik, 1977. — 128 s.
↑ Berikov V. S., Lbov G. S. Moderne tendenser inden for klyngeanalyse Arkivkopi dateret 10. august 2013 på Wayback Machine // All-Russian konkurrencedygtigt udvalg af review- og analytiske artikler i den prioriterede retning "Information and telecommunication systems", 2008. - 26 s. ...
↑ Vyatchenin D. A. Fuzzy metoder til automatisk klassificering. - Minsk: Technoprint, 2004. - 219 s.
↑ Oldenderfer M.S., Blashfield R.K. Klyngeanalyse / Faktor-, diskriminant- og klyngeanalyse: pr. fra engelsk; Under. udg. I. S. Enyukova. — M.: Finans og statistik, 1989—215 s.

Links

På russisk

www.MachineLearning.ru er en professionel wiki-ressource dedikeret til maskinlæring og datamining

På engelsk

COMPACT - Sammenlignende pakke til Clustering Assessment Arkiveret 26. februar 2007 på Wayback Machine . En gratis Matlab-pakke, 2006.
P. Berkhin, Survey of Clustering Data Mining Techniques Arkiveret 17. januar 2007 på Wayback Machine , Accrue Software, 2002.
Jain, Murty og Flynn: Data Clustering: A Review Arkiveret 3. februar 2007 på Wayback Machine , ACM Comp. Surv., 1999.
for en anden præsentation af hierarkiske, k-midler og fuzzy c-midler se denne introduktion til clustering Arkiveret 29. januar 2007 på Wayback Machine . Har også en forklaring på blanding af gaussere .
David Dowe, Mixture Modeling-side Arkiveret 5. april 2007 på Wayback Machine - andre links til klynge- og blandingsmodeller.
en tutorial om klyngedannelse [1] (downlink siden 13/05/2013 [3454 dage] - historie )
Den online lærebog: Information Theory, Inference, and Learning Algorithms Arkiveret 6. februar 2015 på Wayback Machine af David JC MacKay indeholder kapitler om k-betyder klyngedannelse, blød k-betyder klyngning og afledninger, herunder EM algoritmen og variationen visning af EM-algoritmen.
En oversigt over ikke-parametrisk klyngedannelse og computersyn
"Det selvorganiserede gen" , tutorial, der forklarer klyngedannelse gennem konkurrerende læring og selvorganiserende kort.
kernlab (downlink siden 13-05-2013 [3454 dage] - historie ) – R-pakke til kernebaseret maskinlæring (inkluderer implementering af spektralklynge)
Selvstudium arkiveret 29. december 2007 på Wayback Machine - Selvstudie med introduktion af klyngealgoritmer (k-betyder, fuzzy-c-betyder, hierarkisk, blanding af gaussianere) + nogle interaktive demoer (java-applets)
Dataminingsoftware arkiveret 24. juni 2017 på Wayback Machine — Dataminingsoftware bruger ofte klyngeteknikker.
Java Competitve Learning Application (downlink siden 13/05/2013 [3454 dage] - historie ) En suite af uovervågede neurale netværk til klyngedannelse. Skrevet i Java. Komplet med al kildekode.
Machine Learning Software Arkiveret 3. april 2018 på Wayback Machine - Indeholder også meget klyngesoftware.
Fuzzy Clustering Algorithms and their Application to Medical Image Analysis PhD-afhandling, 2001, af AI Shihab. Arkiveret 27. september 2007 på Wayback Machine
Cluster Computing and MapReduce Lecture 4 Arkiveret 14. januar 2019 på Wayback Machine
PyClustering Library Arkiveret 11. juni 2018 på Wayback Machine - Python-biblioteket indeholder clustering-algoritmer (C++-kildekode kan også bruges - CCORE del af biblioteket) og samling af neurale og oscillerende netværk med eksempler og demoer.

Ordbøger og encyklopædier	stor kinesisk stor kinesisk stor kinesisk stor kinesisk Stor russer Britannica (online)
I bibliografiske kataloger	BNF : 12124521b J9U : 987007283912705171 LCCN : sh85027250 NKC : ph161652

Kunstig intelligens
Historie	Historien om kunstig intelligens Vinter med kunstig intelligens Dartmouth Seminar
Filosofi	Turing test kinesisk værelse Stærk og svag kunstig intelligens Venlig kunstig intelligens Etik om kunstig intelligens Kontrol problem
Vejbeskrivelse	Agent tilgang Adaptiv kontrol Viden Engineering Levedygtig systemmodel Maskinelæring Neuralt netværk sløret logik naturlig sprogbehandling Mønster genkendelse Sværm intelligens Symbolsk AI Evolutionære algoritmer Ekspertsystem
Ansøgning	Stemmekontrol Klassificeringsproblem Dokumentklassificering Dokumentklynger klyngeanalyse Lokal søgning Maskinoversættelse Optisk tegngenkendelse Tale genkendelse Håndskriftsgenkendelse Spil AI
Forskere	Charles Babbage Vladimir Vapnik Joseph Weizenbaum Norbert Wiener Victor Glushkov Vladimir Gorodetsky Jan LeCun Alexey Lyapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Juda Perle Germogen Pospelov Dmitry Pospelov Frank Rosenblatt Herbert Alexander Simon Alan Turing Patrick Winston Victor Finn Sergey Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Yudkovsky

Machine learning og data mining
Opgaver	Klassificeringsproblem Læring uden lærer Lærerassisteret læring Regressions analyse AutoML Foreningens regler Feature Extraction Træning af træk Ranking træning Grammatisk afledning Online læring
At lære med en lærer	k-nærmeste nabo metode Naiv Bayes Classifier beslutningstræ Support vektor maskine Lineær regression Logistisk regression perceptron Ensembler af modeller Bagning boostning tilfældig skov Relevant vektormetode
klyngeanalyse	k-betyder metode Fuzzy klyngemetode Hierarkisk klyngedannelse EM algoritme BIRKE HELBREDE DBSCAN OPTIK Middel-forskydning
Dimensionalitetsreduktion	Faktoranalyse Hovedkomponentmetode CCA ICA LDA Ikke-negativ matrixudvidelse t-SNE
Strukturel prognose	Graf probabilistisk model Bayesiansk netværk Skjult Markov-model CRF
Anomali detektion	k-nærmeste nabo metode Lokalt emissionsniveau
Grafer sandsynlighedsmodeller	Bayesiansk netværk Markov netværk Skjult Markov-model
Neurale netværk	Begrænset Boltzmann-maskine selvorganiserende kort Aktiveringsfunktion Sigmoid softmax Radial basisfunktion Rygformeringsmetode Dyb læring Flerlagsperceptron Tilbagevendende neurale netværk lang korttidshukommelse Kontrolleret tilbagevendende blokering Konvolutionelt neuralt netværk U-net Autoencoder
Forstærkende læring	Markov proces Bellmans ligning Grådig algoritme Q-læring SARSA Temporal forskel (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beregningsmæssig læringsteori Empirisk risikominimering Occams læring PAC læring Statistisk læringsteori
Tidsskrifter og konferencer	NeurIPS ICML ML JMLR ArXiv:cs.LG