Klyngeanalyse
Klyngeanalyse er en multidimensionel statistisk procedure, der indsamler data, der indeholder information om en prøve af objekter, og derefter arrangerer objekter i relativt homogene grupper [1] [2] [3] [4] . Klyngeproblemet refererer til statistisk bearbejdning og også til en bred klasse af uovervågede læringsproblemer .
De fleste forskere (se f.eks. [5] ) er tilbøjelige til at tro, at udtrykket "klyngeanalyse" ( engelsk klynge - bundt, koagel, bundle) for første gang blev foreslået af psykologen R. Tryon [6] . Efterfølgende opstod der en række begreber, som i dag anses for at være synonyme med begrebet "klyngeanalyse": automatisk klassifikation, botryologi.
Anvendelsesområdet for klyngeanalyse er meget bredt: det bruges i arkæologi , medicin , psykologi , kemi , biologi , offentlig administration , filologi , antropologi , marketing , sociologi , geologi og andre discipliner. Anvendelsens universalitet har imidlertid ført til fremkomsten af en lang række inkompatible termer, metoder og tilgange, der gør det vanskeligt entydigt at bruge og konsekvent fortolke klyngeanalyse.
Opgaver og betingelser
Klyngeanalyse udfører følgende hovedopgaver:
- Udvikling af en typologi eller klassifikation.
- Udforskning af nyttige konceptuelle skemaer til gruppering af objekter.
- Generering af hypoteser baseret på dataudforskning.
- Hypotesetestning eller forskning for at bestemme, om typer (grupper) identificeret på den ene eller anden måde faktisk er til stede i de tilgængelige data.
Uanset studieemnet involverer brugen af klyngeanalyse følgende trin:
- Prøveudtagning til klyngedannelse. Det er underforstået, at det giver mening kun at gruppere kvantitative data.
- Definition af et sæt variabler, som objekter i prøven vil blive evalueret efter, det vil sige et feature space.
- Beregning af værdierne af et eller andet mål for lighed (eller forskel) mellem objekter.
- Anvendelse af klyngeanalysemetoden til at skabe grupper af lignende objekter.
- Validering af resultaterne af klyngeløsningen.
Du kan finde en beskrivelse af to grundlæggende krav til data - ensartethed og fuldstændighed. Homogenitet kræver, at alle klyngede enheder er af samme natur, beskrevet af et lignende sæt af karakteristika [7] . Hvis klyngeanalyse er forudgået af faktoranalyse , behøver prøven ikke at blive "repareret" - de angivne krav udføres automatisk af selve faktormodelleringsproceduren (der er en anden fordel - z-standardisering uden negative konsekvenser for prøven; hvis det udføres direkte til klyngeanalyse, det kan føre til at resultere i et fald i klarheden af adskillelsen af grupper). Ellers skal prøven justeres.
Typologi af klyngeproblemer
Input datatyper
- Vejledende beskrivelse af objekter. Hvert objekt er beskrevet af et sæt af dets egenskaber, kaldet funktioner . Funktioner kan være numeriske eller ikke-numeriske.
- Afstandsmatrix mellem objekter. Hvert objekt er beskrevet ved afstande til alle andre objekter i det metriske rum .
- Lighedsmatrix mellem objekter [8] . Graden af lighed mellem objektet med andre objekter i prøven i det metriske rum tages i betragtning. Ligheden her supplerer afstanden (forskellen) mellem objekter til 1.
I moderne videnskab bruges flere algoritmer til behandling af inputdata. Analyse ved at sammenligne objekter baseret på træk (mest udbredt i de biologiske videnskaber) kaldes Q -type analyse, og i tilfælde af sammenligning af træk baseret på objekter - R - type analyse. Der er forsøg på at bruge hybride analysetyper (for eksempel RQ- analyse ), men denne metode er endnu ikke blevet ordentligt udviklet.
Mål for klyngedannelse
- Forstå data ved at identificere klyngestruktur. Opdeling af prøven i grupper af lignende objekter gør det muligt at forenkle yderligere databehandling og beslutningstagning ved at anvende sin egen analysemetode til hver klynge (“ del og hersk ”-strategien).
- Datakomprimering . Hvis den oprindelige prøve er for stor, kan den reduceres, hvilket efterlader en af de mest typiske repræsentanter fra hver klynge.
- Nyhedsdetektion _ _ _ _ Der vælges atypiske objekter, som ikke kan knyttes til nogen af klyngerne.
I det første tilfælde forsøger de at gøre antallet af klynger mindre. I det andet tilfælde er det vigtigere at sikre en høj grad af lighed mellem objekter inden for hver klynge, og der kan være et hvilket som helst antal klynger. I det tredje tilfælde er individuelle objekter, der ikke passer ind i nogen af klyngerne, af størst interesse.
I alle disse tilfælde kan hierarkisk clustering anvendes , når store klynger opdeles i mindre, som igen opdeles endnu mindre osv. Sådanne opgaver kaldes taksonomiopgaver . Resultatet af taksonomi er en trælignende hierarkisk struktur. Derudover er hvert objekt kendetegnet ved en opregning af alle klynger, som det tilhører, normalt fra store til små.
Klyngemetoder
Der er ingen almindeligt accepteret klassificering af klyngemetoder, men der kan skelnes mellem en række grupper af tilgange (nogle metoder kan henføres til flere grupper på én gang, og derfor foreslås det at betragte denne typificering som en tilnærmelse til den reelle klassificering af klyngedannelse. metoder) [9] :
- Probabilistisk tilgang . Det antages, at hvert objekt under overvejelse tilhører en af k-klasserne. Nogle forfattere (for eksempel A. I. Orlov) mener, at denne gruppe slet ikke tilhører klyngedannelse og modsætter sig den under navnet "diskriminering", det vil sige valget af at tildele objekter til en af de kendte grupper (træningsprøver).
- Tilgange baseret på kunstige intelligenssystemer: en meget betinget gruppe, da der er mange metoder, og metodisk er de meget forskellige.
- logisk tilgang. Konstruktionen af et dendrogram udføres ved hjælp af et beslutningstræ.
- Grafteoretisk tilgang.
- Hierarkisk tilgang. Tilstedeværelsen af indlejrede grupper (klynger af forskellige rækkefølger) antages. Algoritmer er til gengæld opdelt i agglomerative (forenende) og dividerende (adskillende). I henhold til antallet af funktioner skelnes der nogle gange mellem monotetiske og polytetiske klassificeringsmetoder.
- Andre metoder. Ikke inkluderet i de tidligere grupper.
- Statistiske klyngealgoritmer
- Ensemble af clusterers
- Algoritmer fra KRAB-familien
- Algoritme baseret på sigtemetoden
- DBSCAN osv.
Tilgange 4 og 5 kombineres nogle gange under navnet på den strukturelle eller geometriske tilgang, som har et mere formaliseret koncept om nærhed [10] . På trods af de betydelige forskelle mellem de anførte metoder, er de alle afhængige af den oprindelige " kompakthedshypotese ": i objektrummet skal alle tætte objekter tilhøre den samme klynge, og alle forskellige objekter skal henholdsvis være i forskellige klynger.
Formel erklæring om klyngeproblemet
Lad være et sæt af objekter, være et sæt tal (navne, etiketter) af klynger. Afstandsfunktionen mellem objekter er angivet . Der er et begrænset træningssæt af objekter . Det er påkrævet at opdele prøven i ikke-overlappende delmængder, kaldet klynger , så hver klynge består af objekter, der er tæt på metrisk , og objekterne i forskellige klynger adskiller sig væsentligt. I dette tilfælde
tildeles hvert objekt et klyngenummer .
Klyngealgoritmen er en funktion , der forbinder ethvert objekt med et klyngenummer . Sættet er i nogle tilfælde kendt på forhånd, men oftere er opgaven at bestemme det optimale antal klynger i forhold til et eller andet kriterium for klyngekvalitet.
Clustering (ikke-overvåget læring ) adskiller sig fra klassificering ( overvåget læring ) ved, at etiketterne for de originale objekter ikke er sat til at begynde med, og selve sættet kan endda være ukendt .
Løsningen af klyngeproblemet er grundlæggende tvetydig, og det er der flere årsager til (ifølge en række forfattere):
- der er ikke noget unikt bedste kriterium for kvaliteten af klyngedannelse. Der kendes en række heuristiske kriterier, samt en række algoritmer, der ikke har et klart defineret kriterium, men som udfører en nogenlunde rimelig klyngedannelse "ved konstruktion". Alle kan give forskellige resultater. For at bestemme kvaliteten af clustering kræves derfor en ekspert på fagområdet, som kan vurdere meningsfuldheden af udvælgelsen af klynger.
- antallet af klynger er normalt ukendt på forhånd og er sat efter et eller andet subjektivt kriterium. Dette gælder kun for diskriminationsmetoder, da i klyngemetoder udvælges klynger ved hjælp af en formaliseret tilgang baseret på nærhedsforanstaltninger.
- klyngeresultatet afhænger væsentligt af metrikken, hvis valg som regel også er subjektivt og bestemmes af en ekspert. Men der er en række anbefalinger til valg af nærhedsforanstaltninger til forskellige opgaver.
Ansøgning
I biologi
Inden for biologi har klyngedannelse mange anvendelser inden for en lang række områder. For eksempel i bioinformatik bruges det til at analysere komplekse netværk af interagerende gener, nogle gange bestående af hundredvis eller endda tusindvis af elementer. Klyngeanalyse giver dig mulighed for at identificere undernet, flaskehalse, hubs og andre skjulte egenskaber ved det undersøgte system, hvilket i sidste ende giver dig mulighed for at finde ud af hvert gens bidrag til dannelsen af det undersøgte fænomen.
Inden for økologi er det meget brugt til at identificere rumligt homogene grupper af organismer, samfund osv. Mindre almindeligt bruges klyngeanalysemetoder til at studere samfund over tid. Heterogeniteten af strukturen af fællesskaber fører til fremkomsten af ikke-trivielle metoder til klyngeanalyse (for eksempel Czekanowski-metoden ).
Historisk set er mål for lighed mere almindeligt brugt som mål for nærhed i biologi , snarere end mål for forskel (afstand).
I sociologi
Når man analyserer resultaterne af sociologisk forskning, anbefales det at udføre analysen ved hjælp af metoderne fra en hierarkisk agglomerativ familie, nemlig Ward-metoden, hvor den minimale spredning er optimeret inden for klyngerne, som følge heraf klynger af omtrent lige store størrelser er skabt. Wards metode er den mest succesrige til analyse af sociologiske data. Som et mål for forskel er den kvadratiske euklidiske afstand bedre, hvilket bidrager til en forøgelse af kontrasten af klynger. Hovedresultatet af hierarkisk klyngeanalyse er et dendrogram eller "istapdiagram". Ved fortolkning af det står forskerne med et problem af samme art som fortolkningen af resultaterne af faktoranalyse - manglen på entydige kriterier for at identificere klynger. Det anbefales at bruge to metoder som de vigtigste - visuel analyse af dendrogrammet og sammenligning af resultaterne af clustering udført ved forskellige metoder.
Visuel analyse af dendrogrammet involverer "skæring" af træet på det optimale niveau af lighed mellem prøveelementerne. "Vine branch" (terminologi af M. S. Oldenderfer og R. K. Blashfield [11] ) bør "afskæres" ved 5-mærket på Rescaled Distance Cluster Combine-skalaen, således vil et 80% lighedsniveau blive opnået. Hvis udvælgelsen af klynger efter denne etiket er vanskelig (flere små klynger smelter sammen til en stor på den), så kan du vælge en anden etiket. Denne teknik er foreslået af Oldenderfer og Blashfield.
Nu opstår spørgsmålet om stabiliteten af den vedtagne klyngeløsning. Faktisk kommer kontrol af stabiliteten af clustering ned til at kontrollere dens pålidelighed. Der er en tommelfingerregel her - en stabil typologi bevares, når klyngemetoder ændres. Resultaterne af hierarkisk klyngeanalyse kan verificeres ved iterativ k-betyder klyngeanalyse. Hvis de sammenlignede klassifikationer af grupper af respondenter har en andel af tilfældigheder på mere end 70 % (mere end 2/3 af tilfældigheder), så træffes en klyngebeslutning.
Det er umuligt at kontrollere løsningens tilstrækkelighed uden at ty til en anden type analyse. I det mindste teoretisk er dette problem ikke blevet løst. Oldenderfer og Blashfields klassiske Cluster Analysis uddyber og afviser i sidste ende fem yderligere robusthedstestmetoder:
- kofenetisk korrelation - ikke anbefalet og begrænset i brug;
- signifikanstest (variansanalyse) - giver altid et signifikant resultat;
- teknikken med gentagne (tilfældige) prøver, som dog ikke beviser gyldigheden af beslutningen;
- signifikanstest for eksterne egenskaber er kun egnede til gentagne målinger;
- Monte Carlo metoder er meget komplekse og kun tilgængelige for erfarne matematikere .
I datalogi
- Klynger af søgeresultater - bruges til "intelligent" gruppering af resultater ved søgning efter filer , websteder , andre objekter , hvilket giver brugeren mulighed for hurtigt at navigere, vælge en kendt mere relevant delmængde og udelukke en kendt mindre relevant - hvilket kan øge brugervenligheden af grænsefladen sammenlignet med output i form af en simpel sorteret efter relevansliste
.
- Billedsegmentering ( eng. image segmentation ) - clustering kan bruges til at opdele et digitalt billede i separate områder for at detektere grænser ( eng. edge detection ) eller objektgenkendelse .
- Data mining - klyngedannelse i Data Mining bliver værdifuldt, når det fungerer som et af stadierne i dataanalysen og bygger en komplet analytisk løsning . Det er ofte lettere for en analytiker at identificere grupper af lignende objekter, studere deres egenskaber og bygge en separat model for hver gruppe end at skabe én generel model for alle data. Denne teknik bruges konstant i markedsføring, fremhæver grupper af kunder, købere, varer og udvikler en separat strategi for hver af dem.
Se også
Noter
- ↑ Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Anvendt statistik: Klassifikation og dimensionsreduktion. - M .: Finans og statistik, 1989. - 607 s.
- ↑ Mandel I. D. Klyngeanalyse. — M.: Finans og statistik, 1988. — 176 s.
- ↑ Khaidukov D.S. Anvendelse af klyngeanalyse i offentlig administration // Mathematics Philosophy: Actual Problemer. — M.: MAKS Press, 2009. — 287 s.
- ↑ Klassifikation og klynge. Ed. J. Wen Raizina. M.: Mir, 1980. 390 s.
- ↑ Mandel I. D. Klyngeanalyse. - M .: Finans og statistik, 1988. - S. 10.
- ↑ Tryon RC Cluster analyse. - London: Ann Arbor Edwards Bros, 1939. - 139 s.
- ↑ Zhambyu M. Hierarkisk klyngeanalyse og korrespondancer. — M.: Finans og statistik, 1988. — 345 s.
- ↑ Duran B., Odell P. Klyngeanalyse. — M.: Statistik, 1977. — 128 s.
- ↑ Berikov V. S., Lbov G. S. Moderne tendenser inden for klyngeanalyse Arkivkopi dateret 10. august 2013 på Wayback Machine // All-Russian konkurrencedygtigt udvalg af review- og analytiske artikler i den prioriterede retning "Information and telecommunication systems", 2008. - 26 s. ...
- ↑ Vyatchenin D. A. Fuzzy metoder til automatisk klassificering. - Minsk: Technoprint, 2004. - 219 s.
- ↑ Oldenderfer M.S., Blashfield R.K. Klyngeanalyse / Faktor-, diskriminant- og klyngeanalyse: pr. fra engelsk; Under. udg. I. S. Enyukova. — M.: Finans og statistik, 1989—215 s.
Links
På russisk
På engelsk
- COMPACT - Sammenlignende pakke til Clustering Assessment Arkiveret 26. februar 2007 på Wayback Machine . En gratis Matlab-pakke, 2006.
- P. Berkhin, Survey of Clustering Data Mining Techniques Arkiveret 17. januar 2007 på Wayback Machine , Accrue Software, 2002.
- Jain, Murty og Flynn: Data Clustering: A Review Arkiveret 3. februar 2007 på Wayback Machine , ACM Comp. Surv., 1999.
- for en anden præsentation af hierarkiske, k-midler og fuzzy c-midler se denne introduktion til clustering Arkiveret 29. januar 2007 på Wayback Machine . Har også en forklaring på blanding af gaussere .
- David Dowe, Mixture Modeling-side Arkiveret 5. april 2007 på Wayback Machine - andre links til klynge- og blandingsmodeller.
- en tutorial om klyngedannelse [1] (downlink siden 13/05/2013 [3454 dage] - historie )
- Den online lærebog: Information Theory, Inference, and Learning Algorithms Arkiveret 6. februar 2015 på Wayback Machine af David JC MacKay indeholder kapitler om k-betyder klyngedannelse, blød k-betyder klyngning og afledninger, herunder EM algoritmen og variationen visning af EM-algoritmen.
- En oversigt over ikke-parametrisk klyngedannelse og computersyn
- "Det selvorganiserede gen" , tutorial, der forklarer klyngedannelse gennem konkurrerende læring og selvorganiserende kort.
- kernlab (downlink siden 13-05-2013 [3454 dage] - historie ) – R-pakke til kernebaseret maskinlæring (inkluderer implementering af spektralklynge)
- Selvstudium arkiveret 29. december 2007 på Wayback Machine - Selvstudie med introduktion af klyngealgoritmer (k-betyder, fuzzy-c-betyder, hierarkisk, blanding af gaussianere) + nogle interaktive demoer (java-applets)
- Dataminingsoftware arkiveret 24. juni 2017 på Wayback Machine — Dataminingsoftware bruger ofte klyngeteknikker.
- Java Competitve Learning Application (downlink siden 13/05/2013 [3454 dage] - historie ) En suite af uovervågede neurale netværk til klyngedannelse. Skrevet i Java. Komplet med al kildekode.
- Machine Learning Software Arkiveret 3. april 2018 på Wayback Machine - Indeholder også meget klyngesoftware.
- Fuzzy Clustering Algorithms and their Application to Medical Image Analysis PhD-afhandling, 2001, af AI Shihab. Arkiveret 27. september 2007 på Wayback Machine
- Cluster Computing and MapReduce Lecture 4 Arkiveret 14. januar 2019 på Wayback Machine
- PyClustering Library Arkiveret 11. juni 2018 på Wayback Machine - Python-biblioteket indeholder clustering-algoritmer (C++-kildekode kan også bruges - CCORE del af biblioteket) og samling af neurale og oscillerende netværk med eksempler og demoer.
Ordbøger og encyklopædier |
|
---|
I bibliografiske kataloger |
|
---|