Hierarkisk klyngedannelse (også grafklyngealgoritmer og hierarkisk klyngeanalyse ) er et sæt af databestillingsalgoritmer, der har til formål at skabe et hierarki ( træ ) af indlejrede klynger. Der er to klasser af hierarkiske klyngemetoder:
Hierarkiske klyngealgoritmer antager, at det analyserede sæt af objekter er karakteriseret ved en vis grad af forbindelse. I henhold til antallet af funktioner skelnes der nogle gange mellem monotetiske og polytetiske klassificeringsmetoder. Som de fleste visuelle måder at repræsentere afhængigheder på, mister grafer hurtigt synlighed, efterhånden som antallet af klynger stiger. Der findes en række specialiserede programmer til at konstruere grafer .
Et dendrogram forstås normalt som et træ konstrueret ud fra en matrix af nærhedsforanstaltninger. Dendrogrammet giver dig mulighed for at skildre forholdet mellem objekter fra et givet sæt [1] . Oprettelse af et dendrogram kræver en ligheds (eller forskel ) matrix , der bestemmer niveauet af lighed mellem par af klynger. Agglomerative metoder er mere almindeligt anvendte.
For at opbygge en ligheds (forskel) matrix er det nødvendigt at indstille et afstandsmål mellem to klynger. De mest almindeligt anvendte metoder til at bestemme afstanden ( engelske sorteringsstrategier ) [2] :
For de første tre metoder er der en generel formel foreslået af A. N. Kolmogorov for lighedsmål [5] :
hvor er en gruppe af to objekter (klynger) og ; — det objekt (cluster), med hvilket ligheden mellem den specificerede gruppe søges; er antallet af elementer i klyngen ; er antallet af elementer i klyngen . For afstande er der en lignende Lance-Williams formel [6] .
Udbredt i geobotanik og blomsterbrug . De kaldes ofte korrelationsplejader [7] [8] [9] [10] .
Et særligt tilfælde er metoden kendt som metoden til at konstruere optimale træer (dendritter) , som blev foreslået af matematikeren fra Lviv-skolen Hugo Steinhaus [11] , senere blev metoden udviklet af matematikere fra Wroclaws taksonomiske skole [12] . Dendritter bør heller ikke danne cyklusser. Du kan delvist bruge rettede buer af grafer ved at bruge yderligere inklusionsmål (asymmetriske lighedsmål).
Metoden til "diagonalisering" af differensmatricen og den grafiske repræsentation af klynger langs differensmatricens hoveddiagonal (Czekanowskis diagram) blev først foreslået af Jan Czekanowski i 1909 [13] . Her er en beskrivelse af metoden:
Essensen af denne metode ligger i det faktum, at hele amplituden af de opnåede lighedsværdier er opdelt i et antal klasser, og derefter i matrixen af lighedsværdier erstattes disse værdier af skygger, der er forskellige for hver klasse, og normalt bruges mørkere skygger til højere lighedsklasser. Derefter, ved at ændre rækkefølgen af beskrivelser i tabellen, sikrer de, at flere lignende beskrivelser er næste [14]
Lad os give et hypotetisk eksempel på at opnå ovenstående diagram. Grundlaget for metoden er konstruktionen af en transitiv lukkematrix [15] .
For at bygge en transitiv lukningsmatrix, lad os tage en simpel lighedsmatrix og gange den med sig selv:
,hvor er elementet i skæringspunktet mellem -th række og -th kolonne i den nye (anden) matrix opnået efter den første iteration; er det samlede antal rækker (kolonner) i lighedsmatrixen. Denne procedure skal fortsættes, indtil matrixen bliver idempotent (det vil sige selv-lignende): , hvor n er antallet af iterationer.
Dernæst transformerer vi matricen på en sådan måde, at tætte numeriske værdier er i nærheden. Hvis hver numerisk værdi er tildelt en farve eller farvenuance (som i vores tilfælde), får vi det klassiske Czekanowski-diagram. Traditionelt svarer en mørkere farve til en større lighed, og en lysere farve svarer til en mindre. I denne ligner det varmekortet for afstandsmatrixen .
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|