BIRKE

Balanceret iterativ reduktion og clustering ved hjælp af hierarkier ( BIRCH ) er en  uovervåget data mining- algoritme , der bruges til at udføre hierarkisk clustering på store datasæt [1] . Fordelen ved BIRCH er metodens evne til dynamisk at klynge efterhånden som multidimensionelle metriske datapunkter ankommer, i et forsøg på at få den bedste kvalitetsklynger for det tilgængelige sæt af ressourcer (hukommelse og tidsramme ). I de fleste tilfælde kræver BIRCH-algoritmen én gang gennem databasen .

BIRCH-udviklerne hævdede, at det var "den første klyngealgoritme, der tilbyder effektiv håndtering af 'støj' (datapunkter, der ikke er en del af skemaet) i databaser" [1] og slog DBSCAN på to måneder. Algoritmen modtog SIGMOD- prisen i 2006 efter 10 års test [2] .

Problem med tidligere metoder

Tidligere klyngealgoritmer fungerede mindre effektivt på store databaser og opførte sig utilstrækkeligt, når dataene var for store til at passe i RAM . Som et resultat var der mange omkostninger at opnå klyngedannelse af høj kvalitet, samtidig med at omkostningerne ved ekstra I/O blev minimeret. Desuden så de fleste BIRCH-forgængere på alle datapunkter (eller alle aktuelt udvalgte klynger) ens for hver 'klyngebeslutning' og foretog ikke heuristisk vægtning baseret på afstandene mellem disse datapunkter.

Fordele ved BIRCH

Hver klyngeløsning er lokal og udføres uden at se på alle datapunkter og aktuelt eksisterende klynger. Metoden fungerer på observationer, hvis datarum normalt ikke er ensartet udfyldt, og ikke alle datapunkter er lige vigtige. Metoden gør det muligt at bruge al tilgængelig hukommelse til at opnå de mest nøjagtige mulige underklynger og samtidig minimere I/O-omkostningerne. Metoden er inkrementel og kræver ikke det fulde datasæt på én gang.

Algoritme

BIRCH-algoritmen tager som input et sæt af N datapunkter, repræsenteret som reelle vektorer , og det ønskede antal klynger, K . Algoritmen er opdelt i fire faser, hvoraf den anden er valgfri.

Den første fase bygger et CF-træ af datapunkter, en meget afbalanceret træstruktur defineret som følger:

I det andet trin gennemgår algoritmen alle bladene i det indledende CF-træ for at bygge et mindre CF-træ ved at fjerne frafald og gruppere overløbne underklasser i større underklasser. Dette trin er markeret som valgfrit i BIRCH-kildevisningen.

Det tredje trin bruger den eksisterende algoritme til at gruppere alle ark. Her anvendes den agglomerative hierarkiske klyngealgoritme direkte på subklyngerne repræsenteret af deres CF-vektorer. Det giver også fleksibiliteten til at give brugeren mulighed for at angive enten det ønskede antal klynger eller den ønskede tærskelværdi for klyngediameter. Efter dette trin får vi et sæt klynger, der indeholder de vigtigste distributionsmønstre i dataene. Der kan dog være små lokale unøjagtigheder, som kan håndteres af det valgfrie trin 4. I trin 4 bruges tyngdepunkterne for klyngerne opnået i trin 3 som frø og omfordelingspunkter for datapunkter for at opnå et nyt sæt klynger . Trin 4 giver også mulighed for at kassere outliers. Det vil sige, at et punkt, der er for langt fra den nærmeste kerne, kan betragtes som en outlier.

Beregning af tegn på klynger

Hvis kun er givet , kan de samme målinger opnås uden at kende de sande værdier.

I multifaktorielle tilfælde kan kvadratroden erstattes af en passende norm.

Noter

  1. 1 2 Zhang, Ramakrishnan, Livny, 1996 , s. 103-114.
  2. 2006 SIGMOD Test of Time Award (link utilgængeligt) . Arkiveret fra originalen den 23. maj 2010. 

Litteratur