Lokalt emissionsniveau

Det lokale outlier-niveau er en algoritme i anomalidetektion , der blev foreslået af Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng og Jörg Sander i 2000 for at finde afvigende datapunkter ved at måle den lokale afvigelse af et givet punkt givet dets naboer [1] .

Det lokale outlier-niveau deler koncepter med DBSCAN og OPTICS , såsom begreberne "grundlæggende afstand" og "opnåelig afstand" [2] , som bruges til at estimere lokal tæthed [3] .

Grundlæggende idé

Det lokale yderniveau er baseret på begrebet lokal tæthed, hvor lokalitet er givet af nærmeste naboer, hvis afstande bruges til at estimere tætheden. Ved at sammenligne et objekts lokale tæthed med dets naboers lokale tæthed er det muligt at identificere områder med en lignende tæthed og punkter, der har en væsentlig lavere tæthed end naboerne. Disse punkter betragtes som outliers .

Lokal tæthed estimeres ved den typiske afstand et punkt kan "nåes" fra nabopunkter. Definitionen af ​​"reachable distance" brugt i algoritmen er en yderligere foranstaltning for at opnå mere robuste resultater inden for klynger.

Formel beskrivelse

Lade være afstanden fra objektet til den k -te nærmeste nabo. Bemærk, at sættet af k nærmeste naboer inkluderer alle objekter på den afstand, og i tilfælde af en "node" kan indeholde mere end k objekter. Vi betegner mængden af ​​k nærmeste naboer som .

Denne afstand bruges til at bestemme den nåelige afstand ( eng.  reachability-distance ):

Med andre ord er den nåelige afstand for et objekt fra den sande afstand mellem de to objekter. Funktioner, der hører til punktets k nærmeste naboer (punktets "kernepunkter" , se DBSCAN ) anses for at være i samme afstand for mere stabile resultater. Bemærk, at denne afstand ikke er en afstand i matematisk forstand, da den ikke er symmetrisk. (En almindelig fejl er at anvende altid, så dette giver en lidt anderledes metode, kaldet den forenklede lokale outlier-metode [4] )

Den lokale nåbarhedstæthed for et objekt er defineret som

,

som er det gensidige af den gennemsnitlige tilgængelighedsafstand for et objekt fra dets naboer. Bemærk, at dette ikke er naboernes gennemsnitlige tilgængelighedsafstand fra punktet (hvilket pr. definition skulle være ), men afstanden, hvormed A kan "nås" fra sine naboer. Med dublerede punkter kan denne værdi blive uendelig.

De lokale nåbarhedstætheder sammenlignes derefter med naboernes lokale nåbarhedstætheder

som er den gennemsnitlige lokale nåbarhedstæthed for naboer divideret med den lokale nåbarhedstæthed for selve objektet. En værdi omtrent lig med , betyder, at objektet er sammenligneligt med dets naboer (og så er det ikke en outlier). En værdi mindre end betyder et tæt område (som kan være det indre), mens værdier væsentligt større end , angiver afvigelser.

Fordele

På grund af tilgangens lokalitet er den lokale outlier-algoritme i stand til at detektere outliers i datasættet, som måske ikke er outliers i andre områder af datasættet. For eksempel er et punkt i en "lille" afstand til enhver tæt klynge en outlier, mens et punkt i en sparsom klynge kan have lignende afstande til sine naboer.

Mens algoritmens geometriske intuition kun gælder for lavdimensionelle vektorrum, kan algoritmen anvendes i enhver sammenhæng, hvor en ulighedsfunktion kan defineres. Det er eksperimentelt blevet vist, at algoritmen fungerer godt i en lang række situationer, og den udkonkurrerer ofte konkurrenter, for eksempel i indtrængningsdetektionssystemer [5] og på behandlede klassifikationsdata [6] .

Familien af ​​metoder på lokalt afvigende niveau kan let generaliseres og derefter anvendes på forskellige andre problemer, såsom afvigende detektion i geografiske data, videostreams eller kreditnetværk [4] .

Ulemper og udvidelser

De resulterende værdier er svære at fortolke. En værdi på 1 eller endda mindre end én siger, at punktet er rent internt, men der er ingen klar regel om, at et punkt er en outlier. I et datasæt kan en værdi på 1,1 allerede betyde en outlier, i et andet datasæt og parametrisering (med stærke lokale udsving) kan en værdi på 2 stadig betyde et indre. Disse forskelle kan forekomme inden for det samme datasæt på grund af metodens lokalitet. Der er metodeudvidelser, der forsøger at forbedre algoritmen:

Noter

  1. Breunig, Kriegel, Ng, Sander, 2000 , s. 93-104.
  2. I stedet for "opnåelig afstand" i litteraturen findes også navnet "rækkevidde".
  3. Breunig, Kriegel, Ng, Sander, 1999 , s. 262.
  4. 1 2 3 Schubert, Zimek, Kriegel, 2012 .
  5. Lazarevic, Ozgur, Ertoz, Srivastava, Kumar, 2003 , s. 25-36.
  6. Campos, Zimek, Sander, Campello et al., 2016 .
  7. Lazarevic og Kumar 2005 , s. 157-166.
  8. Zimek, Campello, Sander, 2014 , s. elleve.
  9. Kriegel, Kröger, Schubert, Zimek, 2009 , s. 1649–1652
  10. Kriegel, Kröger, Schubert, Zimek, 2011 , s. 13-24.
  11. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , s. 1047-1058.

Litteratur