Anomali detektion

Anomalidetektion (også kendt som outlier-detektion [1] ) er identifikation under dataudvinding af sjældne data, hændelser eller observationer, der er mistænkelige, fordi de er væsentligt forskellige fra hovedparten af ​​dataene [1] . Typisk karakteriserer unormale data en eller anden form for problem, såsom banksvindel en strukturel defekt, medicinske problemer eller fejl i tekst. Anomalier omtales også som outliers , mærkværdigheder, støj, afvigelser eller undtagelser [2] .

Generel diskussion

Anomalidetektion i forbindelse med ondsindet brugsdetektion og netværksindtrængen, objekter af interesse er ofte ikke sjældne , men viser et uventet aktivitetsudbrud. Dette passer ikke til den sædvanlige statistiske definition af outliers som sjældne objekter, og mange outlier-detektionsmetoder (især ikke-overvågede metoder ) fejler på sådanne data, indtil dataene er grupperet korrekt. På den anden side er klyngeanalysealgoritmer i stand til at bemærke mikroklynger dannet af sådan adfærd [3] .

Der er en bred vifte af kategorier af anomalidetektionsteknikker [4] . Teknikken til registrering af uovervågede anomalier detekterer anomalier i umærkede testdatasæt under den antagelse, at det meste af datasættet er normalt, ved at lede efter repræsentanter, der passer mindre godt med resten af ​​datasættet. Den overvågede anomalidetektionsteknik kræver tilvejebringelse af data, der er mærket som "normale" og "unormale" og bruger klassificeringstræning (en væsentlig forskel fra mange andre klassifikationsproblemer ligger i den iboende ubalancerede karakter af outlier-detektion). Teknikken til detektering af delvis overvåget anomali bygger en model, der repræsenterer normal adfærd fra et givet sæt normale træningssæt og tester derefter den resulterende model for plausibilitet.

Ansøgninger

Anomalidetektion er anvendelig til en lang række områder såsom indtrængningsdetektion , svindeldetektion , fejldetektion, sundhedsovervågning, hændelsesdetektion i sensornetværk og miljøforstyrrelsesdetektion. Ofte bruges anomalidetektion til at forbehandle data for at fjerne anomalier. Ved overvåget læring resulterer fjernelse af unormale data fra et sæt ofte i en signifikant statistisk stigning i nøjagtighed [5] [6] .

Populære teknikker

Adskillige anomalidetektionsteknikker er blevet foreslået i litteraturen [7] . Her er nogle populære teknikker:

Ydeevnen af ​​forskellige metoder er data- og parameterafhængig og har ringe systematiske fordele i forhold til hinanden, når de sammenlignes på tværs af flere data og parametersæt [27] [28] .

Ansøgning til databeskyttelse

Anomalidetektion blev foreslået til indtrængningsdetektionssystemer af Dorothy Denning i 1986 [29] . Anomalidetektion for indtrængningsdetektionssystemer udføres normalt med en tærskelværdi og statistik, men kan udføres med soft computing og induktiv læring [30] . De typer af statistikker, der blev tilbudt i 1999, omfattede profiler af brugere, arbejdsstationer , netværk, fjernværter, brugergrupper og programmer baseret på frekvenser, midler og varianser [31] . Det svarer til afsløring af uregelmæssigheder i indtrængningsdetektion er detektion af ondsindet brug .

Software

Datasæt

Se også

Noter

  1. 1 2 Zimek, Schubert, 2017 , s. 1-5.
  2. Hodge, Austin, 2004 , s. 85-126.
  3. Dokas, Ertoz, Kumar et al., 2002 .
  4. Chandola, Banerjee, Kumar, 2009 , s. 1-58.
  5. Tomek, 1976 , s. 448-452.
  6. Smith og Martinez, 2011 , s. 2690.
  7. Zimek, Filzmoser, 2018 , s. e1280.
  8. Knorr, Ng, Tucakov, 2000 , s. 237-253.
  9. Ramaswamy, Rastogi, Shim, 2000 , s. 427.
  10. Angiulli, Pizzuti, 2002 , s. femten.
  11. Breunig, Kriegel, Ng, Sander, 2000 , s. 93-104.
  12. Liu, Ting, Zhou, 2008 , s. 413-422.
  13. Schubert, Zimek, Kriegel, 2012 , s. 190-237.
  14. Kriegel, Kröger, Schubert, Zimek, 2009 , s. 831.
  15. Kriegel, Kroger, Schubert, Zimek, 2012 , s. 379.
  16. Zimek, Schubert, Kriegel, 2012 , s. 363-387.
  17. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , s. 1443–71.
  18. 1 2 3 Hawkins, He, Williams, Baxter, 2002 , s. 170-180.
  19. He, Xu, Deng, 2003 , s. 1641-1650
  20. Campello, Moulavi, Zimek, Sander, 2015 , s. 5:1-51.
  21. Lazarevic og Kumar 2005 , s. 157-166.
  22. Nguyen, Ang, Gopalkrishnan, 2010 , s. 368.
  23. Kriegel, Kröger, Schubert, Zimek, 2011 , s. 13-24.
  24. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , s. 1047-1058.
  25. Zimek, Campello, Sander (1), 2014 , s. 11-22.
  26. Zimek, Campello, Sander (2), 2014 , s. en.
  27. Campos, Zimek, Sander et al., 2016 , s. 891.
  28. Se datasæt nedenfor
  29. Denning, 1987 , s. 222-232.
  30. Teng, Chen, Lu, 1990 , s. 278-284.
  31. Jones, Sielken, 1999 .

Litteratur