Anomali detektion
Anomalidetektion (også kendt som outlier-detektion [1] ) er identifikation under dataudvinding af sjældne data, hændelser eller observationer, der er mistænkelige, fordi de er væsentligt forskellige fra hovedparten af dataene [1] . Typisk karakteriserer unormale data en eller anden form for problem, såsom banksvindel en strukturel defekt, medicinske problemer eller fejl i tekst. Anomalier omtales også som outliers , mærkværdigheder, støj, afvigelser eller undtagelser [2] .
Generel diskussion
Anomalidetektion i forbindelse med ondsindet brugsdetektion og netværksindtrængen, objekter af interesse er ofte ikke sjældne , men viser et uventet aktivitetsudbrud. Dette passer ikke til den sædvanlige statistiske definition af outliers som sjældne objekter, og mange outlier-detektionsmetoder (især ikke-overvågede metoder ) fejler på sådanne data, indtil dataene er grupperet korrekt. På den anden side er klyngeanalysealgoritmer i stand til at bemærke mikroklynger dannet af sådan adfærd [3] .
Der er en bred vifte af kategorier af anomalidetektionsteknikker [4] . Teknikken til registrering af uovervågede anomalier detekterer anomalier i umærkede testdatasæt under den antagelse, at det meste af datasættet er normalt, ved at lede efter repræsentanter, der passer mindre godt med resten af datasættet. Den overvågede anomalidetektionsteknik kræver tilvejebringelse af data, der er mærket som "normale" og "unormale" og bruger klassificeringstræning (en væsentlig forskel fra mange andre klassifikationsproblemer ligger i den iboende ubalancerede karakter af outlier-detektion). Teknikken til detektering af delvis overvåget anomali bygger en model, der repræsenterer normal adfærd fra et givet sæt normale træningssæt og tester derefter den resulterende model for plausibilitet.
Ansøgninger
Anomalidetektion er anvendelig til en lang række områder såsom indtrængningsdetektion , svindeldetektion , fejldetektion, sundhedsovervågning, hændelsesdetektion i sensornetværk og miljøforstyrrelsesdetektion. Ofte bruges anomalidetektion til at forbehandle data for at fjerne anomalier. Ved overvåget læring resulterer fjernelse af unormale data fra et sæt ofte i en signifikant statistisk stigning i nøjagtighed [5] [6] .
Populære teknikker
Adskillige anomalidetektionsteknikker er blevet foreslået i litteraturen [7] . Her er nogle populære teknikker:
Ydeevnen af forskellige metoder er data- og parameterafhængig og har ringe systematiske fordele i forhold til hinanden, når de sammenlignes på tværs af flere data og parametersæt [27] [28] .
Ansøgning til databeskyttelse
Anomalidetektion blev foreslået til indtrængningsdetektionssystemer af Dorothy Denning i 1986 [29] . Anomalidetektion for indtrængningsdetektionssystemer udføres normalt med en tærskelværdi og statistik, men kan udføres med soft computing og induktiv læring [30] . De typer af statistikker, der blev tilbudt i 1999, omfattede profiler af brugere, arbejdsstationer , netværk, fjernværter, brugergrupper og programmer baseret på frekvenser, midler og varianser [31] . Det svarer til afsløring af uregelmæssigheder i indtrængningsdetektion er detektion af ondsindet brug .
Software
- ELKI er et open source Java -sprogværktøjssæt til dataanalyse, der indeholder nogle anomalidetektionsalgoritmer samt indeksbaserede acceleratorer til dem.
Datasæt
Se også
Noter
- ↑ 1 2 Zimek, Schubert, 2017 , s. 1-5.
- ↑ Hodge, Austin, 2004 , s. 85-126.
- ↑ Dokas, Ertoz, Kumar et al., 2002 .
- ↑ Chandola, Banerjee, Kumar, 2009 , s. 1-58.
- ↑ Tomek, 1976 , s. 448-452.
- ↑ Smith og Martinez, 2011 , s. 2690.
- ↑ Zimek, Filzmoser, 2018 , s. e1280.
- ↑ Knorr, Ng, Tucakov, 2000 , s. 237-253.
- ↑ Ramaswamy, Rastogi, Shim, 2000 , s. 427.
- ↑ Angiulli, Pizzuti, 2002 , s. femten.
- ↑ Breunig, Kriegel, Ng, Sander, 2000 , s. 93-104.
- ↑ Liu, Ting, Zhou, 2008 , s. 413-422.
- ↑ Schubert, Zimek, Kriegel, 2012 , s. 190-237.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2009 , s. 831.
- ↑ Kriegel, Kroger, Schubert, Zimek, 2012 , s. 379.
- ↑ Zimek, Schubert, Kriegel, 2012 , s. 363-387.
- ↑ Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , s. 1443–71.
- ↑ 1 2 3 Hawkins, He, Williams, Baxter, 2002 , s. 170-180.
- ↑ He, Xu, Deng, 2003 , s. 1641-1650
- ↑ Campello, Moulavi, Zimek, Sander, 2015 , s. 5:1-51.
- ↑ Lazarevic og Kumar 2005 , s. 157-166.
- ↑ Nguyen, Ang, Gopalkrishnan, 2010 , s. 368.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2011 , s. 13-24.
- ↑ Schubert, Wojdanowski, Zimek, Kriegel, 2012 , s. 1047-1058.
- ↑ Zimek, Campello, Sander (1), 2014 , s. 11-22.
- ↑ Zimek, Campello, Sander (2), 2014 , s. en.
- ↑ Campos, Zimek, Sander et al., 2016 , s. 891.
- ↑ Se datasæt nedenfor
- ↑ Denning, 1987 , s. 222-232.
- ↑ Teng, Chen, Lu, 1990 , s. 278-284.
- ↑ Jones, Sielken, 1999 .
Litteratur
- Arthur Zimek, Erich Schubert. Outlier Detection // Encyclopedia of Database Systems . - Springer New York, 2017. - ISBN 9781489979933 . - doi : 10.1007/978-1-4899-7993-3_80719-1 .
- Hodge VJ, Austin J. En undersøgelse af outlier-detektionsmetoder // Artificial Intelligence Review. - 2004. - T. 22 , no. 2 . - doi : 10.1007/s10462-004-4304-y .
- Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. Data mining til netværksindtrængningsdetektion // Proceedings NSF Workshop on Next Generation Data Mining. - 2002.
- Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM Computing Surveys . - 2009. - T. 41 , no. 3 . - doi : 10.1145/1541880.1541882 .
- Ivan Tomek. Et eksperiment med den redigerede regel for nærmeste nabo // IEEE-transaktioner på systemer, mennesker og kybernetik . - 1976. - T. 6 , no. 6 . - doi : 10.1109/TSMC.1976.4309523 .
- Smith MR, Martinez T. Forbedring af klassificeringsnøjagtighed ved at identificere og fjerne tilfælde, der burde være forkert klassificeret // 2011 International Joint Conference on Neurale Networks . - 2011. - ISBN 978-1-4244-9635-8 . - doi : 10.1109/IJCNN.2011.6033571 .
- Arthur Zimek, Peter Filzmoser. Der og tilbage igen: Outlier-detektion mellem statistisk ræsonnement og data mining-algoritmer // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. - 2018. - V. 8 , no. 6 . — ISSN 19424787 . - doi : 10.1002/widm.1280 .
- Knorr EM, Ng RT, Tucakov V. Afstandsbaserede outliers: Algoritmer og applikationer // The VLDB Journal the International Journal on Very Large Data Bases. - 2000. - T. 8 , no. 3–4 . - doi : 10.1007/s007780050006 .
- Ramaswamy S., Rastogi R., Shim K. Effektive algoritmer til minedrift af outliers fra store datasæt // Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. - 2000. - ISBN 1-58113-217-4 . - doi : 10.1145/342009.335437 .
- Angiulli F., Pizzuti C. Fast Outlier Detection in High Dimensional Spaces // Principper for Data Mining og Knowledge Discovery. - 2002. - T. 2431. - (Lecture Notes in Computer Science). — ISBN 978-3-540-44037-6 . - doi : 10.1007/3-540-45681-3_2 .
- Breunig MM, Kriegel H.-P., Ng RT, Sander J. LOF: Identifikation af tæthedsbaserede lokale outliers // Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data . - 2000. - ( SIGMOD ). — ISBN 1-58113-217-4 . - doi : 10.1145/335191.335388 .
- Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation Forest // 2008 Ottende IEEE International Conference on Data Mining. - 2008. - ISBN 9780769535029 . - doi : 10.1109/ICDM.2008.17 .
- Schubert E., Zimek A., Kriegel H.-P. Lokal outlier-detektion genovervejet: En generaliseret visning af lokalitet med applikationer til rumlig, video- og netværksoutlier-detektion // Data Mining og Knowledge Discovery. - 2012. - T. 28 . - doi : 10.1007/s10618-012-0300-z .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Outlier-detektion i akseparallelle underrum af højdimensionelle data // Fremskridt inden for videnopdagelse og datamining. - 2009. - T. 5476. - (Lecture Notes in Computer Science). - ISBN 978-3-642-01306-5 . - doi : 10.1007/978-3-642-01307-2_86 .
- Kriegel HP, Kroger P., Schubert E., Zimek A. Outlier Detection in Arbitrarily Oriented Subspaces // 2012 IEEE 12th International Conference on Data Mining. - 2012. - ISBN 978-1-4673-4649-8 . - doi : 10.1109/ICDM.2012.21 .
- Zimek A., Schubert E., Kriegel H.-P. En undersøgelse om uovervåget outlier-detektion i højdimensionelle numeriske data // Statistisk analyse og dataudvinding. - 2012. - V. 5 , no. 5 . - doi : 10.1002/sam.11161 .
- Schölkopf B., Platt JC, Shawe-Taylor J., Smola AJ, Williamson R.C. Estimating the Support of a High-Dimensional Distribution // Neural Computation. - 2001. - T. 13 , no. 7 . doi : 10.1162 / 089976601750264965 . — PMID 11440593 .
- Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Outlier-detektion ved hjælp af replikator-neurale netværk // Data Warehousing og Knowledge Discovery. - 2002. - T. 2454. - (Lecture Notes in Computer Science). - ISBN 978-3-540-44123-6 . - doi : 10.1007/3-540-46145-0_17 .
- He Z., Xu X., Deng S. Opdagelse af klyngebaserede lokale outliers // Pattern Recognition Letters. - 2003. - T. 24 , no. 9-10 . - doi : 10.1016/S0167-8655(03)00003-5 .
- Campello RJGB, Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. - 2015. - T. 10 , no. 1 . - doi : 10.1145/2733381 .
- Lazarevic A., Kumar V. Funktionsposer til afvigende detektering // Proc. 11. ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. - 2005. - ISBN 978-1-59593-135-1 . - doi : 10.1145/1081870.1081891 .
- Nguyen HV, Ang HH, Gopalkrishnan V. Mineoutliers med ensemble af heterogene detektorer på tilfældige underrum // Databasesystemer til avancerede applikationer. - 2010. - T. 5981. - (Lecture Notes in Computer Science). - ISBN 978-3-642-12025-1 . - doi : 10.1007/978-3-642-12026-8_29 .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Interpreting and Unifying Outlier Scores // Proceedings of the 2011 SIAM International Conference on Data Mining . - 2011. - ISBN 978-0-89871-992-5 . - doi : 10.1137/1.9781611972818.2 .
- Schubert E., Wojdanowski R., Zimek A., Kriegel HP Om evaluering af outlier-rangeringer og outlier-scores // Proceedings of the 2012 SIAM International Conference on Data Mining . - 2012. - ISBN 978-1-61197-232-0 . - doi : 10.1137/1.9781611972825.90 .
- Zimek A., Campello RJGB, Sander JR Ensembles for unsupervised outlier detection // ACM SIGKDD Explorations Newsletter. - 2014. - T. 15 . - doi : 10.1145/2594473.2594476 .
- Zimek A., Campello RJGB, Sander JR Dataforstyrrelse til afvigende detekteringsensembler // Proceedings of the 26th International Conference on Scientific and Statistical Database Management – SSDBM '14. - 2014. - ISBN 978-1-4503-2722-0 . - doi : 10.1145/2618243.2618257 .
- Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo JGB Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. Om evaluering af uovervåget outlier-detektion: foranstaltninger, datasæt og en empirisk undersøgelse // Data Mining and Knowledge Discovery. - 2016. - T. 30 , no. 4 . - ISSN 1384-5810 . - doi : 10.1007/s10618-015-0444-8 .
- Denning DE An Intrusion-Detection Model // IEEE Transactions on Software Engineering . - 1987. - T. SE-13 , no. 2 . - doi : 10.1109/TSE.1987.232894 .
- Teng HS, Chen K., Lu SC Adaptiv anomalidetektion i realtid ved hjælp af induktivt genererede sekventielle mønstre // Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy. - 1990. - ISBN 978-0-8186-2060-7 . - doi : 10.1109/RISP.1990.63857 .
- Anita K. Jones, Robert S. Sielken. Computer System Intrusion Detection: A Survey // Teknisk rapport, Institut for Datalogi,. — University of Virginia, Charlottesville, VA, 1999.