Data mining

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 7. maj 2022; checks kræver 6 redigeringer .

Data mining ( russisk data mining, data mining, data mining ) er et samlenavn, der bruges til at henvise til et sæt metoder til at detektere tidligere ukendt, ikke-triviel, praktisk nyttig og tilgængelig viden i data , der er nødvendig for at træffe beslutninger inden for forskellige områder af menneskelig aktivitet. Udtrykket blev introduceret af Grigory Pyatetsky-Shapiro i 1989 [1] [2] [3] .

Den engelske sætning " data mining " har endnu ikke en veletableret oversættelse til russisk. Ved transmission på russisk bruges følgende sætninger [4] : informationssifting , datamining, dataekstraktion , samt data mining [ 5] [6] [7] . Mere komplet og præcis er udtrykket " videnopdagelse i databaser " ( engelsk  videnopdagelse i databaser , KDD).

Grundlaget for data mining-metoder er alle slags klassifikations-, modellerings- og prognosemetoder baseret på brugen af ​​beslutningstræer , kunstige neurale netværk , genetiske algoritmer , evolutionær programmering , associativ hukommelse , fuzzy logik . Data mining-metoder omfatter ofte statistiske metoder ( deskriptiv analyse , korrelations- og regressionsanalyse , faktoranalyse , variansanalyse , komponentanalyse , diskriminantanalyse , tidsserieanalyse , overlevelsesanalyse , relationsanalyse ). Sådanne metoder antager dog nogle a priori ideer om de analyserede data, hvilket er noget i modstrid med målene for data mining (opdagelse af hidtil ukendt ikke-triviel og praktisk nyttig viden).

Et af de vigtigste formål med data mining-metoder er at visualisere resultaterne af beregninger (visualisering), som tillader brugen af ​​datamining-værktøjer af folk, der ikke har særlig matematisk uddannelse.

Anvendelse af statistiske metoder til dataanalyse kræver et godt kendskab til sandsynlighedsteori og matematisk statistik .

Introduktion

Data mining-metoder (eller, hvad der er det samme, videnopdagelse i data, KDD for kort) ligger i skæringspunktet mellem databaser , statistik og kunstig intelligens [8] .

Historisk digression

Området for data mining begyndte med et seminar afholdt af Grigory Pyatetsky-Shapiro i 1989 [1] .

Tidligere, mens han arbejdede hos GTE Labs, blev Grigory Pyatetsky-Shapiro interesseret i spørgsmålet: er det muligt automatisk at finde bestemte regler for at fremskynde nogle forespørgsler til store databaser. Samtidig blev der foreslået to begreber - data mining (“data mining” [9] ) og vidensopdagelse i data (som skal oversættes til “videnopdagelse i databaser”).

I 1993 blev den første Knowledge Discovery Nuggets-mailingliste frigivet, og i 1994 blev en af ​​de første datamining-sites oprettet.

Udtalelse af problemet

I første omgang er opgaven sat som følger:

Det er nødvendigt at udvikle metoder til at opdage viden skjult i store mængder af indledende "rå" data. Under de nuværende globale konkurrenceforhold er det de fundne mønstre (viden), der kan være en kilde til yderligere konkurrencefordele.

Hvad betyder "skjult viden"? Det skal være viden om:

Disse krav bestemmer i høj grad essensen af ​​datamining-metoder, og i hvilken form og i hvilket forhold databasestyringssystemer , statistiske analysemetoder og kunstig intelligens-metoder bruges i data-mining-teknologi.

Data mining og databaser

Data mining-metoder kan anvendes både til at arbejde med big data og til at behandle relativt små mængder data (f.eks. opnået fra resultaterne af individuelle eksperimenter, eller ved analyse af data om virksomhedens aktiviteter) . Som et kriterium for en tilstrækkelig mængde data betragtes både studieretningen og den anvendte analysealgoritme. .

Udviklingen af ​​databaseteknologier førte først til skabelsen af ​​et specialiseret sprog - databaseforespørgselssproget. For relationelle databaser  er dette SQL -sproget , som gav rigelige muligheder for at oprette, ændre og hente lagrede data. Så var der behov for at indhente analytisk information (f.eks. information om en virksomheds aktiviteter i en vis periode), og så viste det sig, at traditionelle relationsdatabaser, veltilpasset f.eks. til at føre driftsregistre i en virksomhed, er dårligt tilpasset til analyse. Dette førte til gengæld til oprettelsen af ​​den såkaldte. " datalagre ", hvis selve strukturen er på den bedste måde at udføre en omfattende matematisk analyse.

Data mining og kunstig intelligens

Viden opnået ved data mining-metoder er normalt repræsenteret i form af mønstre (mønstre) . Disse er:

Algoritmer til at søge efter sådanne mønstre er i skæringspunktet mellem områder: kunstig intelligens, matematisk statistik, matematisk programmering, visualisering, OLAP .

Data mining og forretning

Ifølge IBM er behandlingen af ​​"big data" "evnen til at bruge information på en ny måde til at generere nyttige ideer eller skabe varer og tjenester af høj værdi" Denne definition behandler big data som en type analyse , da man arbejder med dem har til formål at udtrække nyttig information, der kan give en konkurrencefordel [10] .

Opgaver

Opgaverne, der løses af data mining-metoder, er normalt opdelt i deskriptiv ( engelsk  deskriptiv ) og prædiktiv ( engelsk  prædiktiv ).

I deskriptive opgaver er det vigtigste at give en visuel beskrivelse af de eksisterende skjulte mønstre, mens i prædiktive opgaver er spørgsmålet om forudsigelse for de sager, der endnu ikke er data for, i højsædet.

Beskrivende opgaver omfatter:

  • søg efter foreningsregler eller mønstre (prøver);
  • gruppering af objekter, klyngeanalyse;
  • opbygning af en regressionsmodel.

Forudsigende opgaver omfatter:

Læringsalgoritmer

Klassifikationsproblemer er karakteriseret ved " overvåget læring ", hvor konstruktionen (træningen) af modellen udføres på en prøve indeholdende input- og outputvektorer.

Til clustering og associationsproblemer anvendes " unsupervised learning ", hvor modellen er bygget på en prøve, der ikke har en outputparameter. Værdien af ​​outputparameteren ("refererer til en klynge ...", "ligner en vektor ...") vælges automatisk i indlæringsprocessen.

Beskrivelsesreduktionsproblemer er karakteriseret ved fraværet af opdeling i input- og outputvektorer . Begyndende med C. Pearsons klassiske arbejde om principal komponent analyse , er fokus på dataapproksimation .

Indlæringsstadier

En række faser af løsning af problemer ved hjælp af data mining-metoder:

  1. Redegørelse for analyseproblemet;
  2. Dataindsamling;
  3. Dataforberedelse (filtrering, tilføjelse, kodning);
  4. Modelvalg (dataanalysealgoritme);
  5. Valg af modelparametre og indlæringsalgoritme;
  6. Modeltræning (automatisk søgning efter andre modelparametre);
  7. Analyse af uddannelseskvaliteten, hvis analysen er utilfredsstillende - gå til afsnit 5 eller stk.
  8. Analyse af de identificerede mønstre, hvis analysen er utilfredsstillende - gå til trin 1, 4 eller 5.

Dataforberedelse

Før du bruger data mining-algoritmer, er det nødvendigt at forberede et sæt analyserede data. Da IAD kun kan detektere mønstre, der er til stede i dataene, skal startdata på den ene side være af tilstrækkelig volumen til at disse mønstre er til stede i dem, og på den anden side være kompakte nok til at analysen tager et acceptabelt tidspunkt. Oftest fungerer datavarehuse eller datamarts som kildedata . Forberedelse er påkrævet for at analysere multidimensionelle data forud for clustering eller data mining.

Dataene filtreres derefter. Filtrering fjerner prøver med støj og manglende data.

De filtrerede data reduceres til funktionssæt (eller vektorer, hvis algoritmen kun kan arbejde med fastdimensionelle vektorer), et funktionssæt pr. observation. Sættet af funktioner er dannet i overensstemmelse med hypoteserne om hvilke funktioner i rådataene, der har en høj forudsigelseskraft baseret på den nødvendige computerkraft til behandling. For eksempel indeholder et 100×100 pixel sort/hvidt ansigtsbillede 10.000 bits rådata. De kan konverteres til en funktionsvektor ved at detektere øjne og mund i billedet. Som et resultat er der en reduktion i mængden af ​​data fra 10 tusinde bits til en liste over positionskoder, hvilket reducerer mængden af ​​analyserede data betydeligt og dermed analysetiden.

En række algoritmer er i stand til at behandle manglende data, der har forudsigelseskraft (f.eks. fraværet af en bestemt type køb af en klient). For eksempel, når du bruger metoden til tilknytningsregler , behandles ikke funktionsvektorer, men sæt af variable dimensioner.

Valget af den objektive funktion vil afhænge af, hvad der er formålet med analysen; at vælge den "rigtige" funktion er grundlæggende for vellykket data mining.

Observationer er opdelt i to kategorier - træningssæt og testsæt. Træningssættet bruges til at "træne" data mining-algoritmen, og testsættet bruges til at teste de fundne mønstre.

Se også

Noter

  1. 1 2 Se hans interview Arkiveret 16. december 2010 på Wayback Machine , givet af ham til magasinet Computerra i 2007.
  2. V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Anvendelse af data mining-teknologier inden for naturvidenskab, tekniske og humanitære områder.
  3. O. S. Kovalenko, Gennemgang af problemer og udsigter til dataanalyse  (utilgængeligt link) .
  4. A. A. Ezhov, S. A. Shumsky, Foredrag: Vidensekstraktion ved hjælp af neurale netværk Arkiveret 7. april 2011 på Wayback Machine .
  5. Microsoft SQL Server 2008 R2: A New Approach to Information Management Arkiveret 15. juli 2014.
  6. Oracle Data Mining: Nutid og fremtid Arkiveret 8. marts 2012 på Wayback Machine .
  7. Stepanov R.G. Data Mining Technology: Data Mining Arkivkopi dateret 11. juni 2017 på Wayback Machine .
  8. Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Introduktionsartikel til bogen: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3. udg. revideret og yderligere St. Petersborg: BHV-Peterburg, 2009. 512 s. S. 13.
  9. Diskuterer begrebet: data mining / Technical Translation School Arkiveret 2. februar 2014 på Wayback Machine .
  10. Millner, Khan, 2022 , Moving to Big Data, s. 77-78.

Litteratur

  • Paklin N. B., Oreshkov V. I. Forretningsanalyse: fra data til viden (+ CD). - Sankt Petersborg. : Ed. Peter, 2009. - 624 s.
  • Duke V., Samoylenko A. Data Mining: træningskursus (+CD). - Sankt Petersborg. : Ed. Peter, 2001. - 368 s.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. ANERKENDELSE. Matematiske metoder. Software system. Praktiske anvendelser. - M. : Red. "Phasis", 2006. - 176 s. — ISBN 5-7036-0108-8 .
  • Chubukova I. A. Data Mining: en tutorial . - M. : Internet University of Information Technologies: BINOM: Knowledge Laboratory, 2006. - 382 s. — ISBN 5-9556-0064-7 .
  • Sitnik V. F., Krasnyuk M. T. Intellektuel dataanalyse (data mining): Navch. hjælper. - K .: KNEU, 2007. - 376 s.
  • Ian H. Witten, Eibe Frank og Mark A. Hall. Data Mining: Praktiske maskinlæringsværktøjer og -teknikker . - 3. udgave. - Morgan Kaufmann, 2011. - S.  664 . — ISBN 9780123748560 .
  • Dave Millner, Nadeem Khan. HR-analyse. Introduktion til People Analytics: En praktisk guide til datadrevet HR. — M .: Alpina Publisher , 2022. — 384 s. — ISBN 978-5-9614-7831-0 .
  • Orlov A.I. Kunstig intelligens: Statistiske metoder til dataanalyse: lærebog. - M .: AI Pi Ar Media, 2022. - 843 s. — ISBN 978-5-4497-1470-1 [1]
  • Orlov A.I., Lutsenko E.V. Analyse af data, information og viden i systemisk fuzzy interval-matematik: videnskabelig monografi. - Krasnodar: KubGAU, 2022. - 405 s. [2]

Links