Data science ( engelsk data science ; nogle gange datalogy - datalogy [1] ) er en sektion af datalogi , der studerer problemerne med at analysere , behandle og præsentere data i digital form. Kombinerer metoder til behandling af data under forhold med store mængder og et højt niveau af parallelitet, statistiske metoder , metoder til data mining og kunstig intelligens applikationer til at arbejde med data, samt metoder til design og udvikling af databaser .
Betragtet som en akademisk disciplin [2] , og siden begyndelsen af 2010'erne, i høj grad på grund af populariseringen af begrebet " big data " [3] , - og som et praktisk tværfagligt aktivitetsfelt, desuden specialiseringen of a scientistdata [4] [5] .
Begyndelsen på dannelsen af en dedikeret disciplin anses for at være 1966 , hvor Komiteen for Data for Videnskab og Teknologi (CODATA) [6] blev oprettet , og den første introduktion af begrebet datavidenskab refererer til Peter Naurs bog i 1974, hvor han eksplicit definerede datavidenskab som en disciplin, der studerede digitale datas livscyklus - fra udseende til transformation til præsentation på andre vidensområder [7] (der er en opfattelse af, at Naur brugte udtrykket "data science" i slutningen af 1960'erne [8] ).
Men først i 1990'erne blev udtrykket, der betegner disciplin, meget brugt [9] [6] , og først i begyndelsen af 2000'erne blev det generelt accepteret, primært på grund af en artikel af Bell Labs statistiker William Cleveland (fra 2012 professor i statistik ved Purdue University ), hvori han offentliggjorde en plan for udviklingen af de tekniske aspekter af statistisk forskning og identificerede datavidenskab som en separat akademisk disciplin, hvori disse tekniske aspekter skulle koncentreres [10] [11] .
I 2002 lancerede Komitéen for Data for Videnskab og Teknologi udgivelsen af CODATA Data Science Journal, som indeholder navnet på disciplinen i titlen, og i januar 2003 blev det første nummer af The Journal of Data Science ved Columbia University udgivet .
En anden stigning i udbredt interesse for datavidenskab refererer til fremkomsten af " big data "-paradigmet, som fokuserer på nye teknologiske muligheder for at behandle data af store mængder og mangfoldighed, herunder gennem anvendelse af metoder udviklet i 2000'erne inden for datavidenskab. Siden 2011 har O'Reilly afholdt en række større datavidenskabskonferencer - Strata [12] , EMC har afholdt et årligt datavidenskabstopmøde siden 2011 [13] . McKinsey forudsagde i 2011 en efterspørgsel i USA efter 440-490 tusinde nye specialister med "dybe analytiske færdigheder i at arbejde med big data" i 2018 og en mangel på 50% - 60% i sådanne specialister, samtidig med at uddannelsestendenser opretholdes [14] , i I forbindelse med denne prognose blev interessen for udarbejdelse af læseplaner i høj grad drevet [15] .
I 2012, er data scientist professionen gentagne gange noteret som en af de mest attraktive ( eng. sexet ) og lovende i den moderne verden, det hævdes, at sådanne specialister vil spille en nøglerolle i organisationer, på grund af mulighederne for at opnå konkurrencemæssige fordele gennem analyse, hurtig behandling og udtræk af mønstre i data, primært i teknologiindustrier [16] [5] .
Siden det akademiske år 2013 har University of Dundee , University of Auckland , University of Southern California lanceret masteruddannelser i datavidenskab, og Business School of Imperial College London har lanceret et program til forberedelse af "Masters of Science i Data Science and Management" ( eng. MSc Data Science & Management ) [17] . Samme år modtog University of Washington , University of California i Berkeley og New York University en bevilling på 37,8 millioner dollars til at fremme datavidenskab, som over fem år blandt andet skal opbygge læseplaner og skabe muligheder for en akademiker karriere inden for området [18] .
Det vigtigste praktiske mål med professionel aktivitet inden for datavidenskab er at opdage mønstre i data [19] , ved at udtrække viden fra data i en generaliseret form [20] . For at forklare de færdigheder, der kræves til aktiviteter på dette område, bruges ofte Venn-diagrammet [21] , hvor de færdigheder, som kræves af en specialist, afspejles i krydsfeltet mellem områder med almen fagerfaring ( engelsk substantive expertise ), praktisk erfaring med information teknologi ( hacking færdigheder ) og viden matematisk statistik [22] .
Som et epistemologisk træk ved disciplinen angives prioriteringen af resultaternes praktiske anvendelighed, det vil sige forudsigelsernes succes, frem for deres kausalitet, mens det i traditionelle forskningsområder er væsentligt at forklare fænomenets karakter [23] . Sammenlignet med klassisk statistik , på de metoder, som datavidenskab i vid udstrækning er baseret på, indebærer det studiet af superstore heterogene arrays af digital information og en uløselig forbindelse med informationsteknologier, der sørger for deres behandling [24] . I sammenligning med aktiviteter inden for design og arbejde med databaser, hvor det forudsættes, at det foreløbige design af en datamodel, der afspejler forholdet mellem fagområdet og den efterfølgende undersøgelse af de indlæste data med relativt simple (aritmetiske) metoder, datavidenskab antager afhængighed af matematisk statistik, kunstig intelligens, maskinlæring, ofte uden først at indlæse dataene i modellen. Sammenlignet med professionen som en analytiker, hvis hovedmål er at beskrive fænomener baseret på akkumulerede data med relativt simple brugerværktøjer (som regneark eller Business Intelligence -klasseværktøjer ), kræver profilen af en dataforsker mindre fokus på indholdet af fagområder, men kræver dybere viden inden for matematisk statistik, maskinlæring, programmering og generelt et højere uddannelsesniveau ( kandidater , videnskabskandidater , ph.d. i sammenligning med bachelorer og specialister ) [25] .
University of Washington Introduktion til Data Science-kurset , offentliggjort på Coursera , har følgende sektioner [26] :
Data Science-blokken på kandidatuddannelsen i datavidenskab og ledelse ved Imperial College London inkluderer et forberedende kursus til avanceret statistik . Følgende discipliner er direkte inkluderet i datavidenskabskurset:
Efter kurser i datavidenskab og det grundlæggende i ledelse giver uddannelsen et anvendt kursus, opdelt i to strømme, risikostyring , asset management og afledte finansielle instrumenter indgår i den finansielle og teknologiske strøm, og behandling af store datasæt indgår i rådgivningen strøm , netværksanalyse, økonometrisk analyse, applikationer inden for tjenester og rådgivning, energi , sundhedspleje , politik . [17]
University of Dundee - programmet lægger vægt på " big data ", primært i modsætning til "regnearksbehandling", og fokuserer på datamining , database- og lagermodellering , statistik , og sprogene SQL , MDX , R , Erlang , Java studeres indenfor programmet , Hadoop og NoSQL værktøjer [27] .