Datavidenskab

Data science ( engelsk data science ; nogle gange datalogy - datalogy [1] ) er en sektion af datalogi , der studerer problemerne med at analysere , behandle og præsentere data i digital form. Kombinerer metoder til behandling af data under forhold med store mængder og et højt niveau af parallelitet, statistiske metoder , metoder til data mining og kunstig intelligens applikationer til at arbejde med data, samt metoder til design og udvikling af databaser .

Betragtet som en akademisk disciplin [2] , og siden begyndelsen af 2010'erne, i høj grad på grund af populariseringen af begrebet " big data " [3] , - og som et praktisk tværfagligt aktivitetsfelt, desuden specialiseringen of a scientistdata [4] [5] .

Historie

Begyndelsen på dannelsen af en dedikeret disciplin anses for at være 1966 , hvor Komiteen for Data for Videnskab og Teknologi (CODATA) [6] blev oprettet , og den første introduktion af begrebet datavidenskab refererer til Peter Naurs bog i 1974, hvor han eksplicit definerede datavidenskab som en disciplin, der studerede digitale datas livscyklus - fra udseende til transformation til præsentation på andre vidensområder [7] (der er en opfattelse af, at Naur brugte udtrykket "data science" i slutningen af 1960'erne [8] ).

Men først i 1990'erne blev udtrykket, der betegner disciplin, meget brugt [9] [6] , og først i begyndelsen af 2000'erne blev det generelt accepteret, primært på grund af en artikel af Bell Labs statistiker William Cleveland (fra 2012 professor i statistik ved Purdue University ), hvori han offentliggjorde en plan for udviklingen af de tekniske aspekter af statistisk forskning og identificerede datavidenskab som en separat akademisk disciplin, hvori disse tekniske aspekter skulle koncentreres [10] [11] .

I 2002 lancerede Komitéen for Data for Videnskab og Teknologi udgivelsen af CODATA Data Science Journal, som indeholder navnet på disciplinen i titlen, og i januar 2003 blev det første nummer af The Journal of Data Science ved Columbia University udgivet .

En anden stigning i udbredt interesse for datavidenskab refererer til fremkomsten af " big data "-paradigmet, som fokuserer på nye teknologiske muligheder for at behandle data af store mængder og mangfoldighed, herunder gennem anvendelse af metoder udviklet i 2000'erne inden for datavidenskab. Siden 2011 har O'Reilly afholdt en række større datavidenskabskonferencer - Strata [12] , EMC har afholdt et årligt datavidenskabstopmøde siden 2011 [13] . McKinsey forudsagde i 2011 en efterspørgsel i USA efter 440-490 tusinde nye specialister med "dybe analytiske færdigheder i at arbejde med big data" i 2018 og en mangel på 50% - 60% i sådanne specialister, samtidig med at uddannelsestendenser opretholdes [14] , i I forbindelse med denne prognose blev interessen for udarbejdelse af læseplaner i høj grad drevet [15] .

I 2012, er data scientist professionen gentagne gange noteret som en af de mest attraktive ( eng. sexet ) og lovende i den moderne verden, det hævdes, at sådanne specialister vil spille en nøglerolle i organisationer, på grund af mulighederne for at opnå konkurrencemæssige fordele gennem analyse, hurtig behandling og udtræk af mønstre i data, primært i teknologiindustrier [16] [5] .

Siden det akademiske år 2013 har University of Dundee , University of Auckland , University of Southern California lanceret masteruddannelser i datavidenskab, og Business School of Imperial College London har lanceret et program til forberedelse af "Masters of Science i Data Science and Management" ( eng. MSc Data Science & Management ) [17] . Samme år modtog University of Washington , University of California i Berkeley og New York University en bevilling på 37,8 millioner dollars til at fremme datavidenskab, som over fem år blandt andet skal opbygge læseplaner og skabe muligheder for en akademiker karriere inden for området [18] .

Indhold

Det vigtigste praktiske mål med professionel aktivitet inden for datavidenskab er at opdage mønstre i data [19] , ved at udtrække viden fra data i en generaliseret form [20] . For at forklare de færdigheder, der kræves til aktiviteter på dette område, bruges ofte Venn-diagrammet [21] , hvor de færdigheder, som kræves af en specialist, afspejles i krydsfeltet mellem områder med almen fagerfaring ( engelsk substantive expertise ), praktisk erfaring med information teknologi ( hacking færdigheder ) og viden matematisk statistik [22] .

Som et epistemologisk træk ved disciplinen angives prioriteringen af resultaternes praktiske anvendelighed, det vil sige forudsigelsernes succes, frem for deres kausalitet, mens det i traditionelle forskningsområder er væsentligt at forklare fænomenets karakter [23] . Sammenlignet med klassisk statistik , på de metoder, som datavidenskab i vid udstrækning er baseret på, indebærer det studiet af superstore heterogene arrays af digital information og en uløselig forbindelse med informationsteknologier, der sørger for deres behandling [24] . I sammenligning med aktiviteter inden for design og arbejde med databaser, hvor det forudsættes, at det foreløbige design af en datamodel, der afspejler forholdet mellem fagområdet og den efterfølgende undersøgelse af de indlæste data med relativt simple (aritmetiske) metoder, datavidenskab antager afhængighed af matematisk statistik, kunstig intelligens, maskinlæring, ofte uden først at indlæse dataene i modellen. Sammenlignet med professionen som en analytiker, hvis hovedmål er at beskrive fænomener baseret på akkumulerede data med relativt simple brugerværktøjer (som regneark eller Business Intelligence -klasseværktøjer ), kræver profilen af en dataforsker mindre fokus på indholdet af fagområder, men kræver dybere viden inden for matematisk statistik, maskinlæring, programmering og generelt et højere uddannelsesniveau ( kandidater , videnskabskandidater , ph.d. i sammenligning med bachelorer og specialister ) [25] .

Akademiske programmer

University of Washington Introduktion til Data Science-kurset , offentliggjort på Coursera , har følgende sektioner [26] :

datamodeller : relationer , nøgleværdi , træer , grafer , billeder, tekster;
relationel algebra og parallel forespørgsel udførelse ;
NoSQL -systemer og nøgleværdibutikker;
kompromiser mellem SQL -, NoSQL - og NewSQL -systemer;
design af algoritmer til Hadoop (og til MapReduce generelt);
grundlæggende statistisk analyse: prøveudtagning , regressioner ;
introduktion til datamining : klyngedannelse, foreningsregler, beslutningstræer;
applikationer: sociale netværk , bioinformatik , tekstanalyse .

Data Science-blokken på kandidatuddannelsen i datavidenskab og ledelse ved Imperial College London inkluderer et forberedende kursus til avanceret statistik . Følgende discipliner er direkte inkluderet i datavidenskabskurset:

maskinlæring ;
databasestyringssystemer ;
software engineering ;
dataanalyse ( eng. intelligent data ) og probabilistic inference ( eng. probabilistic inference ), i beskrivelsen af disciplinen er der givet links til Bayesiansk inferens og algoritmiske metoder til modellering, klassificering og diskriminant dataanalyse baseret på det;
probabilistiske modeller og avanceret statistik.

Efter kurser i datavidenskab og det grundlæggende i ledelse giver uddannelsen et anvendt kursus, opdelt i to strømme, risikostyring , asset management og afledte finansielle instrumenter indgår i den finansielle og teknologiske strøm, og behandling af store datasæt indgår i rådgivningen strøm , netværksanalyse, økonometrisk analyse, applikationer inden for tjenester og rådgivning, energi , sundhedspleje , politik . [17]

University of Dundee - programmet lægger vægt på " big data ", primært i modsætning til "regnearksbehandling", og fokuserer på datamining , database- og lagermodellering , statistik , og sprogene SQL , MDX , R , Erlang , Java studeres indenfor programmet , Hadoop og NoSQL værktøjer [27] .

Noter

↑ Presse, 2012 , Udtrykket "datavidenskab" (sammen med "Datalogi")...
↑ Smith, 2006 .
↑ Dhar, 2013 .
↑ Davenport, 2012 .
↑ 1 2 Presse, 2012 .
↑ 12 Smith , 2006 , s. 164.
↑ Naur, 1974 , "Datavidenskab er videnskaben om at håndtere data, når de først er blevet etableret, mens forholdet mellem data og det, de repræsenterer, er uddelegeret til andre områder og videnskaber".
↑ Press, 2012 , Udtrykket "data science" (sammen med "Datalogy") blev først foreslået af Peter Naur i slutningen af 1960'erne.
↑ Zhuravleva, 2012 , "Ifølge F. D. Smith havde datavidenskab ikke noget navn før 1990, men begyndte at udvikle sig siden 1966, hvor International Council of Sciences tværfaglige komité for data for videnskab og teknologi blev etableret."
↑ Cleveland, 2001 .
↑ Press, 2012 , Udtrykket "data science" … blev foreslået af William S. Cleveland i 2001 som en ny akademisk disciplin, der udvider statistikområdet til at inkorporere "fremskridt inden for databehandling med data".
↑ Arkiv over tidligere O'Reilly-konferencer . O'Reilly Media (2012). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
↑ Simon Piff. Noter fra Data Science Summit: Making Sense of Big Data (engelsk) (link ikke tilgængeligt) . Dokument på et blik . IDC (1. juli 2012). Dato for adgang: 8. december 2012. Arkiveret fra originalen 26. januar 2013.
↑ Manyika, James et al. Big data: Den næste grænse for innovation, konkurrence og produktivitet (engelsk) (PDF). McKinsey Global Institute, juni 2011 . McKinsey (9. august 2011). Hentet 12. november 2011. Arkiveret fra originalen 11. december 2012.
↑ Steven Overly. Efterhånden som efterspørgslen efter big data-analytikere vokser, skynder skolerne sig med at opgradere studerende med de nødvendige færdigheder (engelsk) . Washington Post (16. september 2013). — "Det krav blev præciseret i en rapport fra juni 2011 fra McKinsey Global Institute." Hentet 31. december 2013. Arkiveret fra originalen 13. marts 2016.
↑ Davenport, 2012 , "Goldman er et godt eksempel på en ny nøglespiller i organisationer: 'dataforskeren'. Det er en højtstående professionel med træning og nysgerrighed til at gøre opdagelser i big data-verdenen".
↑ 1 2 MSc Data Science & Management . handelsskole . Imperial College (1. januar 2013). Dato for adgang: 18. januar 2013. Arkiveret fra originalen 29. januar 2013.
↑ UW, Berkeley, NYU samarbejder om 37,8 millioner dollars datavidenskabsinitiativ . University of Washington (12. november 2013). Dato for adgang: 31. december 2013. Arkiveret fra originalen 25. december 2013.
↑ Zhukov, 2013 , s. 5.
↑ Dhar, 2013 , Datavidenskab er studiet af den generaliserbare udvinding af viden fra data.
↑ Først udgivet af Drew Conway i 2010
↑ Zhukov, 2013 .
↑ Dhar, 2013 , Et almindeligt epistemisk krav i vurderingen af, om ny viden er brugbar for beslutningstagning, er dens forudsigelsesevne, ikke kun dens evne til at forklare fortiden.
↑ Dhar, 2013 , Det korte svar er, at datavidenskab adskiller sig fra statistik <…> på flere vigtige måder <…> Til at starte med er råmaterialet, "data", en del af datavidenskab, stadig mere heterogent og ustruktureret - tekst, billeder, video - ofte udsprunget fra netværk med komplekse relationer mellem deres entiteter <...> de fleste data genereret af mennesker og computere i dag er til forbrug af computere; det vil sige, at computere i stigende grad udfører baggrundsarbejde for hinanden og træffer beslutninger automatisk. Denne skalerbarhed i beslutningstagning er blevet mulig på grund af big data, der fungerer som råmaterialet til skabelsen af ny viden.
↑ Zhukov, 2013 , s. otte.
↑ Bill Howe. Introduktion til datavidenskab . Coursera (8. december 2012). Hentet 8. december 2012. Arkiveret fra originalen 5. november 2012. (ubestemt)
↑ MSc i Data Science (eng.) (utilgængeligt link) . Skole for Computing . Dundee University (1. januar 2013). "En dataforsker er en person, der udmærker sig ved at manipulere og analysere data, især store datasæt, der ikke let passer ind i tabelstrukturer (såkaldte "Big Data")." Dato for adgang: 18. januar 2013. Arkiveret fra originalen 22. januar 2013.

Litteratur

Naur, Peter . 1.8. Et grundlæggende princip for datavidenskab // Kortfattet undersøgelse af computermetoder . - Lund , 1974. - 397 s. - (Studentlitteratur). — ISBN 91-44-07881-1 .
William S. Cleveland. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics (engelsk) // International Statistical Review : Journal. - Willey & Sons, 2001. - Vol. 69, udgave 1 . - S. 21-26 . — ISSN 1751-5823 . - doi : 10.1111/j.1751-5823.2001.tb00477.x . Arkiveret fra originalen den 5. maj 2012.
E. Yu. Zhuravleva. Den epistemiske status for digitale data i moderne videnskabelig forskning . Questions of Philosophy , nr. 2, 2012, s. 113-123 (1. marts 2012). Hentet: 4. december 2012. (Russisk)
Mike Lukides. Hvad er datavidenskab? Fremtiden tilhører de virksomheder og mennesker, der gør data til produkter . radar . O'Reilly Media (2. juni 2010). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
Steve Lohr. Til dagens kandidat, bare et ord: statistik . The New York Times (5. august 2009). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
F. Jack Smith. Data Science as An Academic Discipline (engelsk) (utilgængeligt link) . Data Science Journal, bind 5, 19, s. 163-164 . CODADA (19. oktober 2006). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
Thomas H. Davenport, DJ Patil. Data Scientist: Det mest sexede job i det 21. århundrede . Harvard Business Review . Harvard University Press (1. oktober 2012). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
Gil Press. Data Scientists: Definitionen af sexet . Forbes (27. september 2012). Hentet 2. januar 2013. Arkiveret fra originalen 26. januar 2013.
Vasant Dhar. Datavidenskab og forudsigelse (engelsk) // Communications of the ACM . - 2013. - Bd. 56 , nr. 12 . - S. 64-73 . — ISSN 0001-0782 . - doi : 10.1145/2500499 .
Leonid Zhukov. Profession Data scientist (PDF). Proceedings fra konferencen "Big data in the national economy" . Åbne systemer (28. oktober 2013). Hentet: 31. december 2013. (Russisk)