Big data
Big data ( engelsk big data , [ ˈbɪɡ ˈdeɪtə ]) er en betegnelse for strukturerede og ustrukturerede data af enorme mængder og en betydelig variation, effektivt behandlet af horisontalt skalerbare softwareværktøjer , der dukkede op i slutningen af 2000'erne og er alternativer til traditionelle databasestyringssystemer og business class-løsninger [1] [2] [3] .
I en bred forstand omtales "big data" som et socioøkonomisk fænomen forbundet med fremkomsten af teknologiske evner til at analysere enorme mængder data på nogle problemområder - hele den globale mængde af data og de deraf følgende transformationskonsekvenser [ 4] .
Som definerende karakteristika for big data skelnes der traditionelt mellem "tre V'er": volumen ( engelsk volumen , i betydningen størrelsen af det fysiske volumen), hastighed ( hastighed i betydningen både væksthastigheden og behovet for højhastighedshastighed bearbejdning og opnåelse af resultater), diversitet ( variation , i betydningen muligheden for samtidig behandling af forskellige typer af strukturerede og semistrukturerede data) [5] [6] ; senere opstod forskellige variationer og fortolkninger af dette træk .
Fra et informationsteknologisk synspunkt omfattede sættet af tilgange og værktøjer oprindeligt masseparallel behandling af uendeligt strukturerede data, primært databasestyringssystemer af NoSQL -kategorien, MapReduce - algoritmer og Hadoop -projektets softwarerammer og biblioteker , der implementerer dem [7] . I fremtiden begyndte en række informationsteknologiske løsninger at blive tilskrevet rækken af big data-teknologier, der i en eller anden grad giver lignende kapaciteter med hensyn til egenskaber til behandling af ekstra store dataarrays.
Historie
Den udbredte introduktion af begrebet "big data" er forbundet med Clifford Lynch , redaktør af tidsskriftet Nature , som udarbejdede et specialnummer til 3. september 2008 med temaet "Hvordan kan teknologier, der åbner muligheder for at arbejde med big data, påvirke videnskabens fremtid?" , som indsamlede materialer om fænomenet den eksplosive vækst i mængden og variationen af behandlede data og teknologiske udsigter i paradigmet om et sandsynligt spring "fra kvantitet til kvalitet"; udtrykket blev foreslået i analogi med metaforerne "big oil" , "big ore" almindelig i det engelsktalende erhvervsmiljø [9] [10] .
På trods af det faktum, at udtrykket blev introduceret i det akademiske miljø, og først og fremmest blev problemet med væksten og mangfoldigheden af videnskabelige data analyseret, er udtrykket siden 2009 blevet bredt udbredt i erhvervspressen, og i 2010 har fremkomsten af de første produkter og løsninger[ strømlinet udtryk ] relaterer udelukkende og direkte til problemet med at behandle big data. I 2011 bruger de fleste af de største udbydere af informationsteknologi til organisationer i deres forretningsstrategier konceptet big data, herunder IBM [11] , Oracle [12] , Microsoft [13] , Hewlett-Packard [14] , EMC [15] , og de vigtigste analytikere på informationsteknologimarkedet afsætter dedikeret forskning til konceptet [5] [16] [17] [18] .
I 2011 rangerede Gartner big data som trend nummer to inden for IT-infrastruktur (efter virtualisering og mere betydningsfuld end energibesparelse og overvågning ) [19] . Samtidig blev det forudsagt, at indførelsen af big data-teknologier ville have den største indflydelse på informationsteknologien inden for fremstilling , sundhedspleje , handel , offentlig administration , samt i områder og industrier, hvor individuelle ressourcebevægelser registreres [20] .
Siden 2013 er big data som et akademisk emne blevet undersøgt i nye universitetsprogrammer inden for datavidenskab [21] og computervidenskab og ingeniørvidenskab [22] .
I 2015 udelukkede Gartner big data fra den nye teknologi-modenhedscyklus og stoppede med at udgive en separat big data-teknologi-modenhedscyklus, der blev udgivet i 2011-2014, med henvisning til overgangen fra hype til praktisk brug. Teknologier, der optrådte i den dedikerede modenhedscyklus, bevægede sig for det meste ind i specielle cyklusser inden for avanceret analyse og datavidenskab, BI og dataanalyse, virksomhedsinformationsstyring, residential computing , informationsinfrastruktur [23] .
VVV
Sættet af funktioner VVV ( volumen, hastighed, variation ) blev oprindeligt udviklet af Meta Group i 2001 uden for konteksten af big data ideer som en række informationsteknologiske metoder og værktøjer, i forbindelse med den voksende popularitet af konceptet om en centralt data warehouse for organisationer, blev det bemærket ækvivalens af data management spørgsmål i alle tre aspekter [24] . Efterfølgende dukkede fortolkninger op med "fire V'er" ( rigtighed blev tilføjet - pålidelighed, brugt i IBM reklamemateriale [25] ), "fem V'er" (i denne version blev levedygtighed tilføjet - levedygtighed og værdi - værdi [26] ), og endda "familie V" (udover alt tilføjede de også variabilitet og visualisering [27] ). IDC fortolker det "fjerde V" som en værdi i forhold til vigtigheden af den økonomiske gennemførlighed af at behandle passende mængder under passende forhold, hvilket også afspejles i IDC's definition af big data [28] . I alle tilfælde understreger disse tegn, at den definerende egenskab for big data ikke kun er deres fysiske volumen, men andre kategorier, der er væsentlige for at forstå kompleksiteten af opgaven med databehandling og -analyse.
Kilder
Internet of things og sociale medier er anerkendt som klassiske kilder til big data , det menes også, at big data kan komme fra den interne information fra virksomheder og organisationer (genereret i informationsmiljøer, men ikke tidligere lagret eller analyseret), fra felterne af medicin og bioinformatik , fra astronomiske observationer [29] .
Eksempler på kilder til big data er [30] [31] løbende indkommende data fra måleenheder, hændelser fra RFID'er , beskedstrømme fra sociale netværk , meteorologiske data , fjernmålingsdata fra Jorden , datastrømme om placeringen af abonnenter på mobilnetværk , enheder lyd- og videooptagelser . Det forventes, at udviklingen og begyndelsen af den udbredte brug af disse kilder initierer indtrængen af big data-teknologier både i forskningsaktiviteter og i den kommercielle sektor og offentlig administration.
Analysemetoder
Analysemetoder og -teknikker anvendelige til big data fremhævet i McKinsey -rapporten [32] :
- metoder i Data Mining -klassen : indlæring af associationsregel , klassificering (metoder til at kategorisere nye data baseret på principper, der tidligere er anvendt på eksisterende data), klyngeanalyse , regressionsanalyse ;
- crowdsourcing - kategorisering og berigelse af data af en bred, ubestemt kreds af involverede personer på grundlag af et offentligt tilbud, uden at indgå i et ansættelsesforhold;
- datablanding og integration ( engelsk data fusion and integration ) - et sæt af teknikker, der giver dig mulighed for at integrere heterogene data fra forskellige kilder for muligheden for dybdegående analyse, digital signalbehandling og naturlig sprogbehandling (herunder toneanalyse ) er givet som eksempler på sådanne teknikker, der udgør denne klasse af metoder . );
- maskinlæring , herunder superviseret og uovervåget læring , samt Ensemble learning - brug af modeller bygget på grundlag af statistiske analyser eller maskinlæring til at opnå komplekse prognoser baseret på grundlæggende modeller ( eng. konstituerende modeller , jf. med et statistisk ensemble i statistisk mekanik);
- kunstige neurale netværk , netværksanalyse , optimering , herunder genetiske algoritmer ;
- mønstergenkendelse ;
- prædiktiv analyse ;
- simuleringsmodellering ;
- Rumlig analyse er en klasse af metoder, der bruger topologiske , geometriske og geografiske oplysninger i data;
- statistisk analyse , A/B-test og tidsserieanalyse er givet som eksempler på metoder ;
- visualisering af analytiske data - præsentation af information i form af figurer, diagrammer, ved hjælp af interaktive funktioner og animation, både for at opnå resultater og for at blive brugt som inputdata til videre analyse.
Teknologi
Oftest er horisontal skalerbarhed angivet som det grundlæggende princip for big data- behandling, der sikrer behandling af data fordelt over hundreder og tusinder af computerknudepunkter uden forringelse af ydeevnen; især er dette princip inkluderet i NISTs definition af big data [33] . Samtidig inkluderer McKinsey, udover NoSQL-, MapReduce-, Hadoop-, R-teknologierne, som overvejes af de fleste analytikere, også Business Intelligence - teknologier og relationelle databasestyringssystemer med understøttelse af SQL-sproget [34] i forbindelse med anvendelighed til behandling big data .
NoSQL
MapReduce
Hadoop
R
Hardwareløsninger
Der er en række hardware- og softwaresystemer, der leverer prækonfigurerede løsninger til behandling af big data: Aster MapReduce appliance ( Teradata corporations ), Oracle Big Data appliance , Greenplum appliance ( EMC corporation , baseret på løsningerne fra det opkøbte Greenplum selskab ). Disse suiter leveres som klar til at installere datacenterskabe indeholdende en klynge af servere og kontrolsoftware til massivt parallel behandling.
Hardwareløsninger til residential computing , primært til in-memory-databaser og in- memory - analyse, i særdeleshed, udbudt af Hana hardware- og softwaresystemer ( SAP 's prækonfigurerede hardware- og softwareløsning ) og Exalytics ( Oracles kompleks baseret på Timesten- relationssystemet ) system og multidimensional Essbase ), omtales også nogle gange som big data-løsninger [35] [36] , på trods af at en sådan behandling i starten ikke er massivt parallel, og mængden af RAM i en node er begrænset til flere terabyte .
Derudover omtales nogle gange hardware- og softwaresystemer baseret på traditionelle relationelle databasestyringssystemer - Netezza , Teradata , Exadata - nogle gange som løsninger til big data , da de er i stand til effektivt at behandle terabyte og exabyte af struktureret information og løse problemerne med hurtig søgning og analytisk behandling af enorme mængder af strukturerede data. . Det bemærkes, at de første massivt parallelle hardware-softwareløsninger til behandling af meget store mængder data var Britton Lee , først udgivet i 1983 , og Teradata (begyndte at blive produceret i 1984 , desuden i 1990 absorberede Teradata Britton Lee ) [37] .
DAS- hardwareløsninger - datalagringssystemer direkte knyttet til noder - i betingelserne for uafhængighed af behandlingsknuder i SN-arkitekturen omtales også nogle gange som big data-teknologier. Det er med fremkomsten af begrebet big data, at stigningen i interessen for DAS-løsninger i begyndelsen af 2010'erne er forbundet , efter at de i 2000'erne blev fortrængt af netværksløsninger af NAS- og SAN -klasserne [38] .
Noter
- ↑ Primesberger, 2011 , "Big data refererer til mængden, variationen og hastigheden af strukturerede og ustrukturerede data, der strømmer gennem netværk til processorer og lagerenheder, sammen med konverteringen af sådanne data til forretningsrådgivning til virksomheder."
- ↑ PwC, 2010 , Udtrykket "big data" refererer til datasæt med mulig eksponentiel vækst, der er for store, for uformaterede eller for ustrukturerede til at blive analyseret med traditionelle metoder., s. 42.
- ↑ McKinsey, 2011 , "Big data" refererer til datasæt, hvis størrelse er uden for typiske databasesoftwareværktøjers evne til at indfange, gemme, administrere og analysere, s. en.
- ↑ Mayer-Schoenberger, 2014 .
- ↑ 12 Gartner , 2011 .
- ↑ Kanarakus, Chris. Big Data Machine . Netværk , nr. 04, 2011 . Åbne systemer (1. november 2011). - "... big data som "tre V'er": volumen ("volumen" - petabytes af lagrede data), hastighed ("hastighed" - dataindsamling, transformation, indlæsning, analyse og polling i realtid) og variation ("variation" ” - behandling af strukturerede og semistrukturerede data af forskellige typer). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012. (Russisk)
- ↑ PwC, 2010 , I begyndelsen af 2010 var Hadoop, MapReduce og deres tilknyttede open source-teknologier drevet af et helt nyt fænomen, som O'Reilly Media, The Economist og andre har døbt big data, s. 42.
- ↑ Verdens teknologiske kapacitet til at lagre, kommunikere og beregne information . MartinHilbert.net . Hentet 13. april 2016. Arkiveret fra originalen 14. april 2016. (ubestemt)
- ↑ Chernyak, 2011 , Big Data er en af de få titler, der har en fuldstændig pålidelig fødselsdato - 3. september 2008, da et særnummer af det ældste britiske videnskabelige tidsskrift Nature blev offentliggjort, dedikeret til at finde et svar på spørgsmålet " Hvordan kan teknologier, der åbner muligheden for at arbejde med store mængder data? […] Idet han indså omfanget af de kommende ændringer, foreslog Nature-redaktør Clifford Lynch et særligt navn til det nye paradigme Big Data, valgt af ham i analogi med sådanne metaforer som Big Oil, Big Ore osv., hvilket ikke så meget afspejler mængden af noget, hvor meget overgangen af kvantitet til kvalitet.
- ↑ Et eksempel på brug af Big Oil -metaforen (engelsk) , jf. også historien "Big Ore" , filmen "Big Oil"
- ↑ Dubova, Natalya. Stor konference om Big Data . Åbne systemer (3. november 2011). "IBM Information on Demand-forum, som samlede mere end 10.000 deltagere, fokuserede på Big Data-analyse." Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012. (Russisk)
- ↑ Henschen, Doug. Oracle frigiver NoSQL-database , fremmer Big Data-planer . Information Week (24. oktober 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Finley, Klint. Steve Ballmer om Microsofts Big Data Future and More i denne uges Business Intelligence Roundup . ReadWriteWeb (17. juli 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Shah, Agam. HP ændrer personlige computere til Big Data . Åbne systemer (19. august 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012. (ubestemt)
- ↑ EMC forsøger at forene Big Data Analytics . Information Week (21. september 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Woo, Benjamin et al. IDC 's Worldwide Big Data Taxonomy . International Data Corporation (1. oktober 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Evelson, Boris og Hopkins, Brian. Hvordan Forrester-kunder bruger Big Data . Forrester Research (20. september 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ McKinsey, 2011 .
- ↑ Thibodeau, Patrick. Gartners top 10 it - udfordringer omfatter spændende babyboomere, Big Data . Computerworld (18. oktober 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Chernyak, 2011 , Ifølge eksperter, såsom McKinsey Institute, under indflydelse af Big Data, vil sfæren for produktion, sundhedspleje, handel, administration og overvågning af individuelle bevægelser undergå den største transformation.
- ↑ MSc i datavidenskab . Skole for Computing . Dundee University (1. januar 2013). "En dataforsker er en person, der udmærker sig ved at manipulere og analysere data, især store datasæt, der ikke let passer ind i tabelstrukturer (såkaldte "Big Data")." Dato for adgang: 18. januar 2013. Arkiveret fra originalen 22. januar 2013.
- ↑ Master of Science grad. Harvards første uddannelse i Computational Science and Engineering er et intensivt år med kurser, der fører til Master of Science . Institut for Anvendt Beregningsvidenskab . Harvard University (1. januar 2013). — ““...Mange af de afgørende spørgsmål i denne æra inden for videnskab og teknologi vil være centreret om 'big data' og maskinlæring. Denne kandidatuddannelse vil forberede de studerende til at besvare disse spørgsmål...””. Dato for adgang: 18. januar 2013. Arkiveret fra originalen 22. januar 2013.
- ↑ Simon Sharwood. Glem Big Data - hype , siger Gartner , mens det kan sin hype - cyklus . Registret (21. august 2015). Hentet 19. februar 2017. Arkiveret fra originalen 20. februar 2017.
- ↑ Doug Laney. 3D Data Management : Styring af datavolumen, hastighed og variation . Meta Group (6. februar 2001). Dato for adgang: 19. februar 2017. Arkiveret fra originalen 23. juli 2013.
- ↑ De fire V'er af Big Data . IBM (2011). Dato for adgang: 19. februar 2017. Arkiveret fra originalen 16. juni 2016.
- ↑ Neil Biehn. De manglende V'er i Big Data: Levedygtighed og værdi . Wired (1. maj 2013). Hentet 19. februar 2017. Arkiveret fra originalen 20. februar 2017.
- ↑ Eileen McNulty. Forstå Big Data: De syv V'er . Dataconomy (22. maj 2014). Hentet 19. februar 2017. Arkiveret fra originalen 20. februar 2017.
- ↑ Chen et al., 2014 , "big data-teknologier beskriver en ny generation af teknologier og arkitekturer, designet til økonomisk at udvinde værdi fra meget store mængder af en bred vifte af data ved at muliggøre højhastighedsindfangning, opdagelse og/eller analyse”, s. fire.
- ↑ Chen et al., 2014 , s. 19-23.
- ↑ McKinsey, 2011 , s. 7-8.
- ↑ Chernyak, 2011 .
- ↑ McKinsey, 2011 , s. 27-31.
- ↑ Chen et al., 2014 , "Big data skal betyde de data, hvis datavolumen, akkvisitionshastighed eller datarepræsentation begrænser kapaciteten til at bruge traditionelle relationelle metoder til at udføre effektiv analyse eller de data, som effektivt kan behandles med vigtige horisontale zoom-teknologier”, s. fire.
- ↑ McKinsey, 2011 , s. 31-33.
- ↑ Chernyak, 2011 , Det næste trin kunne være SAP HANA (High Performance Analytic Appliance) teknologi, hvis essens er at placere data til analyse i RAM.
- ↑ Darrow, Barb. Oracle lancerer Exalytics, en appliance til big data . GigaOM (2. oktober 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012.
- ↑ Chernyak, 2011 , ... Britton-Lee var den første til at skabe en "databasemotor" i 1983 baseret på multiprocessor-konfigurationen af Zilog Z80-familien af processorer. Efterfølgende blev Britton-Lee købt af Teradata, som siden 1984 har produceret MPP-arkitektur computere til beslutningsstøttesystemer og datavarehuse.
- ↑ Leonid Chernyak. Big data genopliver DAS . "Computerworld Rusland", nr. 14, 2011 . Åbne systemer (5. maj 2011). Hentet 12. november 2011. Arkiveret fra originalen 3. september 2012. (Russisk)
Litteratur
- Min Chen, Shiwen Mao, Yin Zhang, Victor CM Leung. big data. Relaterede teknologier, udfordringer og fremtidsudsigter. - Spinger, 2014. - 100 s. - ISBN 978-3-319-06244-0 . - doi : 10.1007/978-3-319-06245-7 .
- Victor Mayer-Schoenberger, Kenneth Cookier. Big data. En revolution, der vil ændre den måde, vi lever, arbejder og tænker på = Big Data. En revolution, der vil transformere, hvordan vi lever, arbejder og tænker / pr. fra engelsk. Inna Gaydyuk. — M. : Mann, Ivanov, Ferber, 2014. — 240 s. - ISBN 987-5-91657-936-9.
- Preimesberger, Chris Hadoop, Yahoo, 'Big Data ' Brighten BI Future . EWeek (15. august 2011). Hentet 12. november 2011. Arkiveret fra originalen 17. maj 2012.
- Leonid Chernyak. Big Data — Ny teori og praksis // Åbne systemer. DBMS . - 2011. - Nr. 10 . — ISSN 1028-7493 . (Russisk)
- Alan Morrison et al. Big Data: hvordan man kan udtrække information fra det . Teknologisk prognose. Kvartalsblad, russisk udgave, 2010 udgave 3 . PricewaterhouseCoopers (17. december 2010). Hentet 12. november 2011. Arkiveret fra originalen 11. marts 2012. (Russisk)
- Gartner siger, at løsningen af 'Big Data'-udfordringen involverer mere end blot at administrere mængder af data . Gartner (27. juni 2011). Hentet 12. november 2011. Arkiveret fra originalen 17. maj 2012.
- James Manyika et al. Big data: Den næste grænse for innovation, konkurrence og produktivitet (engelsk) (PDF). McKinsey Global Institute, juni 2011 . McKinsey (9. august 2011). Hentet 12. november 2011. Arkiveret fra originalen 11. december 2012.
Links
![Gå til Wikidata-elementet](//upload.wikimedia.org/wikipedia/commons/thumb/8/8a/OOjs_UI_icon_edit-ltr-progressive.svg/14px-OOjs_UI_icon_edit-ltr-progressive.svg.png) | I bibliografiske kataloger |
---|
|
|
---|