Hadoop

Apache Hadoop

Type	rammer
Forfatter	Doug Cutting [d]
Udvikler	Apache Software Foundation
Skrevet i	Java
Operativ system	cross-platform og POSIX
Første udgave	1. april 2006 [1]
Hardware platform	Java virtuel maskine
nyeste version	3.3.3 ( 17. maj 2022 )
Licens	Apache License 2.0 og GNU GPL
Internet side	hadoop.apache.org _
Mediefiler på Wikimedia Commons

Hadoop er et projekt fra Apache Software Foundation , et frit distribueret sæt af hjælpeprogrammer , biblioteker og en ramme til udvikling og eksekvering af distribuerede programmer, der kører på klynger af hundreder og tusinder af noder. Bruges til at implementere søge- og kontekstuelle mekanismer for mange højbelastede websteder, herunder Yahoo! og Facebook [2] . Udviklet i Java inden for rammerne af MapReduce beregningsparadigmet , hvorefter applikationen er opdelt i et stort antal identiske elementære opgaver, der er eksekverbare på klynge noderne og naturligt reduceres til det endelige resultat.

Fra 2014 består projektet af fire moduler - Hadoop Common ( mellem software - et sæt infrastruktursoftwarebiblioteker og hjælpeprogrammer, der bruges til andre moduler og relaterede projekter), HDFS ( distribueret filsystem ), YARN (et system til planlægning af opgaver og styring af en klynge) og Hadoop MapReduce (en platform til programmering og eksekvering af distribuerede MapReduce-beregninger), tidligere inkluderede Hadoop en række andre projekter, der blev uafhængige inden for Apache Software Foundation-projektsystemet.

Det betragtes som en af de grundlæggende teknologier for " big data ". Et helt økosystem af relaterede projekter og teknologier er dannet omkring Hadoop, hvoraf mange oprindeligt blev udviklet som en del af projektet og senere blev uafhængige. Siden anden halvdel af 2000'erne har der været en proces med aktiv kommercialisering af teknologien , flere virksomheder bygger deres forretning udelukkende på skabelsen af kommercielle distributioner af Hadoop og økosystem tekniske supporttjenester, og næsten al større informationsteknologi udbydere til organisationer i en eller anden form inkluderer Hadoop i produktstrategier og produktlinjer.

Historie

Udviklingen blev indledt i begyndelsen af 2005 af Doug Cutting med det formål at bygge en distribueret computersoftwareinfrastruktur til Nutch -projektet , en gratis softwaresøgemaskine i Java , dens ideologiske grundlag var udgivelsen af Google -medarbejderne Jeffrey Dean og Sanjay Gemawat [3] om computerbegreber i MapReduce [4] . Det nye projekt blev opkaldt efter grundlæggerens legetøjs-elefant [5] .

I løbet af 2005-2006 blev Hadoop udviklet af to udviklere - Cutting og Mike Cafarella ( Mike Cafarella ) i deltidstilstand [4] , først som en del af Nutch-projektet, derefter - Lucene -projektet . I januar 2006 blev Cutting inviteret af Yahoo til at lede et dedikeret team til udvikling af en distribueret computerinfrastruktur, som også omfatter adskillelsen af Hadoop i et separat projekt. I februar 2008 lancerede Yahoo en klyngesøgemaskine med 10.000 kerner drevet af Hadoop.

I januar 2008 bliver Hadoop topniveauprojektet i Apache Software Foundation -projektsystemet . I april 2008 slog Hadoop verdensrekord i det standardiserede datasorteringsbenchmark og behandlede 1 TB på 209 sekunder. på en klynge af 910 noder [6] . Fra det øjeblik begyndte Hadoop at blive brugt i vid udstrækning uden for Yahoo - Last.fm , Facebook , The New York Times [7] implementerer teknologien til deres websteder , og tilpasning udføres for at køre Hadoop i Amazon EC2- skyer .

I april 2010 tildelte Google Apache Software Foundation rettighederne til at bruge MapReduce-teknologien, tre måneder efter at den blev forsvaret i US Patent Office , og derved fritog organisationen af mulige patentkrav [8] .

Siden 2010 er Hadoop gentagne gange blevet karakteriseret som en vigtig " big data "-teknologi, dens udbredte brug til massivt parallel databehandling er forudsagt, og sammen med Cloudera er der opstået en række teknologistartups, der udelukkende er fokuseret på kommercialiseringen af Hadoop [9] [10] . I løbet af 2010 blev flere underprojekter af Hadoop - Avro , HBase , Hive , Pig , Zookeeper - successivt topniveauprojekterne i Apache-fonden, som fungerede som begyndelsen på dannelsen af et økosystem omkring Hadoop . I marts 2011 blev Hadoop tildelt Guardian Media Groups årlige innovationspris , hvor teknologien blev udnævnt til " Swiss Army Knife of the 21st Century" [11] .

Implementeringen af YARN-modulet i Hadoop 2.0, udgivet i efteråret 2013, vurderes som et væsentligt spring, der tager Hadoop ud over MapReduce-paradigmet og sætter teknologien på niveau med en universel løsning til organisering af distribueret databehandling [12] .

Hadoop Common

Hadoop Common inkluderer biblioteker til styring af filsystemer understøttet af Hadoop, og scripts til at skabe den nødvendige infrastruktur og administrere distribueret behandling, for at gøre det nemmere at bruge en specialiseret forenklet kommandolinjefortolker ( FS shell , filsystem shell ), lanceret fra operativsystemet. systemskal med en kommando af formen: , hvor er en fortolkerkommando, og er en liste over ressourcer forankret med den understøttede filsystemtype, såsom eller . De fleste tolkekommandoer implementeres analogt med de tilsvarende Unix-kommandoer (for eksempel, , , , , , , , , , , desuden understøttes nogle taster til lignende Unix-kommandoer, for eksempel den rekursive nøgle for , , ) , er der kommandoer, der er specifikke for Hadoop ( tæller f.eks. antallet af mapper, filer og bytes i en given sti, tømmer papirkurven og ændrer replikeringsfaktoren for en given ressource). hdfs dfs -command URIcommandURIhdfs://example.com/file1file:///tmp/local/file2cat chmod chown chgrp cp du ls mkdir mv rm tail-Rchmodchownchgrpcountexpungesetrep

HDFS

HDFS ( Hadoop Distributed File System ) er et filsystem designet til at gemme store filer fordelt blok for blok mellem noderne i en computerklynge. Alle blokke i HDFS (undtagen den sidste blok i en fil) har samme størrelse, og hver blok kan placeres på flere noder, blokstørrelsen og replikeringsfaktoren (antal noder, som hver blok skal placeres på) er defineret i indstillingerne på filniveau. Takket være replikering sikres stabiliteten af et distribueret system mod fejl i individuelle noder. Filer kan kun skrives til HDFS én gang (modifikation er ikke understøttet), og kun én proces kan skrive til en fil ad gangen. Organiseringen af filer i navneområdet er traditionelt hierarkisk : der er en rodmappe, indlejring af mapper er understøttet, og filer og andre mapper kan være placeret i samme mappe.

Udrulning af en HDFS-instans giver mulighed for en central navneknude ( eng. name node ) , der lagrer filsystemmetadata og metainformation om distributionen af blokke, og en række dataknudepunkter ( eng . data node ), der direkte lagrer filblokke. Navnenoden er ansvarlig for behandling af fil- og biblioteksniveauoperationer - åbning og lukning af filer, manipulering af mapper, dataknudepunkter behandler direkte dataskrivning og -læsning. Navnknuden og dataknuderne er forsynet med webservere , der viser nodernes aktuelle status og giver dig mulighed for at se indholdet af filsystemet. Administrative funktioner er tilgængelige fra kommandolinjegrænsefladen.

HDFS er en integreret del af projektet, dog understøtter Hadoop arbejde med andre distribuerede filsystemer uden brug af HDFS, understøttelse af Amazon S3 og CloudStore er implementeret i hoveddistributionen. På den anden side kan HDFS ikke kun bruges til at køre MapReduce-job, men også som et distribueret filsystem til generelle formål, især en distribueret NoSQL DBMS HBase er implementeret oven på det, og Apache Mahout skalerbar maskinlæringssystem kører i sit miljø .

GARN

YARN ( engelsk Yet Another Resource Negotiator - " another resource intermediary ") er et modul, der dukkede op med version 2.0 (2013), som er ansvarlig for styring af klyngresourcer og planlægning af opgaver. Hvis denne funktion i tidligere udgivelser var integreret i MapReduce- modulet , hvor den blev implementeret af en enkelt komponent ( JobTracker ), så er der i YARN en logisk uafhængig dæmon - ressourceplanlæggeren ( ResourceManager ), som abstraherer alle computerressourcerne i klynge og administrerer deres levering til distribuerede behandlingsapplikationer. Både MapReduce-programmer og andre distribuerede applikationer, der understøtter de relevante programmeringsgrænseflader, kan arbejde under kontrol af YARN; YARN giver mulighed for parallel udførelse af flere forskellige opgaver inden for klyngen og deres isolering (i henhold til principperne for multitenancy ). En distribueret applikationsudvikler skal implementere en speciel applikationsstyringsklasse ( ApplicationMaster ), der er ansvarlig for at koordinere opgaver inden for de ressourcer, der leveres af ressourceplanlæggeren; ressourceplanlæggeren er ansvarlig for at oprette forekomster af applikationskontrolklassen og interagere med den gennem den relevante netværksprotokol.

YARN kan betragtes som et klyngeoperativsystem i den forstand, at det fungerer som en grænseflade mellem klyngens hardwareressourcer og en bred klasse af applikationer, der bruger sin magt til at udføre beregningsmæssig behandling [13] .

Hadoop MapReduce

Hadoop MapReduce er en softwareramme til programmering af distribueret databehandling inden for MapReduce -paradigmet . En applikationsudvikler til Hadoop MapReduce skal implementere en basishandler, der på hver computerknude i klyngen vil sikre transformationen af de indledende nøgleværdi- par til et mellemliggende sæt nøgleværdi-par (klassen, der implementerer grænsefladen Mapperer opkaldt efter den højere ordens funktion Map ), og handleren , som reducerer det mellemliggende sæt af par til det endelige, reducerede sæt ( fold , klasse der implementerer grænsefladen Reducer). Rammen overfører de sorterede output fra basisbehandlerne til input af foldningen, reduktionen består af tre faser - shuffle ( shuffle , valg af den ønskede sektion af output), sortering ( sortering , gruppering efter nøgler af output fra distributører - ekstra sortering, som er påkrævet, når forskellige atomprocessorer returnerer sæt med de samme nøgler, på samme tid kan sorteringsreglerne i denne fase indstilles programmatisk og bruge alle funktioner i nøglernes interne struktur) og reducere sig selv ( listefoldning ) - opnåelse af resultatsættet. For nogle typer behandling er foldningen ikke nødvendig, og rammen returnerer i dette tilfælde et sæt af sorterede par modtaget af basisprocessorerne.

Hadoop MapReduce giver dig mulighed for at oprette job med både basishandlere og folder skrevet uden brug af Java: Hadoop-streamingværktøjer giver dig mulighed for at bruge enhver eksekverbar fil , der fungerer med standard operativsystem I/O (f.eks. UNIX shell -værktøjer) som basishandlere og foldninger ), er der også en SWIG - kompatibel C++ Hadoop pipes API . Hadoop-distributioner inkluderer også implementeringer af forskellige specifikke basisprocessorer og rollups, der oftest bruges i distribueret behandling.

I de første versioner af Hadoop MapReduce inkluderede en jobplanlægger ( JobTracker ), siden version 2.0 er denne funktion blevet flyttet til YARN , og siden denne version er Hadoop MapReduce-modulet implementeret oven på YARN. Programmeringsgrænseflader er for det meste bevaret, men der er ingen fuldstændig bagudkompatibilitet (det vil sige at køre programmer skrevet til tidligere versioner af API'en , for at kunne arbejde i YARN, generelt er deres modifikation eller refaktorering påkrævet , og kun med nogle begrænsninger er bagud binære kompatibilitetsmuligheder mulige [14] ).

Skalerbarhed

Et af hovedmålene med Hadoop var oprindeligt at give horisontal klyngeskalerbarhed ved at tilføje billige noder (udstyr i masseklasse, engelsk råvarehardware ) uden at ty til kraftfulde servere og dyre lagernetværk . Fungerende klynger af tusindvis af noder i størrelse bekræfter gennemførligheden og omkostningseffektiviteten af sådanne systemer, for eksempel fra 2011 er store Hadoop-klynger kendt i Yahoo (mere end 4 tusinde noder med en samlet lagerkapacitet på 15 PB), Facebook (ca. 2 tusind noder pr. 21 PB) og Ebay (700 noder pr. 16 PB) [15] . Det menes dog, at horisontal skalerbarhed i Hadoop-systemer er begrænset, for Hadoop før version 2.0 blev det maksimalt mulige estimeret til 4 tusinde noder ved brug af 10 MapReduce-job pr. node [16] . På mange måder blev denne begrænsning lettet af koncentrationen i MapReduce-modulet af funktioner til overvågning af jobs livscyklus, menes det, at med dets fjernelse til YARN-modulet i Hadoop 2.0 og decentralisering - fordelingen af en del af overvågningsfunktionerne til behandlingsknuder - horisontal skalerbarhed er øget.

En anden begrænsning ved Hadoop-systemer er størrelsen af RAM på navneknuden ( NameNode ), som gemmer hele klyngens navneområde til behandling af distribution, desuden er det samlede antal filer, som navneknuden er i stand til at behandle, 100 millioner [17] . For at overvinde denne begrænsning arbejdes der på at fordele navneknuden, som er almindelig i den nuværende arkitektur for hele klyngen, i flere uafhængige noder. En anden mulighed for at overvinde denne begrænsning er at bruge distribueret DBMS oven på HDFS, såsom HBase , hvor rollen som filer og mapper spilles af poster i en stor databasetabel fra applikationens synspunkt.

Fra 2011 blev en typisk klynge bygget fra single-socket multi-core x86-64 noder, der kører Linux med 3-12 disklagerenheder forbundet med et 1 Gb/s netværk. Der er tendenser både til at reducere nodernes computerkraft og bruge laveffektprocessorer ( ARM , Intel Atom ) [18] og brugen af højtydende computerknudepunkter samtidig med netværksløsninger med høj båndbredde ( InfiniBand i Oracle Big Data Apparat , højtydende 10 Gb/s Fibre Channel og Ethernet SAN i FlexPod big data skabelonkonfigurationer).

Skalerbarheden af Hadoop-systemer afhænger i høj grad af karakteristikaene ved de data, der behandles, først og fremmest deres interne struktur og funktioner til at udtrække den nødvendige information fra dem, og kompleksiteten af behandlingsopgaven, som igen dikterer organiseringen af behandlingscyklusser, beregningsintensiteten af atomare operationer og i sidste ende niveauet af parallelitet og klyngebelastning. Hadoop-manualen (første versioner, før 2.0) indikerede, at et acceptabelt niveau af parallelitet er brugen af 10-100 forekomster af grundlæggende processorer pr. klynge node, og for opgaver, der ikke kræver væsentlig CPU-tid - op til 300; for foldninger blev det anset for at være optimalt at bruge dem med antallet af noder ganget med en koefficient fra området fra 0,95 til 1,75 og en konstant mapred.tasktracker.reduce.tasks.maximum. Med en større koefficientværdi vil de hurtigste knudepunkter, efter at have afsluttet den første runde af konvergens, modtage den anden del af mellemliggende par til behandling tidligere, hvilket øger koefficienten overbelaster klyngen, men giver samtidig mere effektiv belastningsbalancering . YARN bruger i stedet konfigurationskonstanter, der bestemmer værdierne af tilgængelig RAM og virtuelle processorkerner, der er tilgængelige for ressourceplanlæggeren [19] , baseret på hvilket niveauet af parallelitet bestemmes.

Økosystem

Kommercialisering

På baggrund af populariseringen af Hadoop i 2008 og rapporter om opbygning af Hadoop-klynger i Yahoo og Facebook, blev Cloudera oprettet i oktober 2008, ledet af Michael Olson, den tidligere administrerende direktør for Sleepycat (virksomheden, der skabte Berkeley DB ), der udelukkende havde til formål at kommercialiseringen af Hadoop-teknologier. I september 2009 flyttede den vigtigste Hadoop-udvikler Doug Cutting til Cloudera fra Yahoo, og takket være denne overgang beskrev kommentatorer Cloudera som "den nye fanebærer af Hadoop", på trods af at hovedparten af projektet stadig blev skabt af medarbejdere i Facebook og Yahoo [20] . MapR blev grundlagt i 2009 med det mål at skabe en højtydende version af Hadoop-distributionen og levere den som proprietær software. I april 2009 lancerede Amazon Elastic MapReduce, en skytjeneste , der giver abonnenter mulighed for at oprette Hadoop-klynger og køre job på dem på et tidsbaseret grundlag. Senere, som et alternativ, fik Amazon Elastic MapReduce-abonnenter valget mellem den klassiske distribution fra Apache og distributioner fra MapR.

I 2011 udsprang Yahoo den division, der udviklede og brugte Hadoop til et uafhængigt firma - Hortonworks , snart lykkedes det det nye firma at indgå en aftale med Microsoft om i fællesskab at udvikle Hadoop-distributionen til Windows Azure og Windows Server [21] . I samme år, med fremkomsten af Hadoop som en af kerneteknologierne inden for big data, inkluderede stort set alle større teknologisoftwareleverandører til organisationer Hadoop-teknologier i en eller anden form i deres strategier og produktlinjer. Så, Oracle frigav Big Data-apparatet hardware-softwarekomplekset (formonteret i et telekommunikationsskab og prækonfigureret Hadoop-klynge med et distributionssæt fra Cloudera) [22] , IBM skabte BigInsights-produktet baseret på Apache-distributionssættet [ 23] , licenserede EMC fra MapR deres højtydende Hadoop til integration i produkter fra det nyligt erhvervede Greenplum [24] (denne forretningsenhed blev senere udskilt til et selvstændigt firma Pivotal , og det flyttede til en fuldstændig uafhængig Hadoop-distribution baseret på Apache-kode [25] ), indgik Teradata en aftale med Hortonworks om at integrere Hadoop i Aster Big Analytics-apparatet [26] . I 2013 skabte Intel sin egen distribution af Hadoop [27] , et år senere opgav det sin udvikling til fordel for løsninger fra Cloudera, hvori det erhvervede en 18% ejerandel [28] .

Volumenet af software- og servicemarkedet omkring Hadoop-økosystemet for 2012 er anslået til $ 540 millioner med en vækstprognose til $1,6 milliarder i 2017, markedslederne er de californiske startups Cloudera, MapR og Hortonworks [29] . Ud over dem er Hadapt (overtaget i juli 2014 af Teradata [30] ), Datameer , Karmasphere og Platfora også kendt for at bygge hele deres forretning på at skabe produkter for at give Hadoop-systemer analytiske muligheder [31] .

Kritik

Noter

↑ https://archive.apache.org/dist/hadoop/common/
↑ Vance, 2009 , Det styrer de bedste søgemaskiner og bestemmer, hvilke annoncer der vises ved siden af resultaterne. Det bestemmer, hvad folk ser på Yahoos hjemmeside og finder for længst mistede venner på Facebook.
↑ Dean, Jeffrey og Ghemawat, Sanjay. MapReduce: Simplified Data Processing on Large Clusters // OSDI '04: 6th Symposium on Operating Systems Design and Implementation. - USENIX , 2004. - S. 137-149 . - doi : 10.1145/1327452.1327492 . Arkiveret fra originalen den 14. december 2011.
↑ 12 Cutting , Doug. Hadoop: en kort historie (engelsk) (link ikke tilgængeligt) . Yahoo! (24. marts 2008). Hentet 25. december 2011. Arkiveret fra originalen 11. marts 2012.
↑ Vance, 2009 , Doug Cutting med den udstoppede elefant, der inspirerede navnet Hadoop.
↑ White, 2013 , I april 2008 slog Hadoop en verdensrekord for at blive de hurtigste systemer til at sortere en terabyte data. Hadoop, der kører på en 910-node-klynge, sorterede én terabyte på 209 sekunder, s. 10-11.
↑ White, 2013 , på dette tidspunkt blev Hadoop brugt af mange andre virksomheder, udover Yahoo!, såsom Last.fm, Facebook og New York Times, s. ti.
↑ Metz, Cade Google velsigner Hadoop med MapReduce-patentlicens (eng.) (link ikke tilgængeligt) . Registret (27. april 2010). Hentet 30. december 2011. Arkiveret fra originalen 11. marts 2012.
↑ Metz, 2011 , Men det var meget indlysende, meget hurtigt, at det at kunne administrere 'Big Data' er det største problem, som CIO'er skal løse ... Det var tydeligt, at Hadoop var den måde, de ønskede at løse problemet på”.
↑ Morrison, Alan et al. Big Data: Sådan udtrækkes information fra det (link ikke tilgængeligt) . Teknologisk prognose. Kvartalsblad, russisk udgave, 2010 udgave 3 . PricewaterhouseCoopers (17. december 2010). "I begyndelsen af 2010 var Hadoop, MapReduce og deres tilknyttede open source-teknologier drevet af et helt nyt fænomen, som O'Reilly Media, The Economist og andre har døbt big data." Hentet 12. november 2011. Arkiveret fra originalen 11. marts 2012. (Russisk)
↑ Winckler, Marie. Apache Hadoop vinder topprisen ved Media Guardian Innovation Awards (engelsk) (link ikke tilgængeligt) . The Guardian (25. marts 2011). - "Beskrevet af dommerpanelet som en "schweizisk hærkniv i det 21. århundrede", modtog Apache Hadoop prisen for årets innovator for at have potentialet til at ændre medieinnovationers ansigt. Hentet 25. december 2011. Arkiveret fra originalen 11. marts 2012.
↑ Serdar Yegulalp. Hadoop 2: Big datas store spring fremad . Hadoop 2.0 går ud over MapReduce for at skabe en generel ramme for distribuerede databehandlingsapplikationer . infoverden . IDG (16. oktober 2013) . Hentet 1. januar 2014. Arkiveret fra originalen 16. december 2013.
↑ Toby Wolpe. Hortonworks grundlægger: YARN er Hadoops datacenter OS . Som lead på MapReduce og en del af Hadoop fra starten tilbyder Arun Murthy sit bud på YARNs betydning for open source-projektet og virksomhedsdataarkitekturen . ZDNet (31. oktober 2013) . "Det var systemet til at tage applikationen fra brugeren og køre den. Så det er en slags operativsystem"". Hentet 1. januar 2014. Arkiveret fra originalen 2. januar 2014.
↑ Apache Hadoop MapReduce - Migrering fra Apache Hadoop 1.x til Apache Hadoop 2.x. Apache Software Foundation (7. oktober 2013). Hentet 1. januar 2014. Arkiveret fra originalen 2. januar 2014. (ubestemt)
↑ Shvachko, 2011 ,Originaltekst (engelsk)[ Visskjule] Yahoo kørte efter sigende adskillige klynger med 4000+ noder med fire 1 TB-drev pr. node, 15 PB total lagerkapacitet, 70 millioner filer og 80 millioner blokke ved hjælp af 50 GB NameNode-heap. Facebooks 2000-node lagerklynge er klargjort til 21 PB af samlet lagerkapacitet. Hvis man ekstrapolerer den annoncerede vækstrate, skulle dets navneområde have tæt på 200 millioner objekter (filer + blokke) efterhånden, men en enorm bunke på 108 GB skulle give plads til tæt på 400 millioner objekter. eBay kører en 700-node klynge. Hver node har 24 TB lokal disklagring, 72 GB RAM og en 12-kerne CPU. Samlet klyngestørrelse er 16 PB .
↑ Shvachko, 2011 , Apache Hadoop MapReduce-rammeværket har angiveligt nået sin skalerbarhedsgrænse ved 40.000 klienter, der kører på klyngen samtidigt. Dette svarer til en klynge med 4.000 noder med 10 MapReduce-klienter – slots, i Hadoop-terminologi – pr. node.
↑ Shvachko, 2011 , For at kunne behandle metadataanmodninger fra tusindvis af klienter effektivt, gemmer NameNode hele navneområdet i hukommelsen. Mængden af RAM, der er allokeret til NameNode, begrænser størrelsen af klyngen <...> Den nuværende grænse for navneområdet er 100 millioner filer.
↑ Derek Harris. Big data på mikroservere? Du satser . Online dating-tjenesten eHarmony bruger SeaMicros specialiserede Intel Atom-drevne servere som grundlaget for sin Hadoop-infrastruktur, hvilket viser, at big data-applikationer som Hadoop kan være en dræber app til lav-powered mikroservere . Gigaom (13. juni 2011) . Hentet 4. januar 2014. Arkiveret fra originalen 22. december 2013.
↑ yarn.nodemanager.resource.memory-mb og yarn.nodemanager.resource.cpu-vcoresi overensstemmelse hermed i YARN-konfigurationsfilen
↑ Handy, Alex. Hadoop-skaberen går til Cloudera (engelsk) (downlink) . SD Times (9. oktober 2009). "Jeg har sagt i et stykke tid nu, at Cloudera er virksomheden med Hadoop-banneret fast i sit greb, på trods af at Yahoo og Facebook begge bidrager med bjerge af kode til projektet." Hentet 25. december 2011. Arkiveret fra originalen 11. marts 2012.
↑ Mary Jo Foley. Hortonworks leverer beta af Hadoop big-data platform til Windows . En fuldt open source-version af Hortonworks Data Platform til Windows, bygget med bidrag fra Microsoft, er tilgængelig for betatestere. (engelsk) . ZDNet (17. februar 2013) . - "I 2011 annoncerede Microsoft, at det samarbejdede med Hortonworks for at skabe både en Windows Azure- og Windows Server-implementering af Hadoop big data frameworket." Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014.
↑ Timothy Prickett Morgan. Oracle ruller sin egen NoSQL og Hadoop . En yderst selvsikker Ellison bestiger Big Data-elefanten . Registret (3. oktober 2011) . — "Der er ingen mangel på ego hos Oracle, som det fremgår af udbredelsen af tillid bag virksomhedens OpenWorld-annoncering af den ikke så ydmygt navngivne Big Data Appliance." Hentet 2. januar 2014. Arkiveret fra originalen 7. juli 2017.
↑ Doug Henschen. IBM slår Oracle, Microsoft med Big Data Leap . Den Hadoop-baserede InfoSphere BigInsights-platform går live på SmartCloud-infrastrukturen og slår Oracle og Microsoft på markedet . Informationsuge (2011-14-10) . Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014.
↑ Derek Harris. Startup MapR understøtter EMC's Hadoop-indsats . Den Calif.-baserede lageropstart MapR, som giver et højtydende alternativ til Hadoop Distributed File System, vil fungere som lagerkomponenten for EMC's kommende Greenplum HD Enterprise Edition Hadoop- distribution . Gigaom (25. maj 2011) . Dato for adgang: 2. januar 2014. Arkiveret fra originalen 2. januar 2014.
↑ Timothy Pricket Morgan. Pivotale skibe eponymous Hadoop distro til masserne . En nysgerrig HAWQ rider på big data-elefanten . Registret (17. juli 2013) . "I kølvandet på opkøbet af Greenplum-paralleldatabasen og relaterede datavarehusapparater for nogle år siden, sluttede EMC sig til MapR Technologies for at omdøbe sin egen gengivelse af Hadoop for at lave sin Greenplum HD-variant. Men med Pivotal HD 1.0-distributionen er EMC- og VMware-spinoff'et gået tilbage til open source Apache Hadoop." Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014.
↑ Jaikumar Vijayan. Teradata samarbejder med Hortonworks på Hadoop . To virksomheder går sammen for at udvikle produkter og implementeringstjenester . Computerworld (21. februar 2012) . Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014.
↑ Stacey Higginbotham. Cloudera hvem? Intel annoncerer sin egen Hadoop-distribution . Intel går ind i open source-softwarebranchen med sin egen version af Hadoop. Det slutter sig til et væld af startups såvel som EMC Greenplum i at opbygge en distribution til big data . Gigaom (26. februar 2013) . Hentet 3. januar 2014. Arkiveret fra originalen 2. januar 2014.
↑ Harris, Dereck Intel forkaster sin Hadoop-distro og sætter millioner bag Cloudera . Gigaom (27. marts 2014). Hentet 1. april 2014. Arkiveret fra originalen 30. marts 2014.
↑ John Furier. Hadoop Pure-Play forretningsmodeller forklaret . Forbes (19. december 2013). Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014.
↑ Doug Henschen. Teradata erhverver Hadapt, Revelytix For Big Data Boost . Teradata tilføjer dataforberedelse, datastyring og dataanalyse ved at købe to bemærkelsesværdige uafhængige i big data-arenaen . Informationsuge (22. juli 2014) . Hentet 1. november 2014. Arkiveret fra originalen 1. november 2014. (ubestemt)
↑ Doug Henschen. 13 Big Data-leverandører at se i 2013 . Fra Amazon til Splunk, her er et kig på de big data-innovatorer, der nu skubber Hadoop, NoSQL og big data-analyse til næste niveau . Informationsuge (10. december 2012) . — "Hadapt bringer relationsanalyse til Hadoop <...> Hadapt er i godt selskab med Cloudera (Impala), Datameer, Karmasphere, Platfora og andre, der alle arbejder på forskellige måder at imødekomme den samme analytics-on-Hadoop-udfordring." Hentet 2. januar 2014. Arkiveret fra originalen 3. januar 2014. (ubestemt)

Litteratur

Hvid, Tom. Hadoop. Detaljeret vejledning. - 2. - Sankt Petersborg. : Piter , 2013. - 672 s. - 1000 eksemplarer. - ISBN 978-5-496-00662-0 .
Lam, Chuck. Hadoop i aktion. - DMK Press, 2012. - 424 s. - 500 eksemplarer. - ISBN 978-5-97060-156-3 , 978-5-94074-785-7.
Vance, Ashlee . Hadoop, et gratis softwareprogram, Finds Uses Beyond Search (engelsk) (HTML), N. Y. : The New York Times (17. marts 2009), s. B3. Hentet 25. december 2011.
Prickett Morgan, Timothy Cloudera flyder kommerciel Hadoop-distro (engelsk) (link ikke tilgængeligt) . Registret (16. marts 2009). Hentet 25. december 2011. Arkiveret fra originalen 11. marts 2012.
Metz, Cade. Hvordan Yahoo skabte Hadoop, the Future of Big Data (engelsk) (link ikke tilgængeligt) . Kabelforbundet (18. oktober 2011). Hentet 25. december 2011. Arkiveret fra originalen 11. marts 2012.
Shvachko, Konstantin. Apache Hadoop. Skalerbarhedsopdateringen . _ - 2011. - Bd. 36 , nr. 3 . - S. 7-13 . - ISSN 1044-6397 .

Links

hadoop.apache.org - Hadoops officielle hjemmeside

Apache Software Foundation

Projekter på topniveau

ActiveMQ
luftstrøm
Myre
Apache HTTP-server
ÅOP
Cassandra
Cayenne
kamel
Commons
Kokon
CouchDB
DB
bibliotek
Druid
Flink
Forrest
Geronimo
Gump
Hadoop
HBase
HttpComponents
Jackkanin
James
jmeter
Kafka
Lenya
Maven
Mina
mod perl
mod_wsgi
MyFaces
Nutch
OFBiz
Oozie
åbent kontor
POI
Portaler
Santuario
service mix
Shiro
Gnist
SpamAssassin
stivere
subversion
supersæt
Gobelin
Tcl
Tomcat
Turbine
Hastighed
WebWork2
Wicket
Xalan
Xerces
XMLBeans
Zeppelin
Dyrepasser

Delprojekter

Apache Commons	BCEL BSF JCS
Apache Lucene	Luce Java Lucene4c Lucy Solr
ApacheDB	Derby Moment DdlUtils OJB JDO

Apache Web

Akse
Akse2
CXF
WS-
EWS
JaxMe
jUDDI
Kandula
Mirae
Muse
Abonner
Sandesha
spejder
SÆBE
Synapse
TSIK
Toscana
Woden
WSIF
WSRF
WSS4J
XML-RPC

Andre projekter

Batik
FOP
Log4j

Udvikling af projekter ( inkubator )

XAP
River
OpenEJB
Åbn JPA
Graffito
Toscana
Log4Net
Rulle
Felix
Abdera
CeltiXfire
FtpServer
Heraldik
Ivy
Juice
Kabuki
Lokahi
Lucene.Net
mod_ftp
NMaven
Ode
stdcxx
Woden
WSRP4J
Yoko
WADI
Qpid
TripleSoup
UIMA
Adobe Flex

Nedlagte projekter ( loftsrum )

AxKit
Beehive
Kaktus
ECS
Excalibur
Harmoni
HiveMind
iBATIS
Jakarta
ORO
Regexp
Skifer
Slide
Taglibs

Licens: Apache-licens