Cloudera Inc. | |
---|---|
Type | offentlig virksomhed |
Børsnotering _ | NYSE : CLDR |
Grundlag | 2009 |
Grundlæggere |
Christophe Biscilla, Amr Awadalla, Jeffrey Hammerbacher, Michael Olson |
Beliggenhed | USA :Palo Alto |
Nøgletal |
Reilly, Tom (CEO), Doug Cutting (Chief Architect) |
Industri | softwareudvikling ( ISIC :) 6201 _ |
Produkter | Kommerciel version af Hadoop , Cloudera Impala |
omsætning | ▲ $301 millioner (2018) |
Driftsresultat | ▼ -389 millioner USD (tab, 2018) |
Nettoresultat | ▼ -386 millioner USD (tab, 2018) |
Brug af store bogstaver | $2,66 milliarder (7. september 2018) [1] |
Internet side | cloudera.com |
Mediefiler på Wikimedia Commons |
Cloudera er et amerikansk firma, der udvikler Apache Hadoop- distributioner og en række Hadoop -økosystemsoftwareprodukter .
Virksomhedens forretningsmodel er blevet sammenlignet med Red Hats forretning - Cloudera skaber distributioner af softwareprodukter til organisationer baseret på gratis software og tjener penge ved at levere teknisk support til de leverede løsninger [2] [3] . Med boomet i " big data "-teknologier er Cloudera gentagne gange blevet anerkendt som en af de mest lovende virksomheder, der er i stand til at løse problemer i sin klasse [4] [5] .
I 2018 absorberede det hovedkonkurrenten på Hadoop-distributionsmarkedet, det amerikanske firma Hortonworks .
Virksomheden blev grundlagt i oktober 2008 i Burlingame ( Californien ) med en startkapital på $5 millioner, hovedmålet med virksomheden var kommercialiseringen af Hadoop- projektet . Grundlæggerne af virksomheden er Christophe Bischiglia , som tidligere har arbejdet hos Google , Amr Awadallah ( Amr Awadallah , Vice President for Yahoo Corporation , ansvarlig for analysesystemer og datalagring), Jeffrey Hammerbacher ( Jeff Hammerbacher , Hive - projektleder hos Facebook ) og Michael Olson , vicepræsident for Oracle Corporation , tidligere administrerende direktør for Sleepecat , som udviklede og udviklede Berkeley DB og blev absorberet i 2006 af Oracle) [6] . Hammerbacher arrangerede startfinansiering til projektet fra Accel Partners , hvor Olson overtog virksomheden. I alt blev der rejst 11 millioner dollars i den indledende fase, og udover Accel er Greylock Partners og business angels Gideon Yu og Caterina Fake opført blandt investorerne [ 7 ] .
Blandt de ansatte, der blev ansat i de første måneder, var Hadoop-skaberne Doug Cutting og Mike Cafarella , tidligere administrerende direktører for VMware ( Diane Green ) og MySQL AB ( Marten Mikos ) [8] . Takket være Cuttings flytning til Cloudera er virksomheden blevet beskrevet som "den nye flagbærer af Hadoop" [9] .
I 2009 blev Biscilla placeret på en femteplads på Businessweeks Top 22 Young Tech Entrepreneurs-liste [10] , og Hammerbacher på en syvendeplads (ud af 15) i 2010 . I Biscilla-nomineringen blev Cloudera beskrevet som et servicefirma, der ydede teknisk rådgivning om Hadoop, mens Hammerbachers bidrag i 2010 blev bemærket som en transformation af virksomhedens forretning, hvilket gjorde den til en leverandør af replikerbar software til organisationer [11] .
I november 2011 modtog virksomheden yderligere finansiering i et beløb på $40 millioner [12] , i december 2012 - yderligere $65 millioner [13] , blandt investorerne i de næste runder er Ignition Partners , Greylock , Accel , Meritech Capital Partners og In -Q-Tlf [ 14] [13] .
I oktober 2012 introducerede virksomheden Impala -produktet , som giver SQL -adgang til data i en Hadoop-drevet klynge, fremkomsten af et sådant produkt blev mødt som en overraskelse, da virksomhedernes fremherskende retorik fokuserede på "big data". "teknologier var opgivelsen af traditionelle teknologier baseret på SQL ( eng. old SQL , i overensstemmelse med " old school " - old school ) [15] .
I juni 2013 blev Tom Reilly inviteret til stillingen som administrerende direktør , efter at have ført to teknologivirksomheder til overtagelse af store aktører ( MDM-systemproducenten Trigo blev købt af IBM i 2004, og ArcSight blev bragt til børsnotering og snart absorberet af Hewlett-Packard i 2010), vurderes begivenheden som forberedelse til enten et børsnoteret udbud eller et salg af virksomheden [16] . Olson flyttede til stillingen som strategisk direktør og bestyrelsesformand. I juli 2013 overtog firmaet det britiske firma Myrryx , grundlagt af Sean Owen , en af hovedforfatterne af Hadoop-økosystemets skalerbare maskinlæringsramme Apache Mahout , Owen blev annonceret som "Director of Data Science " ( Engelsk direktør for datavidenskab ) [17] .
I midten af 2013 modtog selskabet i alt 141 millioner dollars i fem investeringsrunder [16] , og i næste runde i marts 2014 rejste selskabet yderligere 160 millioner dollars [18] . I marts 2014, efter den sjette investeringsrunde, erhvervede Intel en 18% ejerandel i virksomheden for 740 millioner dollars, og værdiansatte dermed Clouderas forretning til cirka 4 milliarder dollars [19] ; samtidig opgav Intel udviklingen af sin egen Hadoop-distribution skabt et år tidligere til fordel for at promovere løsninger fra Cloudera [18] . I juni 2014 købte virksomheden datakrypteringsteknologiudvikleren Gazzang [20] .
I april 2017 afholdt selskabet et børsnotering på New York Stock Exchange , som et resultat af hvilket det rejste $215 millioner [21] . I efteråret 2017 blev det New York-baserede maskinlæringsfirma Fast Forward Labs overtaget, handlen blev noteret som et svar på den tætte integration af Hortonworks med IBM, som lægger vægt på udviklingen af kunstig intelligens-systemer inden for Watson -programmet , og opgav sin Hadoop-distribution til fordel for Hortonworks [22] .
I oktober 2018 blev en fusion med Hortonworks annonceret, mens strukturen beholdt Cloudera-navnet, notering på børsen og administrerende direktør, og Hortonworks aktionærer modtog 40% af aktierne i det kombinerede selskab [23] . Transaktionen blev gennemført den 3. januar 2019, på trods af den samlede værdiansættelse af de to virksomheder på tidspunktet for meddelelsen til $5,2 milliarder, efter dens afslutning beløb kapitaliseringen af den kombinerede virksomhed sig til omkring $3 milliarder [24] . Overtagelsen fuldendte faktisk stadiet med konsolidering på markedet for kommercielle distributioner af Hadoop (af alle bemærkelsesværdige andre markedsdeltagere var det kun MapR tilbage med en årlig omsætning på omkring $175 millioner i 2018), hvilket flyttede fokus for konkurrencen til bredere segmenter - big data-værktøjer og analytiske platforme [25] .
I slutningen af 2020 købte virksomheden aktier tilbage fra Intel for $314 millioner ($426 millioner mindre end 2014-investeringen) [26] .
CDH ( Clouderas distribution inklusive Apache Hadoop ) er en Apache Hadoop-distribution, der inkluderer en række relaterede programmer og biblioteker og Clouderas egne udviklingsværktøjer, frit distribueret og kommercielt understøttet for visse Linux-distributioner ( Red Hat Enterprise Linux , CentOS , Ubuntu , SuSE SLES , Debian ). Blandt Apache-softwareprojekterne relateret til Hadoop omfatter distributionen: Flume , HBase , Hive , Mahout , Oozie , Pig , Sqoop , Whirr , Zookeeper . Derudover inkluderer distributionen sit eget klyngestyringsundersystem Cloudera Manager , som inkluderer scripts til implementering af Hadoop-infrastrukturen både i lokale og cloud-miljøer ( Rackspace , Amazon EC2 , Softlayer ), samt hjælpeprogrammer og konfigurationer til understøtte byggeautomatisering ved hjælp af Apache Maven .
I begyndelsen af 2012 blev to versioner af CDH sendt, CDH2 (baseret på Hadoop 0.20.1) og CDH3 (baseret på Hadoop 0.20.2). CDH3-distributionen er inkluderet i leveringen af Oracle Big Data-apparatet [27] hardware- og softwarekompleks , desuden leveres den første linje af kundesupport til Hadoop af Oracle Corporation , og Cloudera yder teknisk support til mere komplekse problemer. I midten af 2012 blev der udgivet en version af CDH4 baseret på Hadoop 2.0 (inklusive YARN -modulet ), tre af virksomhedens egne produkter er også inkluderet i CDH4 - Hue (browsergrænseflade til styring af en Hadoop-klynge), Impala og Søg (fuldtekst- og facetteret søgning i HDFS- og HBase- miljøer ). I 2014 udkom CDH5-versionen; CDH6-versionen, der blev udgivet i foråret 2018, er baseret på Hadoop 3.0 (hvoraf nøgleinnovationen var understøttelse af fejlkorrigerende kodning til HDFS, som kan reducere den fysiske størrelse af klynger markant) [28] .
Cloudera Impala er en massivt parallel SQL -forespørgselsmotortil data lagret i HDFS og HBase , distribueret under Apache 2.0 -licensen. I modsætning til Hive , som oversætter forespørgsler i et SQL-lignende sprog (HiveQL) til MapReduce-job, der udføres i batch-tilstand, udfører Impala forespørgsler i et distribueret miljø interaktivt og distribuerer forespørgslen mellem behandlingsknuder baseret på sin egen mekanisme uden at ty til MapReduce.
Cloudera Manager er en specialiseret komponent, der giver dig mulighed for at automatisere oprettelsen og ændringen af Hadoop-miljøer, spore og analysere effektiviteten af behandlingsopgaver, opsætte advarsler om forekomsten af visse hændelser relateret til driften af den distribuerede behandlingsinfrastruktur. De årlige omkostninger til teknisk support er omkring $4.000 pr. klynge node [29] . Der er en gratis udgave til Cloudera Manager ( engelsk gratis udgave ), som kun virker på klynger , der består af mindre end 50 noder og mangler en række funktioner, der er tilgængelige for kommercielle abonnenter (såsom ydeevneovervågning, konfigurationsversionering, Kerberos-understøttelse ).
Efter Garnters forudsigelse i 2017 data management teknologi hype cyklus, at selve konceptet med en "Hadoop distribution" snart vil blive forældet, har virksomheden flyttet sit produktudbud til tematiske kits, der består af stort set de samme komponenter, som er samlet i CDH, men rettet mod visse specifikke opgaver. Så i 2018 dukkede produkter op under navnene Data Warehouse (montering til datavarehuse , med fokus på Impala), Operational DB (til operationelle databaser, omkring HBase , Kudu og Spark ), Data Engineering (til ETL og interaktive adgang til data), Data Science (til " data science "-opgaver ), Enterprise Data Hub (til dataplatforme på virksomhedsniveau - faktisk en komplet samling af Hadoop-distributionen plus et datakatalog baseret på dens egen SDX-komponent).
Siden 2018 har prispolitikken været dannet omkring tematiske produkter; Afhængigt af konfigurationen betaler abonnenter årligt fra $4.000 for at understøtte hver Data Engineering- og Data Science-produktnode til $10.000 for en Enterprise Data Hub-produktnode.