Blue Gene er et massivt parallelt arkitekturprojekt designet til at bygge flere supercomputere og sigte mod at opnå databehandlingshastigheder på over 1 petaflops . I øjeblikket er hastigheden på næsten 20 petaflops blevet mestret med succes . Det er et fælles projekt af IBM (en afdeling af Rochester MN og Thomas Watson Research Center ), Livermore National Laboratory , US Department of Energy (som delvist finansierer projektet) og den akademiske verden. Der er tre faser af projektet: Blue Gene/L, Blue Gene/P og Blue Gene/Q.
Projektet blev tildelt US National Medal of Technology and Innovation den 18. september 2009. Præsident Barack Obama overrakte prisen den 7. oktober 2009 [1] .
I december 1999 annoncerede IBM et femårigt forskningsinitiativ på 100 millioner dollars for at bygge massivt parallelle computere, der skulle bruges til at studere biomolekylære fænomener såsom proteinfoldning. Projektet havde to hovedmål: at forbedre vores forståelse af mekanismerne bag proteinfoldning gennem simuleringer i stor skala og at udforske nye ideer i massivt parallel maskin- og softwarearkitektur.
De vigtigste studieområder er:
Det oprindelige design for Blue Gene var baseret på en tidlig version af Cyclops64-arkitekturen designet af Denney Monty. Det indledende forsknings- og udviklingsarbejde blev udført på IBM TJ Watson Research Center.
Hos IBM begyndte Alan Gahr at arbejde på at udvide QCDOC-arkitekturen til en mere generel supercomputer: Fire tæt fordelte intrasystem-switchede netværk blev erstattet med et netværk, der understøttede meddelelsesrouting fra enhver node til enhver anden, og en parallel input/output. Department of Energy begyndte at finansiere udviklingen af dette system, og det blev kendt som Blue Gene/L (L for Light). Udviklingen af det originale Blue Gene system fortsatte under navnet Blue Gene/C (C for Cyclops) og blev senere omdøbt til Cyclops64.
Hver efterfølgende generation af Blue Gene-systemet fik sit eget navn. Således blev anden generation af supercomputere (introduceret i 2007) kaldt Blue Gene/P, den tredje (introduceret i 2011) - Blue Gene/Q.
Blue Gene/L er den første computer i IBM Blue Gene-serien udviklet i samarbejde med Livermore National Laboratory . Dens teoretiske højeste ydeevne er 360 teraflops , mens den faktiske ydeevne opnået fra Linpack -testen er omkring 280 teraflops. Efter opgraderingen i 2007 steg den reelle ydeevne til 478 teraflops med en topydelse på 596 teraflops. Blue Gene/C er en undergruppe til Cyclops64-arkitekturen.
I november 2006 havde 27 computere fra TOP500-listen Blue Gene/L-arkitekturen.
Blue Gene/L supercomputeren var unik på følgende måder:
Blue Gene/L-arkitekturen er en udvikling af QCDSP- og QCDOC-arkitekturerne. Hver Blue Gene/L compute eller I/O node er en enkelt ASIC (Application Specific Integrated Circuit) integreret med en DRAM hukommelseschip. ASIC har to indbyggede 700 MHz PowerPC 440-processorer (hver med en dual-channel double-precision math coprocessor (FPU), en subsystem cache med en indlejret DRAM-controller og logik til at understøtte flere kommunikationsundersystemer. Den dobbelte FPU gav hver Blue Gene/L-node en teoretisk topydelse på 5,6 GFlops. Processorerne er ikke forbundet med en sammenhængende cache.
To computerknudepunkter er placeret på et computerkort, 16 computerkort plus ikke mere end 2 I/O noder er placeret på et bord. Op til 32 brædder passer i et stativ. Ved at integrere alle de nødvendige systemer på en enkelt chip og bruge laveffektlogiske elementer, bruger hver computer- eller I/O-node lav strøm (ca. 17 watt inklusive DRAM-omkostninger). Dette gør det muligt at pakke op til 1024 beregningsknuder (plus yderligere I/O-noder) meget tæt ind i et standard 19-tommer rack, hvilket giver det rimelig strøm og luftkøling. Effektivitetsmålinger i form af flops pr. watt, flops pr. kvadratmeter og flops pr. enhedspris gør det muligt at skalere systemet til meget høj ydeevne. Med så mange noder er komponentfejl uundgåelige. Derfor kan systemet elektrisk isolere en række defekte komponenter for at fortsætte med at fungere normalt.
Hver Blue Gene/L-node er forbundet til tre parallelle kommunikationsnetværk:
I/O-knuderne, der kører Linux, giver kommunikation med lageret og eksterne knudepunkter via et Ethernet-netværk. I/O-knudepunkterne håndterer databehandlingsknudernes filsystemoperationer. Endelig giver et separat og privat Ethernet-netværk adgang til enhver node til konfiguration, download og diagnostik.
For at tillade flere programmer at køre samtidigt, skal Blue Gene/L-systemet opdeles i elektronisk isolerede nodesektioner. Antallet af noder i en partition skal være et multiplum af en potens på 2, mindst 25 = 32 noder. For at køre programmet på Blue Gene/L reserveres partitionen først. Programmet downloades derefter og køres på alle noder i partitionen, og intet andet program kan få adgang til noderne i partitionen, mens partitionen er i brug. Når partitionen er fuldført, frigøres noderne til at køre følgende programmer.
Computing noder Blue Gene / L bruger det mest lette OS, der understøtter ét brugerprogram. Kun et undersæt af POSIX-rutinerne understøttes, og kun én proces kan køre på en vært i coprocessor-tilstand ad gangen, eller én proces på en processor i virtuel tilstand. Programmører skal bruge grønne tråde til at simulere lokal parallelitet. Applikationsudvikling foregår typisk i C, C++ eller Fortran ved hjælp af MPI til kommunikation. Det er også muligt at udvikle i nogle scriptsprog, såsom Ruby og Python, da de er integreret i operativsystemet til computerknudepunkter.
Blokdiagram af en Blue Gene/L- chip indeholdende to PowerPC 440 -kerner
Et af BlueGene/L stativerne
Cyclops64-projektet blev startet som reaktion på udviklingen af Earth Simulator - (et system udviklet af Japan Aerospace Exploration Agency og Japan Institute for Nuclear Research i 1997 for at studere effekten af global opvarmning og løse geofysiske problemer).
Cyclops64 er et fælles projekt af det amerikanske energiministerium (som delvist finansierer projektet), det amerikanske forsvarsministerium, industriselskaber (især IBM) og akademier.
Arkitekturen blev udtænkt af Seymour Cray Award-vinderen Denney Monti, som i øjeblikket leder projektet.
Hver 64-bit Cyclops64-chip kører ved 500 MHz og indeholder 80 processorer. Hver processor har to tråde og en matematisk coprocessor (FPU). Hver tråd er en ordnet 64-bit RISC-kerne med 32 KB ekstra hukommelse ved hjælp af en 60-instruktions undergruppe af Power Architecture-instruktionssættet. Fem processorer deler 32 KB instruktionscache.
Processorer er forbundet via port 96[ afklare ] med en matrixskifter. De kommunikerer med hinanden gennem en global delt hukommelse (hukommelse, der kan skrives til og læses af alle tråde) i SRAM.
Den teoretiske topydelse af Cyclops64-chippen er 80 GFlops.
To tråde (to tråde) fungerer på en processor, op til 80 processorer er placeret på en chip. Der placeres 1 chip på brættet, derefter er der installeret op til 48 brætter på det mellemliggende bræt. Et stativ passer til 3 mellemplader. Systemet kan omfatte op til 96 (12x8) stativer.
Det vil sige, at det komplette system indeholder 13.824 Cyclops64-chips, bestående af 1.105.920 processorer, som er i stand til at køre 2.211.840 parallelle tråde.
Cyclops64 afslører meget af sin hardwareprogrammeringsevne, hvilket gør det muligt for programmøren at skrive meget høj ydeevne og finjusteret software. Det negative punkt er vanskeligheden ved at programmere under Cyclops64
Forskning og udvikling er i gang med, at systemet kunne understøtte TiNy-Threads (et threading-bibliotek udviklet ved University of Delaware) og POSIX Threads.
Den 26. juni 2007 introducerede IBM Blue Gene/P, anden generation af Blue Gene supercomputere . Designet til at fungere med en maksimal ydeevne på 1 petaflops . Blue Gene/P kan konfigureres til at opnå maksimal ydeevne på over 3 petaflops. Derudover er den syv gange mere energieffektiv end nogen anden supercomputer . Blue Gene/P er lavet ved hjælp af et stort antal små, laveffektchips, der kommunikerer gennem fem dedikerede netværk.
Hver Blue Gene/P-chip består af fire PowerPC 450 processorkerner clocket til 850 MHz. En 2 eller 4 GB RAM-chip og netværksgrænseflader udgør supercomputerens computerknudepunkt. 32 computing noder er kombineret til et kort (Compute Node card), hvortil du kan forbinde fra 0 til 2 I/O noder. Systemstativet rummer 32 af disse kort.
Blue Gene/P-konfigurationen med en maksimal ydeevne på 1 petaflops repræsenterer 72 systemracks indeholdende 294.912 processorkerner, samlet i et højhastigheds optisk netværk. Blue Gene/P-konfigurationen kan udvides op til 216 racks med i alt 884.736 processorkerner for at opnå en maksimal ydeevne på 3 petaflops. Standardkonfigurationen af Blue Gene/P-systemracket indeholder 4.096 processorkerner [2] .
Enkelt stativ
Reoler
Spånplade
Blue Gene/Q er tredje generation af arkitekturen. Målet for udviklerne var at nå 20 petaflop-milepælen i 2011. Blue Gene/Q er en evolutionær fortsættelse af Blue Gene/L- og /P-arkitekturerne, der kører ved en højere frekvens og bruger mindre strøm pr. flop af ydeevne.
BlueGene/Q er et multi-core, 64-bit system på en chip bygget på PowerPC teknologi (for at være helt specifik er det en fire-cyklus PowerPC A2 arkitektur ). Hver af chipsene indeholder 18 kerner, som tilsammen udgør næsten halvanden milliard (1,47) transistorer. 16 kerner bruges til selve beregningerne, en kører styresystemet, og endelig er den sidste kerne ansvarlig for pålideligheden af beregningerne af hele systemet. Ved en frekvens på 1,6 GHz er hver chip i stand til at levere 204,8 Gflops, hvilket forbruger 55 watt strøm. Controllerne til hukommelse og I/O-operationer er naturligvis også en del af chippen. Blue Gene/Q indeholder 4 flydende komma-enheder, hvilket giver os 4 operationer udført i en clock-cyklus på hver kerne.
18 kerner, ifølge IBM-medarbejdere, er nødvendige for pålidelighed. Hvis en fejl blev registreret på en af processorkernerne, kan den deaktiveres og overføres til "bænken". Faktisk kan detekteringen og rekonfigurationen af en "fejl" kerne udføres på ethvert trin af produktionen eller samlingen af systemet - ikke kun når chippen allerede er ved at blive testet, men også på tidlige stadier, for eksempel installation af chippen i en computerklynge. I tilfældet med IBM Sequoia vil omkring 100.000 chips blive brugt til at nå de eftertragtede 20 petaflops. Det enorme antal processorer gør opgaven med at omkorte kerner meget vigtig: IBM har beregnet, at for et givet (100.000) antal chips i en supercomputer vil 1 processorenhed i gennemsnit fejle hver 3. uge.
Det er også kendt, at Blue Gene/Q understøtter transaktionshukommelse ikke på softwareniveau, men på hardwareniveau [9] .
Omkostningerne ved Blue Gene/Q (ved brug af kommercielle priser) anslås af The Register til cirka 150 millioner USD pr. petaflop [10] .
Af de ti mest kraftfulde supercomputere på Top500-listen i november 2014 er 4 bygget på Blue Gene/Q-platformen.
Sequoia supercomputer ved Livermore National Laboratory
Mira supercomputer ved Argonne National Laboratory
Ifølge den seneste TOP500-liste (dateret november 2013) mister supercomputere bygget på Blue Gene-arkitekturen stadig ikke deres positioner.
Bedømmelse | Beliggenhed | System | Antal kerner | Maks. hastighed (TFLOPS/s) | Tophastighed (TFLOPS/s) | Strømforbrug (kW) |
---|---|---|---|---|---|---|
3 | Livermore IC (USA) | Sequoia - BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 1572864 | 17173.2 | 20132.7 | 7890 |
5 | Argonne NL (USA) | Mira - BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 786432 | 8586,6 | 10066,3 | 3945 |
otte | Jülich Research Center (Tyskland) | JUQUEEN - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 458752 | 5008,9 | 5872,0 | 2301 |
9 | Livermore IC (USA) | Vulcan - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 393216 | 4293,3 | 5033,2 | 1972 |
femten | SCC Siena, Bologna (Italien) | Fermi - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM | 163840 | 1788,9 | 2097,2 | 822 |
23 | Daresbury Laboratory, Warrington (Storbritannien) | Blue Joule - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM | 114688 | 1252,2 | 1468,0 | 575 |
27 | University of Edinburgh (Storbritannien) | DiRAC - BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 98304 | 1073,3 | 1258,3 | 493 |
38 | Rensselaer Polytechnic Institute (USA) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 81920 | 894,4 | 1048,6 | 411 |
45 | Videnskabsakademiet (Frankrig) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 65536 | 715,6 | 838,9 | 329 |
46 | EDF R&D Company, Paris (Frankrig) | Zumbrota - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM | 65536 | 715,6 | 838,9 | 329 |
47 | Schweiziske nationale SKZ (Schweiz) | EPFL Blue Brain IV - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 65536 | 715,6 | 838,9 | 329 |
48 | Victorian Life Sciences Computation Initiative (Australien) | Avoca - BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 65536 | 715,6 | 838,9 | 329 |
57 | Organisation for Study of High-Energy Accelerators (Japan) | SAKURA - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM | 49152 | 536,7 | 629,1 | 247 |
58 | Organisation for Study of High-Energy Accelerators (Japan) | HIMAWARI - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 49152 | 536,7 | 629,1 | 247 |
67 | Argonne NL (USA | Intrepid - Blue Gene/P Solution IBM | 163840 | 458,6 | 557,1 | 1260 |
77 | Livermore IC (USA) | Dawn - Blue Gene/P Solution IBM | 147456 | 415,7 | 501,4 | 1134 |
87 | Rochester IBM (USA) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 32768 | 357,8 | 419,4 | 164 |
88 | Rochester IBM (USA) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 32768 | 357,8 | 419,4 | 164 |
89 | University of Toronto (Canada) | BGQ - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 32768 | 357,8 | 419,4 | 164 |
216 | Argonne NL (USA) | Vesta - BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 16384 | 189,0 | 209,7 | 82 |
217 | Argonne NL (USA) | Cetus - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 16384 | 189,0 | 209,7 | 82 |
218 | Federal Polytechnic School of Lausanne (Schweiz) | CADMOS BG/Q - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 16384 | 189,0 | 209,7 | 82 |
219 | Rochester IBM (USA) | BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 16384 | 189,0 | 209,7 | 82 |
220 | IBM ITs im. Thomas Watson (USA) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 16384 | 189,0 | 209,7 | 82 |
221 | Tværfagligt center for matematisk og computermodellering, University of Warszawa (Polen) | BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM | 16384 | 189,0 | 209,7 | 82 |
222 | Rochester IBM (USA) | BlueGene/Q, Power BQC 16C 1,60 GHz, Custom IBM | 16384 | 189,0 | 209,7 | 82 |
Den hurtigste computer bygget på Blue Gene-arkitekturen er Sequoia. Nu er han på tredjepladsen, men i juni 2012 besatte han første linje i TOP500-vurderingen. Med hensyn til energieffektivitet går den stadig uden om lederen (17808 kW) og sølvvinderen (8209).