Der starke Brutus der ETH Zürich

Verfasst von Karlheinz Pichler am 30.07.2012 - 08:41

An der ETH Zürich ist vor kurzem die bereits 4. Generation des High-Performance Computing Clusters „Brutus“ in Betrieb gegangen. Brutus zählt zu den energieeffizientesten Allzweckrechnern der Welt. Ohne Supercomputing läuft heute in der wissenschaftlichen Forschung so gut wie gar nichts mehr.

In der politischen Geschichte steht der Name Brutus für einen römischen Politiker in der Zeit der späten Republik, der einer der Mörder von Gaius Iulius Caesar war. In seiner Jugend schaffte es Brutus, durch fingierte Idiotie sich vor staatlicher Verfolgung zu retten. Sein Name bedeutet in der deutschen Übersetzung daher soviel wie „Stumpfsinniger“. „Brutus“ kann aber auch für etwas diametral Entgegengesetztes stehen, trägt doch der Hochleistungscomputer der ETH Zürich ebenfalls diesen Namen. Und zwar deshalb, weil die Anfangsbuchstaben des ETH-Cluster-Mottos „Better Reliability and Usability Thanks to Unified System“ eben diesen Terminus ergeben. Brutus leistet 190 Teraflops, also 190'000'000'000'000 Gleitkommarechnungen pro Sekunde und zählt zu den energieeffizientesten Allzweckrechnern der Welt. Brutus ist also alles anderes denn ein „Stumpfsiniger“, viel eher ein „schneller Brüter“, der hochkomplexe Aufgaben der Wissenschaft im möglichst kurzen Zeitzyklen „ausbrütet“ respektive abarbeitet.

Die Resourcen „poolen“

Hochleistungsfähige Supercomputer sind eine Schlüsseltechnologie für die Spitzenforschung, denn Modellierung und Simulation haben heute denselben wissenschaftlichen Stellenwert wie Theorie und Experiment. An vielen Universitäten haben einzelne Professoren aus Unabhängigkeitsgründen versucht, eigene Hochleistungscluster aufzubauen. In der Praxis werden solche „Inseln“ aber schlecht gemanaged, in dem der Betrieb an IT-ungeschulte Studenten übertragen wird. Zudem sind solche Systeme oft für den jeweiligen Einsatzbereich überdimensioniert und werden zu wenig ausgelastet, oder sie sind zu klein und können keine Spitzen-Workloads bewältigen.

An der ETH ist man schon früh einen anderen Weg gegangen. Anstatt sich eigene kleine Cluster zu kaufen, haben sich die Professoren und ihre Forschungsdepartemente arrangiert und die Resourcen sozusagen gepoolt, um ein gemeinsames Grosssystem nach dem Muster eines Shareholder-Modells anschaffen zu können. Alle bisherigen Supercomputer der ETH, angefangen von Asgard (2000-2007) über Hreidar (2004-2008) über Gonzales (2005-2008) bis herauf zu Brutus (seit 2008) wurden nach diesem Modell erworben. Heute arbeiten über 50 Professoren und Forschungsgruppen mit insgesamt gut 1400 Wisssenschaftlicher auf diese Art mit dem selben System. Betreut wird Brutus von einer eigenen internen Service-Stelle, der HPC Group, die von Oliver Byrde geleitet wird.

Byrde zufolge unterliegen Cluster-Computer einem Lebenszyklus von vier Jahren. Die Technik schreite so rasch voran, dass der Cluster nach dieser Zeitspanne ersetzt werden müsse. Das koste nicht nur enorm viel Geld, sondern auch Zeit, da die Forscher ihre spezifischen Software-Lösungen jeweils wieder an neue Hardware anpassen müssten. Daher habe man sich an der ETH für einen anderen Weg entschieden. Hier werden ältere Systeme weiter benutzt und durch neue Rechner ergänzt. Im Rechenzentrum der ETH stehen solcherart alte Computer von Sun neben ganz neuen Blade-Servern von HP.

Da Brutus seit 2008 im Einsatz ist, würde ihn nach dem üblichen Schema heuer das Zeitliche segnen. Nach dem Konzept der HPC Group wird er aber kontinuierlich erweitert. Da der Bedarf an Rechnerleistung nach wie vor enorm steigt, hat die ETH-Leitung bereits im vergangenen Jahr einer deutlichen Kapazitätsaufstockung von Brutus durch Server-Systeme von HP zugestimmt. Bei den im Frühjahr dieses Jahres angelieferten HP-Blades handelt es sich um Computer in Form von Einsteckmodulen, die einfach ausgetauscht werden können. Die von HP gelieferten Blades für die nun bereits 4. Brutus-Generation vereinen fast die Hälfte aller Rechenkerne, ein Hinweis darauf, dass neuere Systeme für dieselbe Rechenleistung deutlich weniger Platz brauchen. Insgesamt verfügt Brutus heute über 983 Rechnerknoten mit total 18 400 Prozessorkernen (Cores). Die 198 von HP stammenden Rechnerknoten enthalten dabei 8 784 Cores, die 785 Nicht-HP-Knoten über 9 616 Kerne. Brutus, der typischerweise zwei Millionen wissenschaftliche Simulationen pro Monat abarbeitet, benötigt zum Betrieb 450 kW. Das ist denn auch das Maximum, das die Elektrizitätswerke der Stadt Zürich dem Rechenzentrum der ETH liefern können. Die ETH hat dafür eine jährliche Stromrechnung von rund 630 000 Franken zu berappen.

Das Cluster-Prinzip

Ein Cluster ist ein Zusammenschluss einzelner Computer (Nodes), jeweils mit eigenem Prozessor (oder mehreren Prozessoren) und eigenem Speicher (RAM und Harddisk). Diese Computer werden durch ein gemeinsames Netzwerk verbunden. Der Begriff «Beowulf» umschreibt einen Cluster aus Standardhardwarekomponenten und Open Source Software. High Performance Computing (HPC) Cluster verbinden hunderte oder tausende von Nodes mit einem Hochgeschwindigkeitsnetzwerk wie z.B. InfiniBand. Dabei läuft auf allen beteiligten Systemen dieselbe Betriebssystemumgebung und Software. Ein Benutzer meldet sich interaktiv an einem Loginknoten an, erstellt dort Programme und Eingabedaten für seine Berechnungen und schickt beides danach an ein Batchsystem, welches die gesamten verfügbaren Ressourcen möglichst gerecht unter allen beteiligten Benutzern verteilt und koordiniert. Für den Endbenutzer ist dieses Batchsystem völlig transparent und für ihn spielt es keine Rolle, wo seine Berechnungen laufen. Der gesamte Cluster erscheint für ihn als ein einheitliches Gesamtsystem.

Um von einem Cluster profitieren zu können, sollte die gestellte Aufgabe idealerweise parallelisierbar sein. Dabei wird vor allem unterschieden zwischen Anwendungen, die nur einen einzelnen Core benutzen und unabhängig voneinander laufen können, sowie Anwendungen, die mehrere Cores einer einzelnen Maschine benutzen (zwischen zwei und derzeit 48 Cores). All diese Programme können noch auf einer einzelnen Node rechnen. Schliesslich gibt es noch Applikationen, welche gleichzeitig sehr viel mehr Cores nutzen wollen und zur Synchronisation miteinander kommunizieren müssen. Dies wird ermöglicht durch Standardkommunikationsbibliotheken wie dem Message Passing Interface (MPI).

Wettervorhersagen für das Jahr 2050

Die Anwendungsgebiete für Supercomputing in der Forschung sind uferlos. An der ETH hat beispielsweise Ryan Woodward vom „Chair of Enterpreneurial Risk“ mit Hilfe von Brutus das Platzen der Finanzblase vorausberechnet.

Und zentral ist Brutus etwa auch für Reto Knutti, Professor am „Institute for Atmospheric and Climate Science (IACETH). Er benötigt Brutus, um die Veränderungen des Klimas für die nächsten Jahrzehnte vorhersagen zu können. Vom Supercomputer berechnete Klimamodelle liefern Informationen über Veränderungen des Wasserkreislaufes, extreme Wetterereignisse, den Anstieg des Meeresspiegels und das Abschmelzen der Eismassen. Solche Klimamodelle gehören zu den komplexesten Computersimulationen und beanspruchen trotz der ernormen Rechenkapaztiät, die dank Brutus zur Verfügung steht, immer noch mehrere Tage an Rechenzeit. Trotz aller Fortschritte werde man kaum je genügend Rechenkapazizät zur Verfügung haben, ist Professor Knutti überzeugt.

Was Knutti an Brutus besonders schätzt, ist dessen Zuverlässigkeit. Er sei zwar nicht so schnell, wie der Suptercomputer „Monte Rosa“ des CSCS in Lugano (Centro Svizzero di Calcolo Scientifico), aber eben konstant stabil. Während er Monte Rosa mit einem Formel-1-Boliden vergleicht, sieht er in Brutus eher ein Arbeitstier, das konstant seine Leistung bringt. Mit seinen 120 Teraflops würde Brutus aber immerhin cirka Rang 120 in der jüngst veröffentlichten Rangliste der 500 leistungsfähigsten Supercomputer der Welt einnehmen, so HPC-Group-Chef Oliver Byrde. Brutus scheint auf dieser Liste aber gar nicht erst auf, da man ihn dazu für ein dreiwöchiges Benchmarking zur Verfügung hätte stellen müssen. Und dies können sich die ETH-Wissenschaftler beim besten Willen nicht leisten.
(Quellen: Materialien der ETH Zürich)