Nexenta Cluster im Deutschen Krebsforschungszentrum

DKFZ

Das Deutsche Krebsforschungszentrum (DKFZ) widmet sich als größte biomedizinische Forschungseinrichtung in Deutschland und Mitglied in der Helmholtz-Gemeinschaft deutscher Forschungszentren laut seiner Satzung ganz der Aufgabe, Krebsforschung zu betreiben.

Seine über 3.000 Mitarbeiter und Mitarbeiterinnen, davon über 1.000 Wissenschaftler, erforschen in mehr als 90 Abteilungen und Arbeitsgruppen wie Krebs entsteht, erfassen Krebsrisikofaktoren und suchen nach Strategien, die verhindern, dass Menschen an Krebs erkranken. Sie entwickeln neue Ansätze, mit denen Tumoren präziser diagnostiziert und Krebspatienten erfolgreicher behandelt werden können.

Die modernen Verfahren, mit denen vollständige Sätze von Genen (Genomen) oder Proteinen (Proteomen) analysiert werden, erzeugen immense, Datenmengen, die von Menschen allein nicht mehr zu bewältigen sind.

Der Auftrag

Die Abteilung Theoretische Bioinformatik des DKFZ entwickelt computergestützte Verfahren zur Interpretation komplexer genomischer Daten sowie Verfahren zur Modellierung und Simulation biologischer Prozesse.
Während in den vergangenen Jahren die meisten bioinformatischen Verfahren der Analyse von Gensequenzen galten, werden sie mittlerweile vorrangig dazu eingesetzt, die Zusammenhänge zwischen der höheren Organisation des Genoms und seinen vielfältigen Funktionen aufzuklären. Ziel ist es, zu einem ganzheitlichen Verständnis komplexer biologischer Vorgänge zu kommen.

Für diese Abteilung wurde ein hochverfügbarer NFS-Server gesucht, der primär zur Speicherung der Heimat-Verzeichnisse der Unix-User dient. Zusätzlich sollte er noch zum sicheren Austausch sensibler Forschungsdaten zwischen den Forschungsgruppen und Kooperationspartnern dienen und die für einen Linux-Cluster benötigte zentral installierte Bioinformatikprogramme und molekularbiologische Referenz-Daten hosten.

Der Nexenta HA-Cluster wurde angeschafft, da er einen unterbrechungsfreien Betrieb bei gleichzeitig vereinfachter Administration ermöglicht und die Sicherheit der Daten durch den Einsatz von NFSv4 und Kerberos gewährleistet.
Über das System greifen bis zu 50 Benutzer auf einen Linux HPC Cluster mit 50 Knoten und 1600 Kernen zu und bearbeiten Aufgabenstellungen aus den Bereichen Next-Generation-Sequencing, Netzwerk-Modellierung und Systembiologie.

Unsere Lösung

Als besonders hochverfügbaren NFS Server mit garantierter Daten-Integrität bietet EUROstor Cluster-Systeme
mit Nexenta Software an. Um die Hardware komplett redundant zu halten, werden die beiden Clusterknoten mit zwei JBODs verbunden in denen sich die Datenplatten befinden. Diese Festplatten werden paarweise im Storage-Pool gespiegelt, so dass sogar der Ausfall eines kompleten JBODs nicht zur Unterbrechung der Datenverfügbarkeit führen würde.

Als Filesystem dient ZFS. Dies garantiert einerseits hohe Datenintegrität durch Prüfsummen, die auch sogenannte “Stealth Errors” der Festplatten problemlos erkennt und korrigiert. Außerdem erlaubt das Filesystem die Einrichtung praktisch beliebig vieler Snapshots um ältere Datenstände zu rekonstruieren. Aus diesem Pool werden NFS Volumes für die Clients freigegeben, transparent über virtuelle IP-Adressen. Um hohe Zugriffsgeschwindigkeit zu garantieren werden SAS Festplatten verwendet, sowie zusätzlich RAM-Platten als ZIL Cache und SSDs als L2ARC (beides von STEC) eingesetzt.

ES-2800 Nexenta HA Cluster mit gespiegeltem Storage:

DKFZ Setup

Weiterführende Links