RAID: Welche Kriterien der Hochverfügbarkeit sind zu erfüllen?

Spiegelung / Storage Cluster

Ein regelmäßiges Backup schützt zwar vor dem Verlust wichtiger Daten und erlaubt es, auch auf ältere Datenstände zurückzugreifen, wenn man beispielsweise versehentlich etwas gelöscht hat oder eine Änderung rückgängig machen will. Doch als Sicherung gegen einen Totalausfall eines Systems ist es nur begrenzt von Nutzen. Denn erstens kostet das Rückspielen eines Backups sehr viel wertvolle Zeit (oft muss zusätzlich zu einem Vollbackup dann noch eine ganze Reihe inkrementeller Backups aufgespielt werden) und zweitens bildet das Backup immer einen Datenstand in der Vergangenheit ab, im günstigsten Fall den Stand der letzten Nacht.

Auch wenn RAID Systeme in sich hochverfügbar sind durch redundante Festplatten, Netzteile und Lüfter, empfiehlt sich daher oft ein höherer Grad an Verfügbarkeit. Dies lässt sich durch eine Verdoppelung des RAIDs selbst erreichen. Dadurch wird nicht nur der Controller selbst redundant (wie in einem Dual-Controller RAID System), sondern auch Gehäuse und Backplane – das gesamte System. Darüber hinaus lässt sich das System dann auch auf zwei Brandschutzzonen verteilen, man spricht dann von einem „Remote Redundant RAID“.

Mit etwas geringerem finanziellen Aufwand lässt sich eine solche Verdoppelung aber auch erzielen indem man die Volumes zweier RAID Systeme lokal auf den Servern spiegelt. Der Verwaltungsaufwand steigt aber mit der Anzahl der Rechner an.

Eine Alternative ist die Spiegelung mit einem gemeinsamen RAID Head. Dieser ist zwar nicht doppelt ausgelegt, die gespiegelten RAIDs können aber, sollte dieser ausfallen auch direkt an die Rechner angebunden werden.

Replikation

Replikation dagegen sichert die Änderungen eines Systems permanent auf ein zweites System der gleichen Kapazität, so dass im Fehlerfall auf das Replikat zurückgegriffen werden kann. Die Ausfallzeit in diesem Falle beschränkt sich auf das Sichtbarmachen der Laufwerke auf dem Rechner (Mounten). Das Zweitsystem kann dann die Funktion des ersten übernehmen. In Anbetracht der Tatsache, dass ein Totalausfall eines Systems, vor allem eines in sich schon sehr redundanten RAID Systems, eher selten vorkommt, ist das in der Regel eine akzeptable Ausfallzeit.

Replikation kann synchron oder asynchron sein. Im Falle der synchronen Replikation werden alle Daten, die das System bekommt zuerst auch an das zweite System weitergeleitet und erst dann wird der Eingang der Daten gegenüber dem Server bestätigt. Der Vorteil: Bei einem Ausfall des ersten Speichers sind die Daten des Replikats hundertprozentig aktuell. Der Nachteil aber: Der Replikat-Speicher muss genauso schnell sein, wie das Original, denn andernfalls bremst er dessen Performance aus. Das aber ist nur möglich, wenn er baugleich ist und außerdem die Anbindung ebenfalls genügend Bandbreite zur Verfügung stellt.

Ein Fibre Channel RAID beispielsweise, das als Datenbankspeicher dient, muss bei der synchronen Replikation auf ein mindestens gleichwertiges Fibre Channel System repliziert werden, das im gleichen SAN hängt. Das wird in der Regel zu teuer sein.

Bei der asynchronen Replikation dagegen werden die Änderungen vom ersten System sofort bestätigt und dort in einem Puffer gehalten. Nach und nach werden die Änderungen dann auf das Replikat übertragen. Im Fehlerfall muss dann u. U. das Filesystem korrigiert werden und die nicht replizierten Daten sind nicht erhalten, doch wird das in der Regel nur ein kleiner Schaden sein. Die Kosten dagegen halten sich deutlich geringer (ein SATA RAID kann ein FC RAID abbilden) und auch die Bandbreite der Anbindung kann viel geringer sein, was auch eine Replikation an einen entfernten Standort über eine WAN-Strecke problemlos erlaubt.

Snapshots

Snapshots bieten keinen Schutz vor Datenverlust durch Hardwareausfall. Da sie nur inkrementell die Datenänderungen nach einem definierten Zeitpunkt festhalten, sind sie nur so lange lesbar, wie auch das Originalvolume lesbar ist. Ihr Einsatzgebiet ist ein anderes.

Zum einen erlauben sie es, Daten eines früheren Zeitpunkts ohne großen Aufwand wiederherzustellen. Dazu muss nur das Snapshotvolume gemounted und die entsprechenden Dateien auf das Original zurückkopiert werden. Andererseits bilden Snapshots eine optimale Basis für ein Backup. Zum gewünschten Backupzeitpunkt wird ein Snapshot gebildet (Zeitaufwand: wenige Millisekunden). Danach kann das Snapshotvolume vom Backupserver gemountet und gesichert werden während auf dem Original weiter gearbeitet wird. Das benötigte Backupfenster geht damit gegen Null.

Ein Snapshot braucht nur soviel Speicherplatz, wie Daten auf dem Originalvolume verändert werden. Ein beispielsweise täglich neu gestarteter Snapshot wird in der Regel nicht mehr als 2-3% der Datenplatzes beanspruchen.

Redundante Pfade

Die beste Redundanz im RAID System selbst nutzt nichts, wenn das System auf Grund eines Kabelfehlers oder eines ausgefallenen Switches nicht mehr erreichbar ist. Daher sollten RAIDs, bei denen maximale Verfühbarkeit gefordet wird in Speichernetzwerken wie Fibre Channel immer über zwei verschiedene Pfade an die Server angebunden werden.

Die RAID Systeme haben in der Regel mindestens zwei Hostports und können von dort an zwei verschiedene Switches angeschlossen werden. Um auf dem Server, der auch mit beiden Switches verbunden ist, dann nicht jedes Volume doppelt zu sehen, wird eine Pathfailover-Software verwendet. Sie ist entweder im Betriebssystem enthalten oder kann zusätzlich beschafft werden. Ihre Aufgabe ist es, die beiden Pfade zusammenzuführen und als ein Device dem Betriebssystem darzustellen. In der Regel wird pro Volume nur einer der Pfade verwendet. Wird die Verbindung unterbrochen schaltet die Software auf dem anderen Pfad um, so dass nach einer kurzen Reaktionszeit das Device wieder zur Verfügung steht.

Bei den RAID Systemen der ES-6200, und der Infortrend DS Serie lässt sich die EONpath Software von Infortrend verwenden, ES-8500 bzw. ES-9500 liefert eine entsprechende Software von LSI mit, die auch für den Lastenausgleich über beide Controller sorgt. In den anderen Fällen (ES-6600 oder ES-8700 FC) kann, wenn keine betriebssystemeigene Pathfailover Software zur Verfügung steht, ein separates Produkt der Firma Rose angeboten werden.