Ausfallsichere System im Überblick
Wichtig ist natürlich neben der Sicherung der Daten auch die Methode zur Bereitstellung der gesicherten Daten auf einem funktionierenden System. Dafür bieten sich mehrere Alternativen an:
• Cold-Stand-by-Systeme: Die benötigten Anwendungen und die gesicherten Datenbestände werden auf ein Reservesystem übertragen - eine Lösung, die allerdings zahlreiche Schwachpunkte aufweist: Es ist viel Administrationstätigkeit erforderlich, und es dauert meist auch einige Zeit, ehe der Betrieb fortgesetzt werden kann. Außerdem passen erfahrungsgemäß die Firmware-Release-Stände nicht zur aktuell benötigten Betriebssystemversion, und notwendige Anwendungs-Patches sind nicht nachgepflegt. Diese Lösungsvariante reicht in einer modernen, auf kontinuierliche Verfügbarkeit ausgerichteten IT-Landschaft nicht einmal mehr für unkritische Anwendungen.
• Hot-Stand-by-System: Hier wird das Ersatzsystem ständig auf dem gleichen Release- und Firmware-Stand gehalten wie das primäre Produktionssystem. Tools helfen im Desaster-Fall, das Umschalten zumindest teilweise zu automatisieren. Dennoch muss man mit mehr oder weniger langen Ausfallspausen rechnen, sodass diese Lösung nur für unkritische Anwendungen infrage kommt.
• Cluster und Virtualisierung: Eine Weiterentwicklung des Hot-Stand-by-Konzepts stellt der High Availability Cluster (HA-Cluster) dar. Hier ist die Überwachung des primären Produktionssystems in der Cluster-Management-Software untergebracht. Fällt die primäre Seite aus, findet ein Wechsel auf das sekundäre System statt. Allerdings werden dabei laufende Transaktionen unterbrochen, sie müssen im sekundären System bereinigt und dann neu aufgesetzt werden. Der aktuelle Hauptspeicherinhalt des primären Systems geht so komplett verloren. Ein sicherer Betrieb eines Cluster-Systems lässt sich durch ein sehr gut ausgebildetes und diszipliniertes Bedienpersonal verbessern.
• Hybrid-Lösung zwischen Hot-Stand-by und Cluster: Mit der zunehmenden Verbreitung von Virtualisierungslösungen stehen auch neue Verfahren zur Erhöhung der Verfügbarkeit zur Verfügung. Da ein virtueller Computer nichts anderes ist als eine Ansammlung von Dateien in einem Speichersystem, kann diese virtuelle Maschine mit geeigneten Datensicherungsmethoden (mindestens asynchron) auf einem zweiten Standort gesichert werden. Fällt der primäre physische Rechner aus, werden durch die entsprechenden Management- und Überwachungs-Tools virtuelle Maschinen auf einem sekundären physischen Rechner neu gestartet. Allerdings kommt das System im sogenannten Crash-Status hoch, es muss also eine Bereinigung des Systemzustandes erfolgen, zum Beispiel die Überprüfung des Dateisystems oder auch ein komplettes Rollback der Datenbank - also alle Vorgänge, die nach dem Absturz eines Rechners und Wiederanschalten typischerweise ausgeführt werden. Das kann unter Umständen natürlich einige Zeit dauern.
• Fehlertolerante Systeme: Die bisher betrachteten Methoden gehen von einem Störfall aus und wollen ihn überwinden, um den Betrieb möglichst schnell wieder aufzunehmen. Es gibt jedoch Anwendungen, die eine kontinuierliche Verfügbarkeit benötigen, beim Ausfall einer einzelnen Komponente also eine Wiederherstellungszeit von tatsächlich Null Sekunden erfordern, eine Betriebsunterbrechung also gar nicht erst zulassen. Das kann auch ein HA-Cluster nicht leisten; hier ist der Einsatz fehlertoleranter Systeme erforderlich. Sie gehen nicht mit den aufgetretenen Fehlern um, sondern sind so konstruiert, dass sie das Entstehen von Fehlern gleich ganz unterbinden. Dazu sind bei fehlertoleranten Systemen sämtliche Komponenten doppelt ausgelegt, und diese werden permanent synchronisiert. Fällt eine Komponente aus, so läuft die jeweilige Partnerkomponente einfach weiter. Mit dem Anspruch der Fehlertoleranz ist auch verbunden, dass Betriebssystem und Treiber rigorosen Kompatibilitäts- und Stabilitätstests unterzogen werden, um hier ebenfalls eine maximale Verfügbarkeit zu garantieren.