Bei der Virtualisierung von Storage-Systemen wird ein Großteil aller Fehler bereits in der Beratungs- und Planungsphase begangen. Diese Fehler kommen jedoch erst viel später zum Tragen und verzögern die Implementierung oder Online-Schaltung beziehungsweise den reibungslosen Betrieb der Systeme.
Rainer Bretzel
ist Consultant bei Magirus Deutschland.
Der erste Fehler lässt sich bei der Beratung des Kunden durch genaues Erfragen und Definieren der Anforderungen und Funktionen des zukünftigen Systems vermeiden. Ein typisches Missverständnis zwischen Berater und Endkunde ist beispielsweise die Funktionsweise von Alternate Pathing/Multipathing. Dies wird von Endkunden oft so verstanden, dass der Applikations-Server unterbrechungsfrei von einem Storage-System auf das andere umschalten kann. Dem Kunden ist dabei meist nicht bewusst, dass bei Produkten bestimmter Hersteller eine gewisse Umschaltzeit entsteht, da ein Script oder sogar ein händisches Eingreifen notwendig ist und es hierdurch zu Ausfallzeiten kommt.
Der zweite Fehler, der oft schon während der Beratung und Planung auftritt, ist, dass der Kunde nicht nach seinen benötigten I/O Performance-Werten gefragt wird. Diese sind für die richtige Dimensionierung des Storage-Servers notwendig. Das Sizing der benötigten Komponenten (FC- und Netzwerkkarten bzw. RAM) im Storage-Server wird aus Kostengründen häufig am unteren Limit vorgenommen. Ein Storage-Server sollte jedoch so dimensioniert sein, dass für den Desaster-Fall ein Server die Last abfangen kann.
Fehler Nummer drei ist, dass die Migration der Bestandsdaten auf das virtualisierte Storage-System übergangen oder mit dem Kunden unzureichend besprochen wird. Dies führt zu Verzögerungen bei der Inbetriebnahme.
Ein vierter, häufig vorkommender Fehler: Bei der Beratung des Kunden wird zwar über die Backup und Desaster Recovery Möglichkeiten gesprochen, dann aber vergessen, dies in Einklang mit dem bestehenden Konzept zu bringen.
Fehlende Rücksprache mit den Herstellern oder mangelnde Durchsicht der HCL (Hardware Compatibility List) ist der fünfte häufige Fehler. Dies ist aber unbedingt notwendig, da bestimmte Storage-Systeme einen eigenen Treiber auf dem Storage-Server benötigen, um korrekt angesprochen zu werden. Es gibt aber Storage-Server, auf denen nur ein bestimmter oder einzelner Treiber zur Kommunikation mit dem Storage-System eingesetzt werden darf oder kann. Dies muss man vorweg abklären.
Der sechste Fehler betrifft die Planung des gesamten Projektes. Ein entsprechendes Konzept für das Projekt wird häufig vergessen oder aus Kostengründen erst gar nicht erstellt. In diesem Konzept sollten alle wichtigen Fakten und Funktionen des Storage-Virtualisierungs-Systems beschrieben sein. Des Weiteren müssen alle Kennzahlen der zu migrierenden Daten, ein Netzwerkdiagramm, eine Checkliste mit allen Systemdaten (Versionen- und Firmware-Stände) und ein Zeitplan enthalten sein.
Bei der Installation der Systeme und Komponenten tritt oftmals Fehler Nummer sieben in Erscheinung: Das Zoning der FC-Switch-Umgebung sollte so eingerichtet werden, dass die Application-Server sich nicht gegenseitig behindern können. Aus diesem Grund wäre ein 1:1-Zoning zu favorisieren. Dies ist bei der Einrichtung zwar ein etwas größerer Aufwand, hat aber den Vorteil, dass die Applications-Server sich nicht gegenseitig stören können.
Der achte Fehler, der ebenfalls sehr häufig bei der Implementierung begangen wird, ist das unzureichende Testen, bevor das System online geschaltet wird, und die mangelnde Dokumentation. Diese Dokumentation muss so umfangreich gestaltet und auch aktuell gehalten werden, dass eine einwandfreie Rekonstruktion der Systeme im Falle einer Störung möglich ist.
Auch bei der Wartung der Systeme werden oft Fehler gemacht: Überwachung und Wartung der Systeme werden meistens nicht so betrieben, wie es notwendig wäre. Solche Systeme haben eine unternehmenskritische Funktion und bedürfen somit einer konstanten Überwachung und Pflege. Hierzu gehört auch ein regelmäßiger Test der Desaster-Strategie und der Funktion. Dieser Test wird - Fehler Nummer neun - sehr oft aus Zeitgründen, da die Systeme eine HA-Funktion (highly available) haben, nicht regelmäßig durchgeführt.
Last but not least ist die unzureichende Schulung der Administratoren ein Fehler, auf den viele Probleme in diesem Umfeld zurückzuführen sind.