Egal, ob Heimnetz oder Corporate Network, bei der Fehlersuche sollten Sie auf der untersten Schicht des OSI-Layers, also im Zweifelsfall mit der Netzebene 1 beginnen und sich dann nach oben arbeiten. Auf den höheren und komplexeren Schichten gibt es zwar viel mehr Fehlerquellen. Eine Fehlersuche auf Layer 7 bringt aber nichts, wenn ein Kabel einen Ermüdungsbruch hat. Sie haben die doppelte Arbeit, weil Sie mit der Fehlersuche auf der falschen OSI-Ebene auch noch die Netzeinstellungen zerschossen haben.
Tückische Ethernet-Kabel
Der erste Blick sollte den verwendeten Kabelverbindungen gelten. Der einfache Kabelaustausch ist im Heim- oder Testnetz meist noch problemlos möglich, im Enterprise-LAN aber nicht so einfach. Deshalb ist die Anschaffung eines Kabeltesters dringend zu empfehlen. Das Testgerät sollte alle Übertragungsarten (Vollduplex, Gigabit Ethernet etc.) beherrschen, die später im Alltag eine Rolle spielen.
Veraltete Ethernet-Treiber
Eine weitere Fehlerquelle stellen die Netzwerktreiber für die Interface-Karten dar. Die seltsamsten Netzfehler verschwinden häufig nach einem Upgrade der Ethernet-Treiber. Wer auf den Seiten des Motherboard- oder Netzwerkkarten-Herstellers keine neueren Treiber findet, sollte die Flinte nicht gleich ins Korn werfen. Die Chipsatz-Hersteller der Netz-Interfaces offerieren meist aktuelle generische Treiberversionen. Bei Windows-Systemen finden Sie den Chipsatzhersteller in der Regel im "Gerätemanager" unter "Netzwerkadapter".
Inkompatible Jumbo-Frames
Eine weitere, oft übersehene Performance-Bremse sind die so genannten Jumbo-Frames, also überlange Ethernet-Pakete. In Gigabit-Ethernet-Umgebungen sollen sie - zumindest in der Theorie - die Performance bei der Übertragung großer Dateien oder Multimedia-Files deutlich steigern. In der Praxis findet sich allerdings oft das Gegenteil, nämlich deutliche Leistungseinbußen. Die eigentlich clevere Idee der Jumbo-Frames hat nämlich einen Haken: Alle Devices im Netz müssen diese Transferart unterstützen. Erschwerend kommt hinzu, dass dieses Verfahren nicht standardisiert ist, womit in heterogenen Umgebungen Probleme fast programmiert sind. Unser Ratschlag lautet deshalb: Deaktivieren Sie die Jumbo-Frames bis Sie die reibungslose Netzkommunikation in allen Betriebszuständen garantieren können. Danach können Sie mit diesem Performance-Booster experimentieren.
DAU in Aktion
Mit welchen Nutzerfehlern Sie rechnen müssen, zeigt ein Beispiel aus dem Forum unserer Schwesterpublikation Computerwoche. Dort schildert ein Leser, wie er wegen des Problems "Internet geht nicht mehr" zum Kunden gerufen wurde. Vor Ort war der Fehler schnell behoben: Der Switch des Kunden war ausgeschaltet, denn dieser hatte die Steckdose, über die das Gerät mit Strom versorgt wurde, für sein Handy-Ladegerät benötigt.
Ungenügendes Netzdesign
Die konsequenteste Fehlervermeidung beginnt allerdings bereits im Vorfeld beim Netzdesign: Komplexe Netze mit VoIP und anderen Echtzeit-Anforderungen lassen sich nicht einfach mit Halbwissen aufbauen. Hier ist eine konsequente Bedarfsanalyse gefordert, die sich dann im Design niederschlagen muss. Und dieses ist bei der Umsetzung akribisch zu dokumentieren, denn gerade vergessene Komponenten oder Altlasten sorgen häufig für unerklärliche Phänomene.
Schleifen im Netz
Gewachsene Netze, die je nach Bedarf von Zeit zu Zeit erweitert wurden, bergen besonders viel Fehlerpotenzial. Wenn die nachträgliche Installation von Kabeln oder Netzwerkkomponenten nicht akribisch dokumentiert wurde, kann es zu den krudesten Problemen kommen.
So können etwa Schleifen (Loops) im Netz entstehen, die dann ein Switched Network, das eigentlich auf dedizierten Verbindungen basiert, ausbremsen. Denn ein solcher Loop verursacht einen Broadcast-Sturm, der ein ganzes Netzsegment lahm legen kann.
Um das Problem zu vermeiden, hat der Netzbetreuer zwei Optionen: Das Aktivieren des Spanning Tree Protcols (STP), das aber oft von Unmanaged Switches nicht unterstützt wird, oder die Verwendung einer Loopback Detection (LBD), wie sie von verschiedenen Herstellern unter diversen Bezeichnungen offeriert wird.
Hotline-Supporter Schmitt bevorzugt das LBD-Verfahren, denn der Spanning Tree wartet noch mit einigen Tücken auf - doch dazu später mehr. Bei der Loopback Detection ist dann zwischen Port- und VLAN-basierenden Verfahren zu unterscheiden. Während ersteres den Port komplett abschaltet, blockiert letzteres den Verkehr nur im VLAN, ohne den ganzen Port zu sperren.
Fehlende Segmentierung
Die VLAN-basierende Loopback Detection ist einer der Gründe, die für eine Segmentierung in VLANs sprechen. VLANs erhöhen nicht nur die Sicherheit, sondern begrenzen auch Störungen auf ein Netzsegment. So bleiben beispielsweise Broadcast-Stürme auf ein virtuelles LAN-Segement begrenzt und ziehen nicht die gesamte Infrastruktur in Mitleidenschaft.
Allerdings bergen die VLANs in Kombination mit dem Spanning Tree Protocol (STP) auch eine Gefahr. Es kommt durchaus vor, dass das STP ein VLAN deaktiviert, wenn es um Redundanzen zu vermeiden eine physikalische Netzverbindung abschaltet.
Auf den ersten Blick erscheint dieses Phänomen unverständlich, doch die Erklärung fällt leicht, wenn man sich das theoretische Konzept hinter STP verdeutlicht. Ursprünglich wurde Spanning Tree entwickelt, um in geswitchten Umgebungen zwei sich widersprechende Anforderungen zu realisieren: Zum einen die Vermeidung mehrfacher Netzpfade zum Ziel, um eine Verdoppelung der Datenpakete zu verhindern; zum anderen die gleichzeitige Redundanz der Netzpfade; um beim Ausfall einer Strecke eine alternative Verbindung zu haben.
Genau diese Steuerung übernimmt STP beziehungsweise das Rapid Spanning Tree Protocol (RSTP) als neuere Variante. Hierzu kommunizieren die Switches über das Bridge-Protokoll miteinander.
Zuerst wird eine sogenannte Root Bridge bestimmt, die das Oberkommando übernimmt und Startpunkt des Verbindungsbaumes (Tree) ist. Root wird normalerweise die Bridge mit der niedrigsten ID, die sich aus Priorität und MAC-Adresse ergibt. Existieren redundante Wege, so nehmen die Switches den Port mit den geringsten Pfadkosten zur Root Bridge und deaktivieren die anderen Ports, darunter eventuell auch ein VLAN.
Zudem weist das Konzept, sieht man einmal von Umschaltzeiten von bis zu 30 Sekunden ab (RSTP etwa eine Sekunde), im Fall einer Störung noch zwei andere gravierende Nachteile auf: Kommt etwa ein neuer Switch in das Netz, dann kann dieser eventuell aufgrund seiner ID die Aufgabe der Root Bridge automatisch übernehmen und die ursprünglichen Verbindungszuordnungen stimmen nicht mehr, was zu Performance-Problemen führen kann.
Ebenso kann es passieren, dass bei einem Ausfall ein Switch die Root-Bridge-Funktion übernimmt, der so ungünstig positioniert ist, dass das Netz zusammenbricht. Eine weitere Gefahr stellen in gewachsenen Netzen neue, ergänzende Kabel dar, die womöglich die Struktur des Spanning Trees zerstören, da sich keine eindeutigen Pfadkosten berechnen lassen.
Angesichts dieser Fallstricke sollte der Kunde den Spanning Tree keinesfalls sich selbst überlassen, sondern etwa für einen Ausfall eine Ersatz-Root-Bridge selbst festlegen. Wer mit VLANs arbeitet, sollte zudem überlegen, ob er nicht mit dem Multiple Spanning Tree Protocol (MSTP) arbeitet.
Dieses wird den Anforderungen der VLANs besser gerecht, da es in einem LAN mehrere Instanzen des Spanning Tree erlaubt. Anwendern, die mit Hilfe des STP einen Ring zur Erhöhung der Ausfallsicherheit nachbilden wollen, empfiehlt Schmitt statt STP beziehungsweise RSTP herstellerspezifische Verfahren - bei D-Link etwa das Rapid Ethernet Ring Protection (RERP) - zu verwenden, da diese teilweise Umschaltzeiten von 200 Millisekunden bieten und die spezifischen STP-Nachteile nicht auftreten.
Ungenutztes Trunking-Potenzial
Kommt es zu Engpässen im Backbone oder bei Serveranbindungen, stellt sich häufig die Frage nach einem Upgrade auf 10 Gigabit Ethernet.
Doch dies ist teuer, so dass viele Unternehmen die Investition scheuen und die entsprechenden Verbindungen am Anschlag fahren. Dabei gibt es eine Alternative: Mit Hilfe des Trunking, also dem parallelen Benutzen von 1 Gigabit/s-Verbindungen, kann die Bandbreite auf diesen Strecken erhöht werden.
Üblich sind heute Trunks mit bis zu acht parallelen Verbindungen, was einer Bandbreite von 8 Gigabit/s entspricht. Beim Trunking wird allerdings gerne Potenzial verschenkt: Das Trunking kann aber nicht nur zur Performance-Steigerung, sondern auch zur Erhöhung der Redundanz genutzt werden.
Das Stichwort lautet hier Cross Trunking. Hierbei werden die Ethernet-Kabel etwa zwischen zwei Stacks (Zusammenschluss mehrerer Switches zu einem logischen Switch) nicht parallel sondern über Kreuz zwischen den einzelnen Geräten geschaltet, um so bei einem Ausfall möglichst geringe Beeinträchtigungen zu haben.
Performance-Falle Priorisierung
Allerdings lässt sich nicht jedes Problem einfach mit mehr Bandbreite lösen. Gerade bei Echtzeitanwendungen wie VoIP oder Video sind zudem Parameter wie Delay, Jitter oder Paket Loss von Bedeutung. Bandbreite ist eben kein Ersatz für Priorisierung.
Bei der Priorisierung ist allerdings darauf zu achten, dass diese im gesamten Netz Ende zu Ende genutzt wird. Wird etwa nur vom VoIP-Telefon in der lokalen Arbeitsgruppe bis hin zum ersten Swicth eine Priorisierung gefahren, dann sollte sich niemand wundern, wenn es später dennoch zu Ausfällen kommt. Ebenso wichtig ist, dass alle beteiligten Geräte die Priorisierungsmechanismen auch wirklich unterstützen.
Device-Missbrauch
Der Missbrauch von Endgeräten für Einsatzzwecke, für die sie eigentlich nicht konzipiert wurden, kann erhebliche Folgen für Stabilität und Performance haben. Gerade die langen Feature-Listen aktueller Hardware verleiten oft dazu, zu viele beziehungsweise falsche Aufgaben auf einem Gerät erledigen zu wollen.
Ein klassisches Beispiel hierfür ist ein WLAN-Access-Point. Die eigentliche Aufgabe des Geräts ist ein reibungsloser Transport der Daten per Funk. Deshalb sollte ein Access Point als Access Point und ein Edge Device wirklich als Edge Device genutzt werden.
Wer die Geräte mit ungeeigneten Aufgaben belastet, muss sich nicht wundern, wenn die Performance leidet. So gehört etwa das Routing in den Core- und nicht in den Edge-Bereich.
TCP/IP-Probleme
Etliche unerklärliche Netzphänomene haben ihre Ursache allerdings auch auf den oberen Netzebenen: Doppelt vergebene IP-Adressen können zu den wildesten Fehlern führen. Eine Ursache hierfür sind häufig nicht erlaubte DHCP-Server im Netz, die eigenmächtig Adressen vergeben.
Ob diese Server nun aus Versehen entstehen, weil ein neues Gerät per se mit aktiviertem DHCP-Server ausgeliefert wird, oder bewusst von einem User installiert werden, sei dahingestellt. Hier hilft ein DHCP Server Screening, das DHCP-Pakete erkennt und im Bedarfsfall automatisch den entsprechenden Netz-Port abschaltet.
Ebenfalls oft zu beobachten ist, dass Anwender ihren Rechnern selbst IP-Adressen geben, ohne zu wissen, dass sie damit komplette Netzsegmente lahm legen können.
Um dies zu verhindern, empfehlen sich Switches, die das Anlegen von White Lists erlauben, in denen eine IP-Adresse fest einer MAC-Adresse und einem Switch-Port zugeordnet ist. Kommt nun ein Datenpaket mit der falschen Zuordnung - bei D-Link nennt man diese Technik beispielsweise IP-MAC-Port-Binding (IMPB), dann blockiert der Switch den Weitertransport.
Vorbeugen statt heilen
Wer den Aufbau seines Netzes penibel genau dokumentiert, erleichtert die Fehlersuche und hilft bei Erweiterungen, Störungen zu vermeiden, da eventuelle Wechselwirkungen teilweise bereits beim Blick in die Dokumentation ersichtlich sind.
Last, but not least, sollte sich jeder Kunde fragen, was ihn ein Netzausfall wirklich kostet. So wird ein Unternehmen in die Ausfallsicherheit eines LANs im Börsensaal - dessen Ausfall den Ruin bedeuten kann - sicherlich mehr investieren als in das LAN der Verwaltung, wo die Auswirkungen nicht so gravierend sind. Computerwoche/(bw)