Service-Qualität in der Cloud

Lernende Algorithmen im Rechenzentrum

07.11.2019 von Henrik Hasenkamp
Anwendungen wie Predictive Maintenance basieren auf Big Date in Verbindung mit lernenden Systemen. Hier lesen Sie, wie ein solches System lernen kann und welche Einsatzmöglichkeiten es gibt.

Die aktuellen Entwicklungen in den Bereichen Industrie 4.0 und Internet of Things (IoT) nutzen Daten, um Produktionsabläufe zu optimieren. Besonders interessant sind beispielsweise die Möglichkeiten, die Datenerfassung und -analyse für die Umsetzung von Predictive Maintenance bringen.

Auch künstliche Intelligenz muss auf vorhandene Informationen zugreifen können, um zu lernen.
Foto: Vasilyev Alexandr - shutterstock.com

Predictive Maintenance für Cloud-Infrastrukturen

Wie lässt sich dieses Konzept auf IT-Infrastrukturen in lokalen Rechenzentren oder Cloud-Umgebungen übertragen? Besonders letztere wollen Flexibilität, Agilität und Hochverfügbarkeit bieten. Die Idee dahinter ist im Prinzip einfach: Jedes außergewöhnliche Ereignis – im Tenor der Maintenance sind hiermit Geräteausfälle, Überbelastungen oder externe Einwirkungen wie etwa Hacker-Angriffe gemeint – erzeugt charakteristische Daten. Zum Beispiel gehen einem Ransomware-Angriff ungewöhnliche Aktivitäten im Netzwerk voraus. Werden verschiedene Telemetrie-Daten der Hardware und der Umgebung in den richtigen Zusammenhang gebracht, sind solche Ereignisse vorhersagbar. Wenn kritische Ereignisse schon vor dem Eintreten erkannt und entsprechende Maßnahmen eingeleitet werden, kann der Impact auf den Betrieb minimiert werden.

Normal oder nicht?

Die Daten sind vorhanden: So bringen die meisten Hardware Devices bereits Sensoren mit, mit denen sich zahlreiche Zustands- und Funktionsdaten erfassen lassen. Solche Telemetrie-Daten sind etwa die Temperatur des Devices und der Umgebung, Latenzzeiten, Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches. Ihre Erfassung ist das kleinere Problem. Vielmehr ist die Interpretation der Daten die Herausforderung. Nur weil die I/O-Rate sich kurzzeitig deutlich erhöht, muss dies noch lange kein Hacker-Angriff sein. Vielleicht verursacht ein regulärer Applikationstest völlig zurecht diese Zusatzlast. Und nur weil die Temperatur der Devices ansteigt, steht nicht zwingend deren Ausfall bevor. Möglicherweise arbeitet nur die Klimaanlage im Serverraum nicht richtig.

Lesetipp: Im Kopf des Bösen - So denken und handeln Hacker

Das bedeutet, das System muss zunächst lernen, was „normal“ im Sinne des Betriebes ist und was nicht. Denn diese Anomalien einfach vorab zu definieren, ergibt in der Praxis wenig Sinn – zu vielfältig sind die Möglichkeiten und Abhängigkeiten.

Damit der Algorithmus lernen kann, müssen Features gesetzt werden. Das sind die Attribute, die in irgendeiner Weise Einfluss auf den Betrieb der Infrastruktur haben und auf die das Augenmerk gelegt werden soll. In der Realität führt dies zu einer schwierig zu überblickenden Komplexität. Im normalen IT-Betrieb gibt es zumeist Spezialisten für einzelne Softwaresysteme oder IT-Komponenten. Nun ist jedoch eine Definition gefragt, die den Normalbetrieb der ganzen IT-Landschaft beschreibt, die von allen integrierten Systemen – von Mail-Tools bis hin zu Produktionssteuerungs-Anwendungen – beeinflusst wird.

Ein Beispiel: Das System erfasst die zur Verfügung stehenden Metriken, wie etwa Netzwerkauslastung und Latenzzeiten. Weil das ERP-System nur zu bestimmten Zeiten Daten an das Produktionssystem übergibt, ist das zu übertragende Datenvolumen den ganzen Tag über eher gering und steigt am späten Abend plötzlich sprunghaft an. In diesem Fall ist dieser Anstieg ein normales Verhalten, was dem System als positives Ereignis markiert wird. Dazu wird idealerweise ein Wertekorridor definiert, der nicht überschritten werden darf. Das heißt: Der Anstieg des Traffics ist zwar normal, darf aber nicht zur Überlastung führen.
Das System speichert nun nicht nur den Wert der Datenübertragungsmenge als Ereignis ab, sondern auch alle anderen in diesem Moment gemessenen Metriken. Der Algorithmus lernt, welche Daten in welchem Zusammenhang etwas auslösen, das für den Betreiber von Bedeutung ist. Je mehr Features gesetzt und je mehr Ereignisse die Basis für die Dateninterpretation bilden, umso treffsicher sind die Vorhersagen des Algorithmus.

Lesetipp: Wer haftet, wenn die Maschine lernt?

IT-Maintenance als mehrstufiges System

In der Praxis ist ein mehrstufiges hierarchisches Modell sinnvoll, das im Notfall warnt, aber eben auch datenbasiert vorausschaut. Die oberste Stufe eines solchen Systems deckt extreme Situationen ab, etwa wie bei einem herkömmlichen Monitoring. Sticht ein Wert aus den erfassten Daten so heraus, dass sofort eingegriffen werden muss? Wenn beispielsweise der Datenstrom von oder zu einer Datenbank abgebrochen ist, gibt es genügend Gründe zu der Annahme, dass hier ein Problem vorliegt. Gegenmaßnahmen sollten sofort und möglichst automatisiert angestoßen werden.

Kern eines intelligenten Systems ist Hierarchiestufe 2. Auf der Basis der zuvor definierten Features und Werte-Korridore sowie der gelernten Zusammenhänge zwischen den Daten entwickelt sich ein System, welches vorausschauend arbeitet. Devices werden gewartet oder getauscht, kurz bevor sie kaputt gehen, in einem Zeitfenster, welches perfekt in den laufenden Betrieb eingetaktet ist. In diesem Ansatz der Predictive Maintenance steckt viel Optimierungspotential, eben genau weil die Abhängigkeiten untereinander und die gegenseitigen Beeinflussungen berücksichtigt werden.

Lesetipp: Predictive Maintenance in der Verpackungsindustrie

Im Praxis-Einsatz beginnt sich darüber hinaus eine Stufe 3 zu entwickeln. Aufsetzend auf dem optimierten Betrieb der Cloud-Infrastruktur sind Cloud-Anbieter nun in der Lage proaktive Services aufzusetzen. So könnten zusätzlich benötigte Ressourcen beispielsweise genau dann automatisch skaliert werden, wenn sie benötigt werden und nicht erst dann, wenn ein Engpass bereits entstanden ist. Der Algorithmus kann dann berechnen, welche Umlagerung für welchen Workload in Frage kommt – unter Berücksichtigung von Risiken und Aufwand. Oder aber der Dienstleister kann hinsichtlich der Infrastruktur-Dimensionen beraten, wenn anhand der Telemetrie-Daten deutlich wird, dass Datenbank und Speicher dauerhaft an ihrer Leistungsgrenze arbeiten.

Künstliche Intelligenz mag noch in den Kinderschuhen stecken. Doch schon jetzt eröffnen die Analyse und Interpretation von Daten neue Möglichkeiten, die, wenn sie mit einem lernenden Algorithmus überdacht werden, weit über das herkömmliche Monitoring hinaus gehen. Doch erst wenn solche Systeme in der Lage sind, weitgehend automatisiert Entscheidungen zu treffen, können sie sinnvoll zum Einsatz kommen und die Servicequalität in der Cloud erhöhen.

Zum Video: Lernende Algorithmen im Rechenzentrum