Für die schnelle Reaktion auf Schwierigkeiten mit der Performanz der Infrastruktur brauchen IT-Teams die richtigen Tools, mit denen sie diese Leistungsprobleme überbrücken können. Viele der eher Cloud-nativen Ansätze sind für Site Reliability Engineers (SREs) allerdings zu undurchsichtig. Gefragt sind mehr Einblicke, die als Grundlage dienen, um Prioritäten richtig setzen sowie ein Problem schnell identifizieren und beheben zu können.
Hier kann AIOps Engineers helfen und IT-Experten die nötige zusätzliche Sicherheit und Transparenz geben. AIOps ist in der Lage, ihnen mithilfe von KI und maschinellen Lernen aufzuzeigen, wo es Anomalien gibt und deren Ursache zu identifizieren. Probleme werden so bereits in einer sehr frühen Phase aufgedeckt und können entsprechend behoben werden - noch bevor sie zu schwerwiegenden Beeinträchtigungen führen. Das wird vor allem auch deswegen immer wichtiger, weil der zu verwaltende Software- und Infrastrukturbestand immer schneller anwächst.
AIOps spielt besonders dort seine Stärke aus, wo, grosse, schnell wachsende Mengen an Leistungsdaten – egal, ob Observability- und Engagement-Daten oder Daten von Drittanbieter-Tools – im Spiel sind. Um die Teams bei der Identifizierung und Diagnose eines Problems zu unterstützen, werden Algorithmen und Tools für maschinelles Lernen auf die Daten angewandt. Dadurch werden die Prozesse besser nachvollziehbar und die Verwaltung von Zwischenfällen lässt sich effektiv automatisieren.
Es gibt mindestens fünf Möglichkeiten, wie AIOps in der Praxis eingesetzt werden kann:
1. Zwischenfälle erkennen
KI und maschinelles Lernen beginnen, Anomalien zu verstehen und wenden dieses Wissen darauf an, Systeme und Infrastrukturen zu monitoren. Dieser proaktive Ansatz ermöglicht es, frühe Warnzeichen herauszufiltern und zu prozessieren. Teams werden schneller auf ein Problem aufmerksam, noch bevor ein Kunde etwas merkt.
2. Reduzierendes Alert-Rauschens
Die stete Flut von Alarmmeldungen ist eine riesige Herausforderung für alle IT-Teams. Sie führt zu Abstumpfungseffekten, was bei kritischen Alerts fatal sein kann. Im Idealfall werden Alarmbenachrichtigungen mit niedriger Priorität unterdrückt, und solche, die miteinander in Verbindung stehen, gruppiert. AIOps korreliert, unterdrückt und priorisiert Vorfälle, sodass sich Teams besser auf die Probleme konzentrieren können, die die Zuverlässigkeit des Systems am meisten gefährden.
3. Der richtige Kontext als Basis
Zwischenfälle führen schnell dazu, dass Teams in einen stressigen Krisenmodus zu versetzen. AIOps ist so angelegt, dass in derartigen Fällen das gesamte Geschehen automatisch abgebildet wird und so ein ganzheitliches Bild für einen Vorfall liefert. Nur so kann eine Störung nicht nur verstanden, sondern als Reaktion darauf auch schnell behoben werden.
4. Aus der Vergangenheit lernen
AIOps ist ein stets wachsendes und sich durch maschinelles Lernen verbesserndes Tool. Erfahrungen aus der Vergangenheit, die aktuelle Nutzung und das Feedback von Anwendern liefern die Daten dafür, dass ähnliche Probleme kein zweites Mal auftreten. AIOps ist grundsätzlich darauf ausgerichtet, Korrelationen zu erkennen und passende Empfehlungen zur Problembehebung und -vermeidung zu liefern.
5. Integrierte Daten helfen dem Team
Daten zu Zwischenfällen aus beliebigen Quellen können in die aktuellen Tools und Workflows zum Ereignismanagement integriert werden. Eine AIOps-Lösung nimmt diese Daten auf, reichert sie mit Kontext an und sendet Benachrichtigungen an die entsprechenden Teams oder Responder in den Incident Management Tools, die die Teams bereits verwenden. New Relics Observability-Plattform bietet beispielsweise eine Zweiwege-Integration mit PagerDuty und anderen gängigen Lösungen für das Incident Management an. Je mehr Daten eingehen, desto bessere Handlungsempfehlungen kann AIOps liefern. Auf diese Weise verschwenden die Teams keine wertvolle Zeit mit dem Wechsel zwischen den einzelnen Tools.
AIOps sorgt für den nötigen Durchblick
AIOps darf auf keinen Fall als Beitrag zur Steigerung der Komplexität von Infrastruktur verstanden werden. Im Gegenteil, es ist wichtig zu verdeutlichen, dass es nicht als Black Box agiert. Die Unterstützung durch KI und maschinelles Lernen stellt immer nur eine Handlungsempfehlung und die Basis für eine fundierte Entscheidung dar. AIOps sorgt somit für die grösstmögliche Transparenz im Stack und zeigt Optimierungspotenziale auf – und das bei weiterhin möglichem manuellem Feedback, das auch ein so gut kalibriertes System wie AIOps zulassen muss.
Die Implementierung von AIOps und der proaktiven Anomalie Detection bringt trotz allem keinen erhöhten Konfigurationsaufwand mit sich. Denn basierend auf SRE-Kernsignalen lassen sich Anomalien über alle Anwendungen, Services und Log-Daten umgehend ausmachen. Somit wir die Einführung von AIOps vereinfacht und der Nutzen unmittelbar sichtbar.
Über New Relic
New Relic ist die grösste und umfassendste cloudbasierte Instrumentierungsplattform der Branche. Sie wurde entwickelt, um Kunden die Entwicklung einer perfektionierten Software zu ermöglichen. Die weltweit besten Software- und DevOps-Teams verlassen sich auf New Relic, um schneller zu arbeiten, richtige Entscheidungen zu treffen und erstklassige digitale Erfahrungen zu schaffen. Erfahren Sie unter newrelic.de, warum mehr als 50 Prozent der Fortune-100-Unternehmen auf New Relic vertrauen, wenn sie Software weltweit ausführen.