So gehört eine erfolgreiche DataOps-Strategie implementiert
4. Juli 2022Heutzutage haben Unternehmen keine Wahl: Wenn sie nicht zu einem datengestützten Unternehmen werden, riskieren sie früher oder später die Geschäftsaufgabe. Unternehmen, die Daten für sich arbeiten lassen, können Produktivität und Profite maximieren.
Daten sorgen für weniger Spekulationen und eine fundiertere Entscheidungsfindung. Sie helfen dabei, neue Einnahmequellen zu finden und zu ermitteln, wo die meisten Kosten entstehen. Wenn sie richtig genutzt werden, bringen Daten einem Unternehmen einen deutlichen Wettbewerbsvorteil. Aus diesem Grund sollte jedes Unternehmen eine DataOps-Strategie einführen.
„DataOps“ ist ein relativ neuer Begriff, sodass die Definitionen noch uneinheitlich sind. Es geht nicht einfach nur um DevOps für Daten: DevOps befasst sich mit Codeentwicklung, Testen und Betrieb. DataOps kombiniert die Überlegungen von DevOps mit den Daten selbst sowie den Details ihrer Handhabung, etwa der Nutzung durch mehrere Stakeholder oder Compliance-Vorschriften.
Als Framework und Methodik konzentriert sich DataOps darauf, Agilität in die End-to-End-Bereitstellung der Datenpipeline einzubringen. DataOps betrachtet alle Mitarbeiter als Teil des Daten-Ökosystems, die vom Datenbestand abhängig sind. Dieser Datenbestand und der geschaffene Mehrwert müssen daher durch Systeme und Prozesse gestützt werden.
Tatsächlich praktizieren viele IT-Experten DataOps schon seit Jahren, nur ohne sich dessen bewusst zu sein, dass es dafür einen speziellen Begriff gibt. Andere haben vielleicht schon einmal von DataOps gehört, aber nahmen es als etwas Unerreichbares wahr, das zu viele Regelungen, Prozesse und Mühen bedeutete. In Wirklichkeit jedoch schafft DataOps Effizienz und sorgt für ständige Verbesserungen.
Im Allgemeinen verbessert DataOps die Kommunikation zwischen Daten-Stakeholdern. Unternehmen, die keine DataOps-Methoden befolgen (egal wie sie sie nennen), verlieren sich häufig in einer kontinuierlichen Zunahme von Silos und mangelnder Kommunikation. Kurz gesagt: DataOps ist nicht nur eine weitere Aufgabe, um die Datenexperten sich kümmern sollten, sondern ihre Hauptaufgabe – der Grund, aus dem sie überhaupt zur Arbeit gehen.
Wenn es darum geht, eine DataOps-Strategie einzuführen, sollten Technikexperten die folgenden vier Punkte berücksichtigen:
Konzentrieren Sie sich auf Silos aus Personen und Tools
Eine unpopuläre Meinung: Nicht Datensilos sind das Problem, sondern Silos aus Personen und Tools. Wenn die Personen und Tools richtig zusammenarbeiten, dann tun es die Daten automatisch auch. Daten- oder ETL-Fachkräfte bringen Daten zusammen. Dazu kommen Datenspezialisten und Menschen, die sich mit künstlicher Intelligenz (KI) befassen, Daten visualisieren oder an Selbstbedienungsfunktionen arbeiten.
Andere Personen konzentrieren sich auf geschäftliche Aspekte, Datenhygiene und Data Governance oder leiten den Produktionsbetrieb. Alle verfügen über eigene Tools und Prozesse. Für eine erfolgreiche DataOps-Strategie sind die richtigen Personen entscheidend, die sich über ihr Potenzial zum Auflösen von Silos im Klaren sind – ob durch ihr Handeln oder durch ihre Tools.
Führen Sie Tests und Iterationen durch und suchen Sie nach Mustern, die Sie beheben können
Durch Iterationen von Builds und Tests kann man eine Menge lernen. Damit dieser Prozess auch wirklich funktioniert, ist es jedoch nötig, die Ideen aus dem Kopf auch in die Produktion zu bringen, durch Iterationen Verbesserungen zu schaffen und Fehler zu reduzieren.
Damit sollte man am besten schon heute beginnen und dabei bestehende Tools nutzen. Zunächst sollte man automatisierte Tests für die Daten und die Fehler in der Produktion erstellen. Anschließend sollte man mit allen relevanten Stakeholdern zusammenarbeiten, um behebbare Muster zu finden.
Auch ist es wichtig und sinnvoll, in einem Qualitätszirkel in jedem Sprint ein paar systematische Fehler zu beheben. Wenn man das regelmäßig tut, wird die Zahl der Fehler dauerhaft sinken, da sowohl Probleme behoben als auch ihre zugrunde liegenden Ursachen ermittelt werden, und damit die Wahrscheinlichkeit neuer Bugs reduziert wird.
Außerdem kann man zusammenarbeiten, die Produktivität verfolgen und jede Woche Fehlerraten und Bereitstellungsgeschwindigkeiten ermitteln. Diese Prinzipien werden für eine erfolgreiche DataOps-Strategie entscheidend sein.
Testen Sie Ihre Daten, um unnütze Informationen zu vermeiden
Jede Anwendung ist eine datenorientierte Anwendung, da jede Anwendung Daten verarbeitet. Doch häufig testen wir ausgerechnet die unbeständigste Komponente einer Anwendung nicht: die Daten. Wir sollten eine Anwendung – oder andere Bestandteile der Datenschicht – erst dann als getestet betrachten, wenn wir sie mit den gewagtesten Daten getestet haben.
Wenn man in der Datenwissenschaft ungetestete Daten nutzen, trainiert man Modelle und macht Vorhersagen und Empfehlungen auf Grundlage von potenziell fehlerhaften Daten, die vervielfacht wurden. Ungetestete Daten erzeugen unzuverlässige Modelle, die niemals für Geschäftsentscheidungen eingesetzt werden sollten.
Jedes datenwissenschaftliche Projekt, das sich auf ungetestete Daten stützt, riskiert zu scheitern. Wenn man nur stichprobenartige Tests durchführt, könnte man Probleme bekommen – mit schmerzhaften Folgen.
Halten Sie sich an den hippokratischen Eid der Observability
Die meisten Menschen nutzen Tools, die sich auf das Monitoring konzentrieren und Observability zur gesamten Datenpipeline hinzufügen, doch der Erfolg entscheidet sich letztens bei der Performance. Daher sollte man die Performance zum Ziel und Mittelpunkt der Entwicklung machen – by design und by default.
Observability muss man in der gesamten Datenpipeline gewährleisten.
Man sollte jeden Schritt überwachen und optimieren, bevor etwas in die Produktion geht, selbst wenn man bis zur Designphase zurückgehen muss. Außerdem gilt es, alle nicht produktiven Systeme zu betrachten und alle „Verbraucher“ der Unternehmensdaten zu finden. Auch muss man herausfinden, wie gut die abhängigen Anwendungen mit ihnen zusammenarbeiten, bevor sie in die Produktion gehen.
Bei alledem sollte man sich an das halten, was man als „hippokratischen Eid der Observability“ bezeichnen könnte: Observability-Praktiken dürfen keinen Schaden zufügen. Wenn Monitoring und Observability so viel Aufwand erzeugen, dass die Leistung sinkt, hat man eine Linie überschritten.
Fazit
Unternehmen können – und sollten auf Dauer – zu datengestützten Unternehmen werden, die mithilfe von DataOps ihre Daten für sich arbeiten lassen. Wenn man beim Aufbau einer soliden DataOps-Strategie diese zentralen Punkte berücksichtigt, ist man auf dem richtigen Weg.
Douglas McDowell ist Vice President für Database Observability bei SolarWinds.