Blog

Das Datennetz als KI-Ermöglicher

Ein Mann in Hemd und Krawatte, der eine Brille trägt, konzentriert sich auf ein Tablet-Gerät. Im Hintergrund sind digitale Datenvisualisierungen und Netzwerkverbindungen eingeblendet, was auf ein Technologie- oder Datenanalysethema hindeutet.

Für jedes KI-gesteuerte Unternehmen ist es von entscheidender Bedeutung, über eine Grundlage zu verfügen, um aus historischen Analysedaten in großem Umfang Werte zu gewinnen. In den letzten zehn Jahren haben sich Data-Warehousing- und Big-Data-Technologien in rasantem Tempo weiterentwickelt. Dadurch konnten viele Unternehmen erfolgreich neue Paradigmen wie Data Lakes einführen, um immer größere Datenmengen zu speichern und Analysemodelle zu trainieren.

Analytik-Ökosysteme in Unternehmen sind jedoch sehr oft auf ein einziges Team ausgerichtet, das für alle datenbezogenen Aspekte zuständig ist - von der Bereitstellung der Dateninfrastruktur über die Integration von Daten aus verschiedenen Quellen bis hin zur Datenverwaltung. Da das Volumen und die Komplexität der Unternehmensdaten zunehmen, ist diese Struktur nicht skalierbar und wird oft zu einem kritischen Engpass, der die schnelle Entwicklung von KI-Fähigkeiten behindert.

Was ist das Data Mesh?

Ein Datennetz ist ein verteiltes architektonisches Paradigma, das die Unzulänglichkeiten der monolithischen Muster behebt, die üblicherweise für Analysen und die Datenbereitstellung in einem Unternehmen verwendet werden. Es ermöglicht jedem Team, kontinuierlich und unabhängig hochwertige, leseoptimierte Versionen von Betriebsdaten zu erstellen und zu nutzen. Es basiert auf vier Kernprinzipien, die darauf abzielen, (a) die Kosten und die Spezialisierung, die für die Erstellung von Datenprodukten erforderlich sind, drastisch zu senken und (b) ein gesundes Ökosystem und eine nahtlose Übernahme von Analysen in jedem Teil eines Unternehmens sicherzustellen.

Domäneneigentum

Nach dem Paradigma der bereichsorientierten Entwicklung wird die Datenverantwortung den Geschäftsbereichen zugewiesen. Das bedeutet, dass die Verantwortung an die Personen verteilt wird, die den Systemen, die die Betriebsdaten produzieren, am nächsten sind - und die sie besser verstehen können. Jeder Bereich ist dafür verantwortlich, dem Rest des Unternehmens sowohl die von ihm produzierten Betriebsdaten als auch die von ihm erstellten analytischen Datenprodukte zur Verfügung zu stellen. Auf diese Weise können die Produktion und der Verbrauch von Daten in Abhängigkeit von den Bereichen und den Teams für die Servicebereitstellung skaliert werden.

Analytische Daten als Produkt

Die Bereitstellung von Analysedaten als Produkt innerhalb einer Organisation legt nahe, dass die Daten sein müssen:

auffindbar (Benutzer können es finden)
ansprechbar (die Benutzer wissen, wie sie damit umgehen müssen)
selbstbeschreibend (die Nutzer verstehen, worum es geht)
sicher und vertrauenswürdig (Nutzer vertrauen auf die Datenqualität)
interoperabel (Benutzer können verschiedene Datenprodukte kombinieren)

Verantwortlich dafür sind die Eigentümer der Datenprodukte in den einzelnen Bereichen. Dieser Grundsatz stellt sicher, dass Daten nicht mehr als Bürger zweiter Klasse behandelt werden, sondern als hochwertiges Gut angesehen werden, das die Nutzer verstehen und nutzen können.

Selbstbedienungs-Plattform

Damit die Mitarbeiter in den verschiedenen Geschäftsbereichen ihre Datenprodukte selbständig erstellen und pflegen können, ist der Zugang zu einer hochgradig abstrakten Infrastruktur unerlässlich, die die Komplexität und Reibungsverluste bei der Verwaltung des Lebenszyklus von Datenprodukten beseitigt. Dies bedeutet, dass der Zugang zu den Betriebsdaten ermöglicht wird und die Werkzeuge und Fähigkeiten bereitgestellt werden, die für eine autonome Verwaltung erforderlich sind.

So kann beispielsweise die Ausführung eines Spark-Jobs auf historischen Daten eine schwierige Aufgabe für unerfahrene Teams sein. Eine Self-Service-Plattform soll es jedem im Unternehmen ermöglichen, seine eigenen Analyseanwendungen zu implementieren und seine Modelle zu trainieren (oder bereits trainierte Modelle zu verwenden), und zwar mit einem Minimum an Spezialwissen.

Föderierte rechnergestützte Verwaltung

Damit Domänen durch die Korrelation unabhängiger Datenprodukte einen Mehrwert erzielen können, benötigen Sie ein Governance-Modell, das Dezentralisierung und Interoperabilität durch globale Standardisierung umfasst. Ein Verband - bestehend aus Datenprodukteigentümern, Unternehmensvertretern, Sicherheits- und Compliance-Beauftragten und anderen - ist für die Definition von Standards verantwortlich, die alle Bereiche und Datenprodukte befolgen müssen. Diese Standards sind rechnerisch in die Plattform integriert und werden automatisch angewendet.

Eine wichtige Grundlage für KI-gesteuerte Unternehmen

Auf dem Weg in eine neue Ära, in der “jedes Unternehmen ein KI-gesteuertes Unternehmen sein wird”, ist die Notwendigkeit der kontinuierlichen Erfassung und Historisierung aller betrieblichen Datenquellen wichtiger denn je. Qualitativ hochwertige und vertrauenswürdige Daten sind eine Notwendigkeit, unabhängig davon, ob Sie interne ML-Expertenmodelle trainieren oder vorab trainierte Grundmodelle wie Large Language Models (LLMs) feinabstimmen.

Eine Data-Mesh-Architektur bietet die notwendige solide Grundlage, auf der KI-Modelle schnell und zuverlässig trainiert und operationalisiert werden können. Die Übernahme dieses Rahmens in Verbindung mit einem ausgereiften MLOps-Paradigma ist eine wichtige Entscheidung, um das Potenzial von KI zu erschließen, und ein Unterscheidungsmerkmal für Unternehmen, die eine schnelle Entwicklung von KI-Fähigkeiten anstreben.

Achten Sie auf unseren nächsten Blog-Beitrag, in dem wir beschreiben, wie wir das ION Data Mesh, unser Azure-natives Datennetz, aufgebaut haben, und auf Designentscheidungen und Implementierungsdetails sowie auf praktische Herausforderungen eingehen, denen wir gegenüberstanden.

Artikel von

Iris Safaka

Leitender Datenwissenschaftler

Iris Safaka ist Principal Data Scientist bei Ontinue und verfügt über mehr als 10 Jahre Erfahrung in den Bereichen Cybersicherheit, maschinelles Lernen und Analytik. Sie hat wissenschaftliche Artikel in führenden Sicherheitszeitschriften veröffentlicht, ist aktives Mitglied in technischen Programmausschüssen, nimmt an Expertengremien zu KI, Daten und Sicherheit teil und wurde zu Vorträgen bei USENIX, IEEE und ACM eingeladen. Iris hat an der Eidgenössischen Technischen Hochschule (EPFL) in Computer- und Kommunikationswissenschaften promoviert.

Schlüsselwörter