Oswald Regular
OpenSans Regular
Datenqualität

Die Datenqualität ist von entscheidender Bedeutung. Probleme mit der Datenqualität können den wirtschaftlichen Erfolg eines Unternehmens stark beeinträchtigen. Ungültige Daten können zu redundanter Arbeit und verpassten Chancen führen. Probleme mit der Datenqualität können sich anhäufen. Ihr Umfang und ihre Auswirkungen können zunehmen, während sich die Daten durch das Unternehmen bewegen. Schlimmstenfalls kann dies dazu führen, dass Führungskräfte falsche Schlussfolgerungen ziehen und schlechte Geschäftsentscheidungen treffen. Aber trotz dieser erheblichen Risiken haben nur wenige Unternehmen ein formelles Programm zur Messung und Korrektur von Problemen mit der Datenqualität. Den meisten Unternehmen ist nicht einmal klar, dass sie überhaupt Datenqualitätsprobleme haben.

Die Lösung besteht darin, ein unternehmensweites Datenqualitäts (DQ)-Programm einzuführen. Aber ein solches unternehmensweites Programm kann naturgemäß nicht mit einer einzigen vordefinierten Lösung umgesetzt werden. DQ erfordert einen ganzheitlichen Ansatz, der Kontaktpunkte im gesamten Unternehmen umfasst und für eine Reihe von Technologien implementiert wird. DQ sollte ein integraler Bestandteil der Datenverarbeitungspipeline sein und nicht auf eine rückblickende Offlineanalyse beschränkt werden. Bei DQ geht es nicht nur darum, Kundennamen und Adressdaten zu bereinigen. Vielmehr geht es um die Konsistenz und Darstellung aller Unternehmensinformationen.

Da die für DQ eingesetzten Technologien Teil der Datenverarbeitungspipeline sein sollen, müssen sie so robust sein, dass sie sich für Produktionsumgebungen eignen. Zudem müssen sie komplexe Legacy-Daten, Echtzeittransaktionen und anhaltend hohe Verarbeitungsraten unterstützen. Ansätze, die diese Anforderungen nicht erfüllen, werden letzten Endes nur als Offlinelösungen eingesetzt und erbringen nur selten die erwartete Leistung. Dies geschieht typischerweise mit Nischen-DQ-Werkzeugen, die speziell für bestimmte Datentypen entwickelt wurden und nur unter ganz bestimmten Umständen eingesetzt werden können.

Ab Initio sieht das anders: der Wirkungsbereich der DQ-Software ist durchgehend. Da das Co>Operating System von Ab Initio eine komplette Umgebung zur Anwendungsentwicklung und -ausführung ist, funktioniert der Datenqualitätsansatz von Ab Initio überall dort, wo das Co>Operating System bereitgestellt werden kann, also in nahezu jeder Betriebs- oder Analyseumgebung. Das Co>Operating System verarbeitet komplexe Legacy-Daten nativ, kann über heterogene Gruppen von Servern verteilt ausgeführt werden, ist sehr leistungsfähig und vollständig skalierbar und kann hochkomplexe Logik implementieren. (Klicken Sie hier, um mehr über das Co>Operating System zu erfahren.)

Der durchgehende Datenqualitätsansatz von Ab Initio basiert auf den Entwurfsmustern und den nahtlos miteinander verbundenen Technologien von Ab Initio, die Teile einer gemeinsamen Architektur bilden: das Co>Operating System, das Enterprise Meta>Environment (EME), das Business Rules Environment (BRE) und der Data Profiler. Mit Ab Initio-Software kann ein Unternehmen ein vollständiges Datenqualitätsprogramm implementieren, das neben der Erfassung und Verbesserung der Datenqualität auch entsprechende Berichte und Warnmeldungen generiert.

Übersicht über die Architektur

Wenn es um Datenqualität geht, gibt es keine Patentlösung, insbesondere nicht für große Organisationen mit vielen Legacy-Systemen. Daher bietet Ab Initio eine Reihe leistungsstarker Bausteine an, mit denen Benutzer individuelle Datenqualitätslösungen zusammenstellen können, die exakt auf ihre jeweiligen Anforderungen zugeschnitten sind. Für Benutzer, die gerade erst mit der Einrichtung eines Datenqualitätsprogramms beginnen, bietet Ab Initio eine Referenzimplementierung an, die als Grundlage für ein Gesamtprogramm dienen kann. Für Benutzer, die andere Anforderungen stellen oder bereits Teile eines Datenqualitätsprogramms eingerichtet haben, können die DQ-Bausteine von Ab Initio wie gewünscht in die vorhandene Infrastruktur eingebunden werden.

Eine typische Datenqualitätsimplementierung beginnt wie nachfolgend dargestellt mit der Erstellung einer leistungsstarken, wiederverwendbaren DQ-Verarbeitungskomponente mit dem Co>Operating System:

Mit dem Co>Operating System können Komponenten ganze Anwendungen enthalten. Die hier dargestellte wiederverwendbare DQ-Prozesskomponente ist eine selbständige Anwendung, die Folgendes umfasst:

  • Ein Subsystem, das Probleme mit der Datenqualität erfasst und nach Möglichkeit korrigiert. Das Co>Operating System dient als Grundlage für die Implementierung der Fehlererfassung. In der BRE können über eine für Analysten ausgelegte Benutzeroberfläche Validierungsregeln spezifiziert werden. Und zu Zwecken der Trendanalyse und detaillierten Problemerfassung lässt sich der Data Profiler in den Prozess integrieren.
  • Ein Datenqualitätsberichtssystem. Die EME erstellt Datenqualitätsberichte, die mit den übrigen Metadaten eines Unternehmens integriert werden sowie mit den Datenqualitätskennzahlen, den Fehleranzahlen und den Datenprofilen. Benutzer können das EME-Schema erweitern, sodass zusätzliche Informationen zur Datenqualität gespeichert werden und die grundlegende EME-Funktionalität durch ihre eigene Berichtsinfrastruktur erweitert wird.
  • Eine Datenbank für Problemberichte. Datensätze mit Datenqualitätsproblemen werden in einer Datenbank oder einer Datei protokolliert, damit sie im Rahmen eines vollständigen Datenqualitätsablaufsprozesses untersucht werden können. Ab Initio stellt die Technologie zum Speichern, Abrufen und Anzeigen dieser Datensätze bereit, aber Benutzer können die Datenspeichertechnologie wählen, die ihre Anforderungen am besten erfüllt.

Diese DQ-Verarbeitungskomponente wird in der Regel als Teil vorhandener Anwendungen ausgeführt. Wenn die Anwendung mit Ab Initio-Software erstellt wurde, kann die DQ-Komponente problemlos eingebunden werden. Für Anwendungen, die nicht mit Ab Initio-Software erstellt wurden, muss die DQ-Verarbeitungskomponente explizit aufgerufen werden. Außerdem kann die DQ-Komponente auch als unabhängiger Job implementiert werden, der direkt auf Daten zugreift. In der folgenden Abbildung wird jeweils ein Beispiel für beide Arten von Deployments gezeigt: eigenständig und integriert in eine vorhandene Anwendung:

Ablauf für die Datenqualitätsverarbeitung

Im folgenden Diagramm wird ein Beispiel eines vollständigen Ablaufs für die Erfassung der Datenqualität gezeigt. In der Praxis wird jedes Deployment auf die speziellen Anforderungen der Benutzer zugeschnitten.

Wie bereits erwähnt, können die Eingabedaten in diesem DQ-Prozess (A) Daten beliebigen Typs sein, die aus verschiedensten Quellen stammen können. Die Quelle kann eine flache Datei, eine Datenbanktabelle, eine Message-Queue, eine Transaktion in einem Web-Service oder auch die Ausgabe eines Prozesses sein, der mit Ab Initio-Software oder einer anderen Technologie implementiert wurde. Da der DQ-Prozess auf dem Co>Operating System ausgeführt wird, werden alle Daten unterstützt, die das Co>Operating System verarbeiten kann: komplexe Legacy-Daten, hierarchische Transaktionen, internationale Daten usw.

Auch die Ausgabedaten des DQ-Prozesses (B) können Daten beliebigen Typs sein, und das Ziel der Ausgabe kann je nach Bedarf festgelegt werden.

Im ersten Schritt werden die Validierungsregeln (1) auf die Daten angewendet. Validierungsregeln können auf einzelne Felder, ganze Datensätze oder ganze Dateien angewendet werden. Da jeder Datensatz ein oder mehrere Probleme aufweisen kann, können die Validierungsregeln eine Gruppe von DQ-Problemen pro Datensatz ausgeben (E). Über den Schweregrad dieser Probleme und die erforderlichen Korrekturen wird in einem nachfolgenden Schritt entschieden.

Anschließend werden Bereinigungsregeln auf die Daten angewendet (2). Das Ergebnis des DQ-Prozesses ist die Ausgabe (B). Benutzer können die in die Ab Initio-Software integrierten Regeln für die Datenbereinigung verwenden oder eigene Regeln mit dem Co>Operating System erstellen. Validierungsregeln und Bereinigungsregeln sind mit der BRE ganz einfach einzugeben, aber der Komplexität der Regeln sind keine Grenzen gesetzt, da sie die enorm leistungsfähigen Datenverarbeitungsfunktionen des Co>Operating Systems nutzen können.

Datensätze, die nicht bereinigt werden können, werden in ein Problemarchiv (4) ausgegeben. Diese Problemdatensätze werden dann in der Regel manuell geprüft und bearbeitet, um die vorliegenden Probleme zu lösen.

Die Liste der Probleme für jeden Datensatz (E) kann auch analysiert werden (3), um Berichte und Warnmeldungen zu generieren (5). Da dieser Prozess mit standardmäßigen Ab Initio-Graphen und dem Co>Operating System erstellt wird, ist praktisch jede Art von Berichterstellung und Verarbeitung möglich. Der standardmäßige DQ-Ansatz von Ab Initio umfasst Folgendes:

  • Berechnen der Datenqualitätskennzahlen, wie z. B. Vollständigkeit, Korrektheit, Konsistenz und Stabilität
  • Ermitteln der Häufigkeitsverteilung für einzelne Felder
  • Generieren aggregierter Anzahlen von Fehlercodes und -werten
  • Vergleichen der aktuellen Werte der oben aufgeführten Faktoren mit den entsprechenden Werten im Lauf der Zeit
  • Signalisieren bedeutender Abweichungen aktueller Messwerte von den in der Vergangenheit ermittelten Werten

Alle in den oben aufgeführten Schritten generierten Informationen werden zur Überwachung und späteren Verwendung in der EME von Ab Initio gespeichert. Sämtliche DQ-Informationen können mit allen anderen Metadaten integriert werden, einschließlich der ebenfalls in der EME gespeicherten Referenzdaten.

Die mit diesen Schritten verbundenen Berechnungen können unter Umständen die CPU-Ressourcen erheblich beanspruchen. Da aber das Co>Operating System die Arbeitslast auf mehrere CPUs und Server verteilen kann, kann die gesamte Datenqualitätsverarbeitung immer Teil der Verarbeitungspipeline sein.

Wie oben dargelegt, umfasst der von Ab Initio gewählte Ansatz zur Messung der Datenqualität eine große Anzahl von Optionen, die an die Anforderungen des jeweiligen Kunden angepasst und entsprechend konfiguriert werden können. Die Verarbeitung der Daten, die Berechnung der Ergebnisse und alle Zwischenschritte werden mit dem Co>Operating System von Ab Initio implementiert. Daher kann die Erfassung der Datenqualität auf fast jeder Plattform (UNIX, WINDOWS, LINUX, Mainframe Z/OS) mit Daten jeder Art und mit sehr hoher Leistung ausgeführt werden. Wenn große Datenmengen verarbeitet werden, kann der gesamte Datenqualitätserfassungsprozess parallel ausgeführt werden, um die Latenzzeit zu minimieren.

In den nächsten Abschnitten werden Beispiele der für Analysten ausgelegten Benutzeroberflächen gezeigt, auf denen Validierungsregeln und Berichte zu Datenqualitätsergebnissen erstellt werden.

Validierungsregeln

Die meisten Probleme mit der Datenqualität werden erfasst, indem Validierungsregeln auf die Quelldatei angewendet werden. Mit dem Datenqualitätsentwurfsmuster von Ab Initio können Validierungsregeln, die auf jeweils einen Datensatz angewendet werden, im Business Rules Environment (BRE) von Ab Initio definiert werden. Die BRE eignet sich gut für Benutzer, die technisch weniger versiert sind; Geschäftsanalysten; und Experten für bestimmte Fachgebiete; hier können sie Validierungsregeln auf einer Benutzeroberfläche erstellen und testen, die einer Kalkulationstabelle ähnelt.

Validierungsregeln können in der BRE auf zwei Arten definiert werden. In den meisten Fällen definieren Benutzer Regeln, indem sie in einer einfachen Kalkulationstabelle (Validierungsraster) auf der linken Seite die entsprechenden Feldnamen untereinander eingeben und oben die Validierungstests eintragen:

Auf dieser Benutzeroberfläche kann sehr einfach festgelegt werden, welche Validierungstests auf die einzelnen Felder oder Spalten einer Datei anzuwenden sind. Die BRE umfasst eine Reihe integrierter Validierungstests (Nullen, Leerzeichen, Wertebereiche, Datenformate, Domänenzugehörigkeit usw.). Entwickler können jedoch auch benutzerdefinierte Validierungstests definieren, die auf einzelne Felder angewendet werden können. Benutzerdefinierte Validierungstests werden von Entwicklern mit der Data Manipulation Language (Datenmanipulationssprache, DML) von Ab Initio geschrieben und dann in der BRE bereitgestellt.

Komplexere Validierungsregeln können in der BRE auch in Form von „tabellarischen Regeln“ definiert werden. Diese komplexen Validierungsregeln können mehrere Eingabefelder innerhalb eines Datensatzes verarbeiten, um zu ermitteln, ob Probleme mit der Datenqualität vorliegen. Jede Regel kann einen Fehlercode und einen Dispositionscode ausgeben, auf deren Grundlage dann der Prozess zur Verbesserung der Datenqualität durchgeführt wird.

In der BRE können Fachgebietsexperten Validierungsregeln auf einer einheitlichen Benutzeroberfläche entwerfen, eingeben und testen. Mit der Testfunktion der BRE können Benutzer interaktiv prüfen, welche Regeln für verschiedene Eingaben ausgelöst werden. So kann auf einfache Weise sichergestellt werden, dass die Regeln sich wie erwartet verhalten.

Im folgenden Screenshot werden Validierungsregeln in der Testphase gezeigt. Die BRE zeigt die Anzahl der Auslösungen für jeden Validierungstest sowie die Details zu jedem Testdatensatz an.

Validierungsregeln werden in der EME gespeichert, wo auch die Versionskontrolle, die Zugriffssteuerung und die Konfigurationsverwaltung erfolgen. Bei Anwendungen, die ausschließlich mit Ab Initio-Software erstellt wurden (einschließlich des DQ-Prozesses), wird die Anwendung gemeinsam mit den DQ-Regeln versioniert, getaggt und zur Produktion freigegeben. Auf diese Weise wird ein robuster DQ-Prozess sichergestellt.

In der BRE können Benutzer, die weniger technisch versiert sind, auf einfache Weise Validierungsregeln definieren. Aber es gibt noch weitere Möglichkeiten, solche Regeln zu definieren: Zur Implementierung besonders komplexer Regeln steht die gesamte leistungsstarke Transformationstechnologie des Co>Operating Systems zur Verfügung, und da die Transformationsregeln ebenso wie die BRE auf dem Co>Operating System ausgeführt werden, können sehr umfangreiche Strategien zur Messung der Datenqualität erstellt werden.

Berichterstellung

Die Erfassung ist der erste Teil einer vollständigen Datenqualitätsimplementierung. Die zweite Hauptkomponente eines Datenqualitätsprogramms ist die Berichterstellung.

Für Datenqualitätsberichte wird das Enterprise Meta>Environment (EME) eingesetzt. Die EME von Ab Initio ist ein Metadatensystem auf Unternehmensebene, das entwickelt wurde, um die Metadatenanforderungen von Geschäftsanalysten, Entwicklern, Betriebsmitarbeitern und anderen Beteiligten zu erfüllen. Die EME unterstützt viele Arten von Metadaten aus unterschiedlichen Technologien in den drei Kategorien Geschäft, Technik und Betrieb. Zu diesen Metadaten zählen auch Datenqualitätsstatistiken.

Die Ab Initio-Software speichert Datenqualitätsstatistiken zu Berichtszwecken in der EME. Eine Art von DQ-Informationen, die in der EME gespeichert werden, sind aggregierte Anzahlen von Fehlercodes (Problemen) für einzelne Felder und Dateien. Die Zahlen werden mit der gemessenen Datei verknüpft sowie mit den Feldern, die Probleme aufweisen. Die Probleme werden aggregiert und nach Fehlercode in Berichten erfasst. Die Fehlercodes werden in einem globalen Satz von Referenzcodes in der EME gespeichert. (Die EME unterstützt die Referenzcodeverwaltung.)

Im folgenden Screenshot wird gezeigt, wie mit der EME Probleme auf Feldebene zusammen mit Trendverlaufsgraphen angezeigt werden können. Werte, die konfigurierbare Schwellen überschreiten, werden gelb oder rot hervorgehoben.

Wie unten dargestellt wird, kann die Ab Initio-Software Datenqualitätskennzahlen für Dateien und Felder (Spalten) berechnen. Diese Kennzahlen werden ebenfalls in der EME gespeichert. Zu diesen Kennzahlen gibt es einen entsprechenden tabellarischen Bericht mit Trendgraphen und gelben bzw. roten Schwellenwerten.

Wenn Datenqualitätsmessungen in einer großen Umgebung vorgenommen werden, können die Informationen gemäß der Organisationsstruktur des Benutzers aggregiert werden. So können Manager Datenqualitätskennzahlen für ganze Systeme, Anwendungen und/oder Themenbereiche in einem Bericht anzeigen. Anhand dieses Berichts können Problembereiche durch Anzeigen der jeweiligen Detailinformationen untersucht werden.

Im folgenden Screenshot werden einige höhere Themenbereiche mit ihren aggregierten Datenqualitätskennzahlen gezeigt:

Berichterstellung: Lineage

Oft wird ein Datenqualitätsprogramm eingeführt, indem die Erfassung der Datenqualität für mehrere Dateien innerhalb eines einzigen Systems implementiert wird. Beispielsweise ist es nicht ungewöhnlich, dass die Datenqualität für alle Tabellen im Data Warehouse eines Unternehmens gemessen wird, aber an keiner anderen Stelle. Dies ist zwar besser als gar keine Messung durchzuführen, aber ein Datenqualitätsprogramm ist wesentlich aussagekräftiger, wenn die Datenqualität auf mehreren Stufen der Verarbeitungspipeline im gesamten Unternehmen geprüft wird. Beispielsweise könnte die Datenqualität im Data Warehouse des Unternehmens und zusätzlich im jeweiligen Verarbeitungssystem, an Zwischenpunkten sowie in den verschiedenen nachfolgenden Data Marts oder Extrahierungssystemen gemessen werden. Für alle diese Systeme können Datenqualitätskennzahlen erfasst werden, egal, ob sie mit Ab Initio-Software erstellt wurden.

Wenn die Datenqualität an mehreren Punkten in einem Unternehmen gemessen wird, erhöht der Einsatz der EME den Wert eines Datenqualitätsprogramms enorm. Dies liegt daran, dass in der EME Data Lineage und Datenqualitätskennzahlen miteinander kombiniert werden können, um die Systeme und Punkte zu identifizieren, bei denen Probleme mit der Datenqualität auftreten.

Der folgende Screenshot verdeutlicht dies anhand eines Beispiels:

In diesem Screenshot wird ein erweitertes Lineage-Diagramm in der EME gezeigt. Jedes große graue Feld stellt ein anderes System dar. Die kleineren grünen, roten und grauen Felder stellen Dateien und Anwendungen dar.

Einzelne Elemente können mit Datenqualitätskennzahlen gekennzeichnet werden. Bei den grünen Elementen ist alles in Ordnung. Bei den roten Elementen hingegen liegt ein Problem mit der Datenqualität vor. Mit diesen Diagrammen können die Datenqualitätsprobleme von Anfang bis Ende verfolgt werden. So können Manager erstmals nachvollziehen, wie Daten und Probleme durch ihr Unternehmen fließen.

DQ-Berichte sind nicht auf die integrierten EME-Ansichten beschränkt. Die Informationen der EME werden in einer handelsüblichen relationalen Datenbank gespeichert, und Ab Initio stellt die Dokumentation zum eingesetzten Schema bereit. Benutzer können die Business-Intelligence-Berichtswerkzeuge ihrer Wahl einsetzen, um angepasste Ansichten der Datenqualität in ihrem Unternehmen anzuzeigen.

Berichterstellung: Data Profiler

Die mit dem Data Profiler von Ab Initio ermittelten Ergebnisse können ebenfalls in einen DQ-Ablauf einfließen. Wie bei allen anderen DQ-Messungen werden auch diese Ergebnisse in der EME gespeichert und können über das EME-Web-Portal angezeigt werden.

Viele Unternehmen betrachten die Erstellung von Datenprofilen als eine Aktivität, die nur im Rahmen der Datenuntersuchung zu Beginn eines Projekts durchgeführt wird. Aber eine regelmäßige automatisierte Erstellung von Datenprofilen kann den Wert eines Datenqualitätsprogramms deutlich erhöhen. Datenqualitätskennzahlen können zwar die allgemeine Integrität und weitere Merkmale der Daten erfassen, aber mit Data Profiler-Statistiken lassen sich die Inhalte verschiedener Dateien wesentlich detaillierter analysieren.

Der folgende Screenshot zeigt die Übersicht eines Data Profiler-Berichts zu einer bestimmten Datei. Distinkte Werte, Validität, Vollständigkeit und vieles mehr wird vom Data Profiler ermittelt. Anhand dieser Informationen können Benutzer entscheiden, welche Felder genauer überprüft werden sollten.

Der folgende Screenshot zeigt ein bestimmtes Feld, das der Benutzer zur weiteren Analyse ausgewählt hat.

Von dieser Ansicht aus können die Datensätze angezeigt werden, die bestimmte Werte im ausgewählten Feld enthalten.

Zusammenfassung

Datenqualität ist für jedes Unternehmen wichtig, aber wenn es um das Erfassen und Analysieren von Problemen mit der Datenqualität und das Erstellen von Datenqualitätsberichten geht, gibt es keinen einheitlichen Ansatz, der die Anforderungen aller Unternehmen erfüllt.

Die durchgehenden Datenqualitätsentwurfsmuster von Ab Initio können ohne aufwendige Anpassung eingesetzt werden. Für Benutzer mit spezifischen Anforderungen an die Datenqualität (z. B. zusätzliche Erfassung, Berichterstellung oder Problemverwaltung) bietet Ab Initio einen universell einsetzbaren, flexiblen Ansatz, der auf leistungsstarken vorgefertigten Bausteinen beruht.

Der Datenqualitätsansatz von Ab Initio basiert auf dem Co>Operating System. Das Co>Operating System bietet eine leistungsstarke Multiplattform-Rechenumgebung zur Erfassung und Verbesserung der Datenqualität, zur Erstellung von Datenprofilen sowie zur Aggregation von Statistiken für jeden Datentyp. Da das Co>Operating System unbegrenzt skalierbar ist, kann es alle diese Aufgaben mit sehr großen Datenmengen durchführen.

Die BRE von Ab Initio bietet eine benutzerfreundliche grafische Oberfläche, auf der Analysten und Experten für bestimmte Fachgebiete Validierungsregeln entwickeln und testen können. Dies ergibt eine deutlich höhere Produktivität und Flexibilität bei der Erstellung und Verwaltung von Regeln zur Datenqualität.

Die EME von Ab Initio sorgt dafür, dass Datenqualitätsstatistiken hervorragend mit anderen Metadaten wie Data Lineage, Data Dictionaries, Domänencodesätzen, Betriebsstatistiken, Datenverantwortlichkeit und anderen technischen, betrieblichen und geschäftlichen Metadaten integriert werden können.

Durch die unübertroffene Kombination dieser Leistungsmerkmale in einer einzigen integrierten Technologie bietet Ab Initio Datenqualitätsfunktionen ohnegleichen.

English
Français
Español
Sprache:
Deutsch
简体中文
日本語