Unser Leistungsangebot
Datenqualität ist eine Kernkomponente der modernen Datenverarbeitung und Voraussetzung zur automatisierten Entscheidungsfindung. So verbessert eine hohe Datenqualität die Genauigkeit der Daten als digitales Abbild der Realität und sorgt für eine optimale Datengrundlage zur effizienten Nutzung von maschinellem Lernen und künstlicher Intelligenz.
Am Fraunhofer ISST werden verschiedene Lösungen mit dem Ziel »Augmented Data Quality« entwickelt. Diese bieten Unternehmen eine intelligente Unterstützung, um langfristig auf eine qualitativ hochwertige Datenbasis zurückgreifen zu können. Konkret hilft das Fraunhofer ISST bei der Definition, Messung und Verbesserung der Datenqualität. Hierfür kombinieren wir verschiedene Technologien und Algorithmen aus den Bereichen Data Profiling, Data Cleaning, Data Validation sowie Data Orchestration, um als Teil des »DataOps« eine ganzheitliche Betrachtung der Datenqualität im Datenlebenszyklus zu ermöglichen. Vorhandene Qualitätsprobleme werden so behoben und der Eintrag neuer Fehler durch automatisierte Datenvalidierung signifikant reduziert. Auf diese Weise lassen sich beispielsweise der Aufwand des Data Pre-Processing in Data Science Projekten verringern, ein eventuelles Datenbias in KI-Projekten vermeiden oder die Aussagekraft von Auswertungen als Entscheidungsbasis festigen.
Abbildung: Datenqualitätskontrolle in Data Lake Architekturen
Das Leistungsangebot im Bereich Datenqualität umfasst sowohl die Anforderungserhebung und Gap-Analyse zur Identifikation von Verbesserungspotentialen, als auch Architektur- und Prozessentwicklungen bis hin zur Realisierung von Prototypen zur Optimierung der Datenqualität.
Data Profiling
- Automatisierte Ableitung von Metadaten aus relationalen Datenbeständen durch deskriptive Statistiken, Korrelationsanalysen, funktionale Abhängigkeiten oder Clusteranalysen.
- Automatisierte Ableitung von Metadaten aus nicht-relationalen Datenbeständen durch Dynamic Topic Models (und verwandte Verfahren des Neuro-Linguistische Programmierens), der Erkennung von Concept Drifts, der Erkennung von Outliern mit Isolation Forest Algorithmen sowie künstlicher Intelligenz.
- Speicherung und Verwaltung der Metadaten in einem zentralen, microservice-orientierten Data Catalog
- Beschreiben, Verwalten und Orchestrieren von Data-Engineering-Prozessen.
Data Cleaning und Validierung
- Unterstützung bei der Erkennung von Datenfehlern durch die Identifizierung von Duplikaten, Outlier, Formatverstößen oder Regelverstößen.
- Ermöglichung einer automatischen Datenvalidierung durch Datenqualitätsregeln auf Basis von Assoziationsanalysen.
- Verwaltung der identifizierten Fehler in einem entsprechenden Tool und Integration durch offene Schnittstellen (APIs).
Data Quality Management
- Weiterentwicklung bestehender Data-Engineering-Prozesse durch die integrative Betrachtung von Datenqualität.
- Integration von Datenqualität als Komponente in moderne Systemarchitekturen (wie Data Lakes).
- Entwicklung von Qualitätsmetriken für verschiedene Datensätze und Anwendungsbereiche.
Verfügbare Software/Anwendungen
- DIVA – Data Catalog
- Automated Data Quality Mining
Branchen
Datenqualität trägt in unterschiedlichen Branchen zur Lösung anspruchsvoller Herausforderungen bei. Ob als Tool zum Management urbaner Daten, als Möglichkeit zur Qualitätserfassung kontinuierlicher Datenströme in Produktionsumgebungen, als Werkzeug zur Prüfung klinischer Studien im Pharmabereich oder als Möglichkeit zur Optimierung von Datenmigrationen, das Kompetenzfeld Datenqualität bietet Lösungen für vielfache Einsatzmöglichkeiten.