Datenqualität

Daten als Entscheidungsträger und strategische Ressource nutzen.

Unser Leistungsangebot

Datenqualität ist eine Kernkomponente der modernen Datenverarbeitung und Voraussetzung zur automatisierten Entscheidungsfindung. So verbessert eine hohe Datenqualität die Genauigkeit der Daten als digitales Abbild der Realität und sorgt für eine optimale Datengrundlage zur effizienten Nutzung von maschinellem Lernen und künstlicher Intelligenz.

 

Am Fraunhofer ISST werden verschiedene Lösungen mit dem Ziel »Augmented Data Quality« entwickelt. Diese bieten Unternehmen eine intelligente Unterstützung, um langfristig auf eine qualitativ hochwertige Datenbasis zurückgreifen zu können. Konkret hilft das Fraunhofer ISST bei der Definition, Messung und Verbesserung der Datenqualität. Hierfür kombinieren wir verschiedene Technologien und Algorithmen aus den Bereichen Data Profiling, Data Cleaning, Data Validation sowie Data Orchestration, um als Teil des »DataOps« eine ganzheitliche Betrachtung der Datenqualität im Datenlebenszyklus zu ermöglichen. Vorhandene Qualitätsprobleme werden so behoben und der Eintrag neuer Fehler durch automatisierte Datenvalidierung signifikant reduziert. Auf diese Weise lassen sich beispielsweise der Aufwand des Data Pre-Processing in Data Science Projekten verringern, ein eventuelles Datenbias in KI-Projekten vermeiden oder die Aussagekraft von Auswertungen als Entscheidungsbasis festigen.


Abbildung: Datenqualitätskontrolle in Data Lake Architekturen

 

Das Leistungsangebot im Bereich Datenqualität umfasst sowohl die Anforderungserhebung und Gap-Analyse zur Identifikation von Verbesserungspotentialen, als auch Architektur- und Prozessentwicklungen bis hin zur Realisierung von Prototypen zur Optimierung der Datenqualität.

 

Data Profiling

  • Automatisierte Ableitung von Metadaten aus relationalen Datenbeständen durch deskriptive Statistiken, Korrelationsanalysen, funktionale Abhängigkeiten oder Clusteranalysen.
  • Automatisierte Ableitung von Metadaten aus nicht-relationalen Datenbeständen durch Dynamic Topic Models (und verwandte Verfahren des Neuro-Linguistische Programmierens), der Erkennung von Concept Drifts, der Erkennung von Outliern mit Isolation Forest Algorithmen sowie künstlicher Intelligenz.
  • Speicherung und Verwaltung der Metadaten in einem zentralen, microservice-orientierten Data Catalog
  • Beschreiben, Verwalten und Orchestrieren von Data-Engineering-Prozessen.

 

Data Cleaning und Validierung         

  • Unterstützung bei der Erkennung von Datenfehlern durch die Identifizierung von Duplikaten, Outlier, Formatverstößen oder Regelverstößen.
  • Ermöglichung einer automatischen Datenvalidierung durch Datenqualitätsregeln auf Basis von Assoziationsanalysen.
  • Verwaltung der identifizierten Fehler in einem entsprechenden Tool und Integration durch offene Schnittstellen (APIs).

 

Data Quality Management

  • Weiterentwicklung bestehender Data-Engineering-Prozesse durch die integrative Betrachtung von Datenqualität.
  • Integration von Datenqualität als Komponente in moderne Systemarchitekturen (wie Data Lakes).
  • Entwicklung von Qualitätsmetriken für verschiedene Datensätze und Anwendungsbereiche.
 

Verfügbare Software/Anwendungen

  • DIVA – Data Catalog
  • Automated Data Quality Mining

 

Branchen

Datenqualität trägt in unterschiedlichen Branchen zur Lösung anspruchsvoller Herausforderungen bei. Ob als Tool zum Management urbaner Daten, als Möglichkeit zur Qualitätserfassung kontinuierlicher Datenströme in Produktionsumgebungen, als Werkzeug zur Prüfung klinischer Studien im Pharmabereich oder als Möglichkeit zur Optimierung von Datenmigrationen, das Kompetenzfeld Datenqualität bietet Lösungen für vielfache Einsatzmöglichkeiten.

 

Hier finden Sie eine Auswahl von freigegebenen Anwendungsbeispielen aus dem Kompetenzfeld »Datenqualität« der vergangenen Jahre. Sie suchen weitergehende Informationen? Nehmen Sie einfach Kontakt mit uns auf – unsere Ansprechpartner stehen Ihnen gerne für Fragen und Gespräche zur Verfügung.

 

Beispiel 1:

Data Quality Mining (im Rahmen des Boehringer Ingelheim Labs)

Im Projekt »Data Quality Mining« untersuchen wir in Zusammenarbeit mit Boehringer Ingelheim wie sich die Qualitätsanalyse von Stammdaten unterstützen und durch Datenqualitätsregeln langfristig automatisieren lässt. Hierbei kombinieren wir Verfahren der Statistik und des maschinellen Lernens, um den manuellen Aufwand der Qualitätskontrolle zu reduzieren und einen höheren Grad an Datenqualität in den Stammdaten zu erreichen.

Projektseite intern

 

Beispiel 2:

QU4LITY

Im Projekt »QU4LITY« erforscht das Kompetenzfeld Datenqualität die automatisierte Datenqualitätsanalyse in Produktionsumgebungen. Hierbei nutzen wir die Technologie der International Data Spaces (IDS) und ergänzen sie um geeignete Lösungen für das Profiling kontinuierlicher Datenströme zur Bestimmung der Datenqualität. Wir tragen so zu den Zielen der autonomen Qualität und der Null-Fehler-Fertigung bei.

Projektseite intern

Projektseite extern

(qu4lity-project.eu)

 

Beispiel 3:

TMvsCovid19

Im Projekt »TMvsCovid19« erforscht das Kompetenzfeld Datenqualität wie inhaltliche Metadaten aus Publikationen zum Thema „Covid19“ abgeleitet und in Form von Trends visualisiert werden können. Wir wollen so die Forschung und bestehende Knowledge Graphen unterstützen schneller auf Trends zu reagieren. Hierfür setzen wir auf die automatisierte Textanalyse unter Einsatz von Dynamic Topic Models aus dem NLP-Bereich.

Projektseite intern

 

 

 

Liste der wissenschaftlichen Publikationen

ALTENDEITERING, Marcel; GUGGENBERGER, Tobias Moritz. Designing Data Quality Tools: Findings from an Action Design Research Project at Boehringer Ingelheim. In: European Conference on Information Systems (ECIS). 2021.

TEBERNUM, Daniel; ALTENDEITERING, Marcel; HOWAR, Falk. DERM: A Reference Model for Data Engineering. In: International Conference on Data Science, Technology and Applications (DATA). 2021.

ALTENDEITERING, Marcel; DÜBLER, Stephan. Scalable Detection of Concept Drift: A Learning Technique Based on Support Vector Machines. Procedia Manufacturing, 2020, 51. Jg., S. 400-407.

AMADORI, Antonello; ALTENDEITERING, Marcel; OTTO, Boris. Challenges of Data Management in Industry 4.0: A Single Case Study of the Material Retrieval Process. In: International Conference on Business Information Systems. Springer, Cham, 2020. S. 379-390.