Unser Leistungsangebot
Data Science ermöglicht die Extraktion von Wissen und Wert aus Daten. So können nicht nur neue Erkenntnisse gewonnen und Entscheidungsprozesse unterstützt, sondern auch bestehende Prozesse optimiert und neue innovative Anwendungen erschlossen werden.
Am Fraunhofer ISST werden verschiedene Data Science-Lösungen entwickelt. Dabei erforschen und entwickeln wir KI- bzw. ML-Pipelines (also aneinander gekettete Verarbeitungsschritte) für die Bereiche Gesundheitswesen, Logistik und Datenwirtschaft. Je nach Anwendungsfall können diese auf unterschiedlichen Datenquellen wie Biosignalen (z.B. Messungen mithilfe von EKG oder 3D-Beschleunigungssensoren), Audio, Bildern, Videos, Texten oder auf einer Kombination mehrerer Datenquellen basieren. Dabei unterstützen wir unsere Partner entlang der gesamten Pipeline, von der Vorverarbeitung der (Roh-)Daten bis hin zur Auswahl und dem Training geeigneter Modelle sowie deren Evaluation anhand anwendungsspezifischer Performancekriterien. Ein besonderer Schwerpunkt liegt hierbei auch auf der Definition, Messung und Verbesserung der Datenqualität. Hierfür kombinieren wir verschiedene Technologien und Algorithmen aus den Bereichen Data Profiling, Data Cleaning, Data Validation sowie Data Orchestration, um als Teil des »DataOps« eine ganzheitliche Betrachtung der Datenqualität im Datenlebenszyklus zu ermöglichen.
Abbildung: Datenqualitätskontrolle in Data Lake-Architekturen
Das Leistungsangebot im Kompetenzfeld Data Science umfasst sowohl die Anforderungserhebung und Gap-Analyse zur Identifikation von Verbesserungspotenzialen als auch Architektur- und Prozessentwicklungen bis hin zur Realisierung von Prototypen zur Extraktion von Wissen und Wert aus vorliegenden oder zu erhebenden Daten.
Training und Evaluation von Machine Learning (ML)-Modellen
- Konzeption von ML-basierten Anwendungen.
- Featureberechnung anhand von Biosignaldaten (z.B. 3D-Beschleunigung, EKG, Audio) aus der Zeit- und Frequenzdomäne.
- Auswahl aus unterschiedlichen Lernansätzen, z.B. klassische Klassifikationsverfahren, Deep Learning, Assoziationsanalyse, Clustern.
- Hyperparameteroptimierung, Evaluation anhand anwendungsspezifischer Performanzmetriken.
Data Profiling
- Automatisierte Ableitung von Metadaten aus relationalen Datenbeständen durch deskriptive Statistiken, Korrelationsanalysen, funktionale Abhängigkeiten oder Clusteranalysen.
- Automatisierte Ableitung von Metadaten aus nicht-relationalen Datenbeständen durch Dynamic Topic Models (und verwandte Verfahren des Neuro-Linguistische Programmierens), der Erkennung von Concept Drifts, der Erkennung von Outliern mit Isolation Forest-Algorithmen sowie künstlicher Intelligenz (KI).
- Speicherung und Verwaltung der Metadaten in einem zentralen, microservice-orientierten Data Catalog.
- Beschreiben, Verwalten und Orchestrieren von Data Engineering-Prozessen.
Data Cleaning and Validierung
- Unterstützung bei der Erkennung von Datenfehlern durch die Identifizierung von Duplikaten, Outliern, Formatverstößen oder Regelverstößen.
- Ermöglichung einer automatischen Datenvalidierung durch Datenqualitätsregeln auf Basis von Assoziationsanalysen.
- Verwaltung der identifizierten Fehler in einem entsprechenden Tool und Integration durch offene Schnittstellen (APIs).
Data Quality Management
- Weiterentwicklung bestehender Data Engineering-Prozesse durch die integrative Betrachtung von Datenqualität.
- Integration von Datenqualität als Komponente in modernen Systemarchitekturen (wie Data Lakes).
- Entwicklung von Qualitätsmetriken für verschiedene Datensätze und Anwendungsbereiche.
Verfügbare Software/Anwendungen
Branchen
Data Science trägt in unterschiedlichen Branchen zur Lösung anspruchsvoller Herausforderungen bei. Ob für das Management urbaner Daten, die automatisierte Qualitätskontrolle in der Logistik, die Diagnose von Krankheiten, die Prüfung klinischer Studien im Pharmabereich oder für die Extraktion von Informationen aus Dokumenten, die Möglichkeiten sind lediglich durch die Verfügbarkeit von Daten beschränkt.