Die Herausforderung
Ohne ein führendes, richtlinienkonformes System entstehen Überdimensionierung, »Zombie«- und Idle-Ressourcen sowie versteckte Engpässe bis hin zur 100-Prozent-Auslastung. Die FEC wird institutsweit im Self-Service als produktiv betriebener Demonstrator eingesetzt. Das bedeutet, sie dient als Beispielsystem, an dem Unternehmen praxisnah erproben und nachvollziehen können, wie Edge- und Cloud-Plattformen aufgebaut und betrieben werden. Unterschiedliches Vorwissen führt in der Praxis zu überdimensionierten Virtuellen Maschinen, fehlerhaften Grenzen und Quotas sowie zu Ressourcen, die ungenutzt weiterlaufen oder zwar bereitstehen, aber aktuell nichts tun. Als ungenutzt weiterlaufende Ressourcen bezeichnen wir »Zombie«-Instanzen. Als bereitgestellte, aber momentan untätige Ressourcen bezeichnen wir Idle-Instanzen. Hinzu kommen Engpässe, die im Alltag schwer zu erkennen sind. Am Fraunhofer IPT liegt die Auslastung zeitweise nahezu bei einhundert Prozent, was Kapazitätsengpässe, Terminrisiken und hohen Betriebsaufwand erzeugt. Benötigt wird daher ein transparentes und richtlinienkonformes System, das Anwenderinnen und Anwender führt, Governance und FinOps sowie Nachhaltigkeit unterstützt, Entscheidungen methodisch absichert und die Komplexität von OpenStack beherrschbar macht. Unter methodischer Absicherung verstehen wir Operations Research, also den gezielten Einsatz mathematischer Optimierung, um unter mehreren Zielen und Randbedingungen belastbare Entscheidungen vorzubereiten.
Unsere Leistung
ARRC liefert priorisierte Rightsizing- und Abschalt-Empfehlungen, begründet durch erklärbare KI, eingebettet in Richtlinien und automatisiert ausgerollt mit GitOps. Wir passen ARRC an das OpenStack der Fraunhofer Edge Cloud an und binden historische sowie aktuelle Monitoring-Daten ein. Aus diesen Daten entstehen leicht verständliche, priorisierte Empfehlungen zur richtigen Größe von Ressourcen und zum Abschalten ungenutzter Workloads. Wir spiegeln die Empfehlungen als Issues in GitLab oder Jira, sodass Teams sie direkt prüfen können. Freigegebene Änderungen werden anschließend automatisch über GitOps ausgerollt. Die erklärbare Künstliche Intelligenz erläutert, welche Merkmale die Empfehlung beeinflusst haben. Gleichzeitig stellen klare Richtlinien sicher, dass Grenzen eingehalten werden. Dazu zählen Service Level Agreements, Budgetvorgaben und Sicherheitsanforderungen. Das Operations Research erstellt auf dieser Basis kapazitäts- und policy-konforme Aktionspläne. Es nutzt Methoden der ganzzahligen und mehrzieligen Optimierung sowie feste Nebenbedingungen. So entsteht ein Plan, der Kapazitäten effizient nutzt und eine sinnvoll balancierte Oversubscription ermöglicht.
Das Ergebnis
ARRC erhöht nachweislich verfügbare Ressourcen, senkt Kosten und Energieverbrauch und schafft Kapazität für neue Projekte. Im Proof of Concept beim Fraunhofer IPT, also in einem praktischen Machbarkeitsnachweis, konnten wir durch Freiräumen und gezieltes Rightsizing die verfügbaren Ressourcen signifikant erhöhen. Es standen bis zu 363 Prozent zusätzliche CPUs und bis zu 336 Prozent zusätzlicher Arbeitsspeicher zur Verfügung. ARRC erreicht den Technology Readiness Level 6. Das bedeutet, dass die Technologie in einer relevanten Umgebung erfolgreich demonstriert wurde. Die Lösung vereinfacht das Betriebsmanagement, reduziert Zombie- und Idle-Ressourcen und stärkt durch den produktiven Betrieb als Referenzsystem den Transfer in unternehmensübliche Edge- und Cloud-Plattformen.
Die Partner
- Fraunhofer IPT
Ansprechpartner: Dr.-Ing. Mario Pothen, Business Unit Digitalisierung und Vernetzung