Blogreihe: Data Science mit SAP
Jared Hirschner | April 25, 2024 | 5 min

SAP Analytics Cloud: Prognoseszenarien

Im ersten Teil der Blogreihe wurden die für unsere Zwecke zentralen SAP BTP-Technologien einführend vorgestellt. Dieser Blogbeitrag gibt Ihnen einen Überblick über die prädiktiven Analysen mit SAP Analytics Cloud. Dabei werden die Prognoseszenarien im Detail betrachtet.

Prädiktive Analysen mit SAP Analytics Cloud

Die SAP BTP-Technologie «SAP Analytics Cloud» bietet aktuell die folgenden Möglichkeiten, um datenbasierte beziehungsweise statistische Vorhersagen zu ermöglichen, wobei für ein besseres Verständnis an dieser Stelle eine Unterscheidung zwischen Standardmöglichkeiten und Eigenentwicklungen vorgenommen wird, bevor im Weiteren einzelne Technologien und Methoden detailliert vorgestellt werden:

Standard

Smart Predict Prognoseszenarien: Dieser Begriff beschreibt gewissermassen cloudbasierte Programme sowie deren grafische Benutzeroberflächen, die vom Nutzer lediglich wenige Ein- oder Vorgaben verlangen, wie beispielsweise die Auswahl der relevanten Datengrundlage aus einem Ordnerverzeichnis der SAP Analytics Cloud. Nach der Nutzerbestätigung wird direkt die Generierung von Analysen und Vorhersagen gestartet. Statistische Berechnungen finden rein im Hintergrund statt. Ergebnisse werden schliesslich aufbereitet, ausgegeben und um Erklärungen ergänzt. Anwendbar sind Prognoseszenarien für die folgenden Aufgaben:

  • Zeitreihenanalyse: Modellierung und Vorhersage von Werten auf Basis von vergangenen Daten und zusätzlichen Einflussfaktoren. Dieser Vertreter aus dem Smart Predict Scope trägt massgeblich auch das sogenannte Predictive Planning, bei dem Planungsmodelle um Zeitreihenvorhersagen angereichert werden. Letztgenannte Prognosen helfen sodann bei weiterführenden Planungsaktivitäten.
  • Regression: Analyse und Prognose von quantitativen Zielvariablen wie beispielsweise von Geldbeträgen.
  • Klassifikation: Beschreibung und Vorhersage von kategorialen Daten wie etwa Risiko- oder Qualitätsklassen.

Prädiktive Erweiterungskomponenten: Lineare Regression, exponentielle Glättung und automatische Vorhersagen. Diese drei Verfahren werden im nächsten Blogbeitrag detailliert vorgestellt und sind verfügbar für SAC-Zeitreihengrafiken.

Eigenentwicklung per R-Visualisierung

R-Visualisierungen können auf zahlreichen Modellen beruhen, wobei Beschränkungen in Bezug auf die SAC primär durch das Ausgabeformat (Grafik) und durch die teils benötigte Laufzeit gegeben sind. Auch ausserhalb der SAC ist die Programmiersprache R sehr verbreitet, wenn es um die grafische Darstellung von Daten oder um deren statistische Auswertung geht. Daher wird die Programmiersprache R im weiteren Verlauf der Reihe näher beleuchtet.

Nach diesem ersten Überblick wird mit der bereits angekündigten Zeitreihenanalyse ein erster Vertreter der SAC-Standardmöglichkeiten in Form eines sogenannten Prognoseszenarios zusammen mit einem aktuellen Beispiel vorgestellt.

Zeitreihenanalyse – eine Einführung am Beispiel von COVID-19-Fallzahlen

Die präzise Vorhersage von zukünftigen Entwicklungen und Risiken ermöglicht es Unternehmen nicht nur frühzeitig zu handeln und Schäden zu vermeiden. Vielmehr kann durch den Einsatz von prädiktiven Verfahren auch ein Wettbewerbsvorteil erzielt werden. Daher wird in diesem Abschnitt am Beispiel der historischen Schweizer Fallzahlen des Coronavirus gezeigt, dass aus vergangenen Informationen unter Nutzung der statistischen Standardmöglichkeiten der SAP Analytics Cloud, datenbasierte Prognosen generiert werden können.

Grundlage unserer Vorhersagen ist dabei der Datensatz des Bundesamts für Gesundheit (BAG) mit echten Daten für den Zeitraum vom 24. Februar 2020 bis einschliesslich zum 21. Februar 2021. Ausgehend von einer Teilmenge dieser vergangenen Beobachtungen, die insgesamt als sogenannte Zeitreihe bezeichnet werden, wird die Zukunft vorhergesagt. Hierzu erkennt die SAP Analytics Cloud automatisch regelmässige Muster im Zeitverlauf. Diese wiederrum bestehen zentral aus den Komponenten von Trends, Zyklen und Einflussfaktoren. Ein Trend beschreibt die allgemeine Tendenz wie beispielsweise steigende, konstante oder aber fallende Infektionszahlen. Zyklen zeigen demgegenüber, welche sich wiederholenden Schwankungen vorhanden sind. So kann ein wöchentlicher Anstieg je zum Montag typisch für einen Zyklus sein. Schliesslich können in Form der Einflussfaktoren weitere Variablen berücksichtigt werden, die Einfluss auf die Zeitreihenentwicklung haben. Exemplarisch sei eine Spalte mit einem Wert für eine vorhandene Maskenpflicht (1 = Ja für den Zeitpunkt, 0 = Nein) genannt. Das Ergebnis wird schliesslich visuell aufbereitet:

Die Erkennung beziehungsweise Schätzung dieser Komponenten ist die Grundlage für eine datengetriebene Vorhersage, wie sie in der nachfolgenden Abbildung dargestellt wird. Diese basiert gerade auf den Parametern für die einzelnen Bestandteile (hier Trends und Zyklen). Auch hierbei nimmt die SAP Analytics Cloud den Nutzer bei der Hand und sagt, entsprechend seiner Auswahl, einen gewählten Zeitraum voraus. Die einzelnen vorhergesagten Tage werden auch als sogenannte Punktschätzer bezeichnet. Zusätzlich kann auf Basis der vergangenen Beobachtungen ein Korridor bestimmt werden, der, abhängig von der betrachteten Streuung der Daten, erwartungsgemäss zukünftige Werte enthalten sollte. Dieser Bereich – auch Konfidenzintervall genannt – wird durch das Fehlerminimum beziehungsweise -maximum angegeben. Zusätzlich lassen sich auch einzelne Ausreisser – also solche Ist-Werte erkennen, die ungewöhnlich stark abweichen.

Die Betrachtung der prognostizierten Einzelwerte in Kombination mit den Bändern des Schätzfehlers ermöglicht eine erste Evaluierung der Vorhersagen. Im vorliegenden Fall ist zusätzlich der MAPE (Mean Average Percentage Error) eine besonders wichtige Kennzahl. Sie beschreibt, wie gross die prozentuale Abweichung der Vorhersagen von den realen Werten im Durchschnitt ist. Wichtig ist beim MAPE, dass sich durch die Berechnung per Absolutwerte (eine positive Zahl bleibt positiv, eine negative Zahl wird positiv – z. B. -5 à 5 oder aber 3 à 3) positive und negative Fehler nicht gegenseitig aufheben. Demgegenüber könnte bei den in der Tabelle aufgeführten Abweichungen irrtümlich von insgesamt perfekten Prognosen ausgegangen werden, obwohl beide Punktschätzer prozentual je gleich weit vom realen Wert entfernt sind:

Zusätzlich erhält der Nutzer standardmässig erklärende Details zu seinem Prognoseszenario, die Zusammenhänge verbal beschreiben, wie zum Beispiel die Art des erkannten Trends.

Während im Hintergrund die Modelloptimierung verborgen stattfindet und gleichzeitig eine automatische Aufbereitung der Ergebnisse erfolgt, ist zu betonen, dass der Nutzer zuvor lediglich wenig Eingaben vornehmen muss. Dies wird auch anhand der Abbildung ersichtlich. Sie zeigt erforderliche Einstellungen, die der Generierung von Prognosen vorausgehen.

Mit geringem Aufwand kann also auch der Endnutzer dank der prädiktiven Möglichkeiten der SAP Analytics Cloud Prognosen generieren. Die statistische Arbeit übernimmt hierbei völlig die Standardlösung, sodass sich der Anwender zurücklehnen und auf das Ergebnis warten kann. Dieses wird ihm auch verbal erklärt.

Klassifikation versus Regression

Die Prognoseszenarien der SAP Analytics Cloud können neben der Zeitreihenanalyse auch für Aufgaben der Klassifikation oder der Regression eingesetzt werden. Hierbei geht es im ersten Fall um die kategoriale Beurteilung eines Zusammenhanges, während die Regression auf die Erklärung und Vorhersage von Zahlenwerten abzielt. Die prinzipielle Funktionsweise der grafischen Benutzeroberfläche beziehungsweise ihre Vorteile – gerade in Bezug auf die aufwandsarme Bedienung und die einfache Wartung – sind dabei sehr ähnlich zu dem beschriebenen Beispiel der Zeitreihenanalyse. Insbesondere sind wiederum nur wenige Eingaben des Benutzers nötig.

Konkret kann beispielsweise die Qualität von Produktionserzeugnissen, wie etwa von Wein, anhand von verschiedenen erklärenden Variablen, wie beispielsweise dem vorhandenen Restzucker, untersucht werden. Hierbei ist es möglich die Qualität entweder metrisch als Zahlenwert oder auch kategorial als Qualitätsklasse aufzufassen, beispielsweise in Form von Buchstaben. Das Ergebnis liefert wiederum umfangreiche Informationen über die zugrundeliegenden Zusammenhänge, wie auch in der Abbildung erkennbar.

Ausblick

Im nächsten Blogbeitrag werden anderweitig bereitgestellte Vorhersageverfahren der SAP Analytics Cloud behandelt, wie etwa die lineare Regression, die exponentielle Glättung oder die automatische Prognose. Weitere Beiträge zu der Programmiersprache R sowie zu HANA Machine Learning werden folgen.

Ich helfe Ihnen gerne weiter

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten? Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Jared Hirschner

Jared Hirschner

Senior Professional Consultant / Data Scientist

Lesen Sie die Blogbeiträge unserer Expert:innen