Data Storage – Klare Sicht im Data Lake

Data Storage – Klare Sicht im Data Lake

Unternehmen haben schon heute auf Unmengen von Daten Zugriff. Mit dem Internet of Things und seinen intelligenten und vernetzten Maschinen und Anlagen, Connected Cars und Smart Homes, intelligenten Kühlschränken, Heizungen und Waschmaschinen wird das Volumen noch einmal dramatisch zunehmen. Welche der verfügbaren Daten tatsächlich eingesammelt werden, sollten die Unternehmen davon abhängig machen, welche Use Cases sie damit umsetzen wollen. Denn ansonsten gehen sie schnell in der Datenflut unter.
Doch auch wenn schon vorm Einsammeln eine Auswahl getroffen wird, bleibt die Datenmenge gewaltig. Und die muss in jedem Fall gespeichert werden. Hinzu kommt: Unternehmen tun zwar gut daran, nicht alle Daten zu erfassen. Sie sollten aber auch nicht zu streng beim Filtern sein. Denn es ist durchaus denkbar, dass in ein paar Jahren neue Uses Cases möglich werden, für die historische Daten wichtig sind.

Der Data Lake als flexibles Storage-Konzept

Mit den bislang etablierten Storage-Konzepten ist es jedenfalls nicht mehr getan. Einfache Speicher-Lösungen sind zu unflexibel und außerdem teilweise zu wenig performant. Als Metapher für die Datenspeicherung der Zukunft macht seit einiger Zeit der Begriff Data Lake die Runde. Assoziiert wird damit ein Storage, in den Daten in ihrer ursprünglichen Form – also ohne irgendwie transformiert worden zu sein – fließen. Aus diesem so entstehenden riesigen Datensee pumpen dann die unterschiedlichen Anwendungen die Daten, die sie benötigen, um den jeweiligen Use Case zu realisieren.

Keine Frage, das Bild ist charmant und überzeugt durch seine Einfachheit. Ein Data Lake muss sich aber auch technologisch umsetzen lassen. Und das ist dann nicht mehr ganz so einfach. Das gilt aus unserer Sicht vor allem, weil die Lake-Metapher zwar nahelegt, es handele sich um eine einzelne große Storage-Instanz. Tatsächlich aber setzt sich der Datensee aus einer Vielzahl von Datenbanken und Anwendungen zusammen, die klug miteinander verzahnt werden müssen. Dabei gehen wir von einer Prämisse aus: Es ist sinnvoller, für die verschiedenen Arten von Daten eigene kleinere Data Lakes aufzubauen als einen großen Data Lake für alles. Die Daten aus dem CRM-System fließen also in einen Storage, die Daten von intelligenten und vernetzten Dingen im Feld in einen anderen. Je nach Anwendungsfall werden die Daten dann von einer übergeordneten Instanz zusammengeführt.

Die richtige Temperatur für den Storage

Die kleinen Data Lakes selbst setzen sich ebenfalls aus unterschiedlichen Technologien zusammen. Ausschlaggebend ist dabei, was mit den Daten passieren soll. Danach lassen sich Hot, Warm und Cold Storage unterscheiden.

Hot Storage

In den Hot Storage fließen Daten direkt von der Quelle aus, wenn sie für Echtzeitanwendungen benötigt werden. Das können zum Beispiel Maschinendaten sein, die unmittelbar ausgewertet werden, um die aktuelle Situation im Shopfloor darzustellen – der Hot Storage ist also die Basis für das Condition Monitoring. Da es bei den Anwendungen immer um den gegenwärtigen Moment geht, müssen die Daten zwar hochverfügbar sein, aber nicht lange im Hot Storage verbleiben. Sie können dann entweder ganz gelöscht oder an den Warm oder Cold Storage übergeben werden.
Die eingesetzte Technologie muss sicherstellen, dass große Datenmengen schnell verarbeitet werden können. Dafür braucht die Gesamtkapazität nicht allzu groß sein – weil Daten hier ja nicht dauerhaft verbleiben. Als Technologie eignet sich dafür die Datenbank SAP HANA – als On-Premise- oder Cloud-Lösung.

Warm Storage

Wenn bei der Auswertung bestimmte Zeitspannen in den Blick genommen werden sollen – etwa die Stillstände an einer Maschine innerhalb eines Monats –, wird dafür auf Daten zurückgegriffen, die im Warm Storage liegen. Sind die Analysen abgeschlossen, können auch hier die Daten gelöscht oder in den Cold Storage verschoben werden.

Die Verarbeitungsperformance der genutzten Technologie muss nicht so hoch sein wie beim Hot Storage. Dafür ist aber eine deutlich größere Kapazität erforderlich. Das leistet zum Beispiel der Object Storage Swift – eine Komponente von OpenStack.

Cold Storage

Im Cold Storage landen sämtliche Daten, die aktuell nicht oder nicht mehr verwendet werden, die aber in Zukunft eventuell noch wichtig sind – oder die aus rechtlichen Gründen gespeichert werden müssen.

Entsprechend irrelevant ist die Verarbeitungsperformance der Technologie. Sehr wichtig ist aber die Kapazität. Für den Einsatz kommen zum Beispiel die Datenbanken SAP Vora, Apache Cassandra oder Amazon Glacier infrage.

Integrationsplattform verbindet Data Lakes

Damit die Daten einen 360-Grad-Blick auf das Unternehmen – und darüber hinaus – ermöglichen, müssen die einzelnen Data Lakes miteinander verbunden werden. Daten zu den Maschinen und Anlagen im Shopfloor müssen sich also zum Beispiel mit Daten von den gefertigten Kühlschränken und Waschmaschinen und mit den Daten aus dem CRM-System kombinieren und dann ganzheitlich analysieren lassen. Dafür ist eine Integrationsplattform notwendig, die je nach Anwendungsfall die richtigen Daten in den einzelnen Lakes findet und dann alle Daten zusammenführt. Im SAP-Umfeld lässt sich eine solche Plattform zum Beispiel auf Basis von SAP Cloud for Analytics realisieren. Als Bestandteil des Digital Innovation Systems SAP Leonardo wird auch SAP Leonardo IoT Bridge eine übergreifende 360-Grad-Sicht auf verteilte Daten in einer vernetzten Welt ermöglichen.

– von Hans Rauwolf, Leitung Geschäftsfeld Industrie 4.0 / IoT, itelligence AG –
E-Mail: Hans.Rauwolf@itelligence.de

Ähnliche Beiträge

image blog digitale welt
Lesen Sie mehr
Lesen Sie mehr
Bild zuverlässige Absatzprognosen
Lesen Sie mehr
Blog Image Digitale Transformation
Lesen Sie mehr
Lesen Sie mehr
Lesen Sie mehr

Kontakt
Kontakt

Sie haben Fragen? Kontaktieren Sie uns gerne.