Data Lake
Ein Data Lake ist eine Methode zur Speicherung von Daten. Die Speicherung erfolgt in einem eigenen System oder einem Repository. Die Daten werden zunächst in ihrem Rohformat gespeichert.
Die Rohdaten in einem Data Lake werden erst in ein anderes Format umgewandelt, wenn sie verwendet werden. Diese Vorgehensweise wird Schema-on-Read genannt. Dadurch bietet er beispielsweise einen sehr guten Ausgangspunkt für Big-Data-Analysen.
Durch die Art, wie die Daten gespeichert werden, ist die Speicherung der Daten, im Vergleich zum Data Warehouse, kostengünstiger. Außerdem fungiert der Data Lake aufgrund seines Aufbaus auch als Data-Management-Plattform.
Durch die Vielfältigkeit der vielen unterschiedlichen Daten können Zusammenhänge zwischen den Daten schnell erkannt und genutzt werden.
Data Lake - Aufbau und Funktionsweise
Ein Data Lake speichert die Daten in einer flachen und unbearbeiteten Struktur. Dadurch kann nahezu eine beliebige Menge von Daten in dem Data Lake gespeichert werden. Die Daten werden erst in ein anderes Format umgewandelt, wenn der Bedarf besteht. Aufgrund der flachen Struktur können so neue Zusammenhänge der verschiedenen Daten zueinander erschlossen werden.
Der Nutzer eines Data Lakes hat über ein User-Interface die Möglichkeit, die Daten einzusehen und auszuwerten. Dafür stehen verschiedene Tools zur Verfügung.
Vorteile eines Data Lakes
Data Lakes können Wettbewerbsvorteile schaffen
Durch die genaue Analyse aller Verkaufstransaktionen, verbunden mit Logdateien, Kundenmeinungen usw., kann die Preis- und Angebotspolitik entscheidend verbessert werden.
Data Lakes sind schnell
Beim Konzept des Data Lakes werden zunächst alle Daten verfügbar gemacht, meist in ihrer Originalform. Erst beim Zugriff auf die Daten werden diese mundgerecht aufbereitet, je nachdem welcher Zugriff erfolgt.
Breites Nutzerspektrum bei vordefinierten Analysen
Durch die vorherige Definition ist es auch Laien ohne weiteres möglich Analysedaten aus dem Data Lake zu ziehen.
Data Lake Nachteile
Voraussetzungen müssen gegeben sein
Für den Einsatz des Data Lakes müssen gewisse Bedingungen im Vorfeld bei der Einrichtung bedacht, bzw. umgesetzt werden. So benötigen die gespeicherten Dokumente zwingend sprechende Metadaten. Nach diesen Metadaten kann später gesucht werden.
Die Anforderungen an die Nutzer steigen
Komplett freie Analysen sollten immer von entsprechenden Experten
durchgeführt werden, da diese die Struktur und die Zusammenhänge der Rohdaten kennen.
Vordefinierte Analysen jedoch lassen sich leicht einem breiten Nutzerspektrum zuweisen.
Erhöhte Sicherheitsanforderungen
Je mehr Daten gespeichert sind und je besser die Zusammenhänge der Daten untereinander bestehen, desto besser müssen diese Daten geschützt sein. Das Sicherheitskonzept des "Data Lake" muss gut durchdacht sein. Nicht alle Nutzer sollten überdies dieselben Zugriffsrechte haben.
Data Lake Beispiel aus der Praxis
In der Praxis werden oft Data Lakes auf Basis der Hadoop Frameworks verwendet. Hier werden die gesammelten Daten in einem Hadoop Distributed File System gespeichert. Die Hauptanwendungsgebiete eines Data Lakes sind Big-Data-Analysen und allgemeine Analytics-Anwendungen.
Für die Verwendung von Data Lakes ist als Beispiel Amazon zu nennen. Amazon verwendet Data Lakes in Kombination mit Data Warehouses zum Sammeln und Aufbereiten von Daten.
Mithilfe von Data Lakes kann beispielsweise das Kundenverhalten besser vorhergesagt werden, da der Zusammenhang zwischen dem Ansehen und dem Kaufen der angesehenen Produkte und dem Kauf anderer oder ähnlicher Produkte viel schneller ersichtlich ist.
Dadurch können dem Kunden besser passendere Artikel angeboten werden und Amazon weiß, welche Produkte in den Mittelpunkt gestellt werden sollten, sodass sie eher von Kunden gekauft werden.
Data Lake - Definition & Erklärung - Zusammenfassung
Im Zusammenhang mit dem Lexikoneintrag Data Lake sollte man sich folgende Punkte merken:
- Ein Data Lake ist eine Methode zur Speicherung von Daten.
- Ein Data Lake speichert die Daten in einer flachen und unbearbeiteten Struktur.
- Der Nutzer eines Data Lakes hat über ein User-Interface die Möglichkeit, die Daten einzusehen und auszuwerten.