🏠 » Data Warehouse » Data Warehouse-Software » ETL-Software

ETL-Software - Überblick zu ETL Werkzeugen

Die Verwendung eines ETL Werkzeugs bzw. Tools unterstützt den Aufbau und die Weiterentwicklung eines Data Warehouse. Mit diesem werden Daten verknüpft und Verarbeitungsprozesse erstellt.

Nicht jede als ETL Tool bezeichnete Software, eignet sich für die Entwicklung von DWHs gleichermaßen. Um die Entwickler bei ihren Aufgaben und die Qualität sowie den Betrieb zu unterstützen, bedarf es wesentlicher Funktionen. Worauf es bei der Auswahl eines geeigneten ETL Werkzeuges ankommt,  wird in den folgenden Abschnitten beschrieben.

Bei der Auswahl eines ETL Werkzeuges müssen auch Soft- und Hardware Anforderungen berücksichtigt werden.Nicht jedes Tool eignet sich für alle Systeme. Entscheidend sind oft auch die für das DWH verwendeten Datenbanken.

Hier bietet es sich an, ein vom Datenbank Hersteller angebotenes ETL Werkzeug einzusetzen (z. B. Oracle und ODI, Microsoft SQL Server und SSIS), um die Datenverarbeitung optimal zu nutzen.

Anforderungen an ETL Tools im professionellen Umfeld

Eine der wichtigsten Komponenten ist die Oberfläche eines ETL Werkzeuges. Sie sollte übersichtlich sein, aber alle wichtigen Funktionen und Funktionsbausteine enthalten. Die Darstellung bzw. Visualisierung und Einbindung der Mappings und Prozesse sind wichtig, um die Entwicklung teilweise zu dokumentieren und Fehleranalysen durchzuführen.

Ebenfalls hilfreich sind Debugger und Monitoring-Komponenten. Dadurch können Fehler schneller entdeckt und Verarbeitungsprozesse überwacht werden.  Einige Hersteller bieten hierfür integrierte Module an, die während der Entwicklung genutzt werden können.

Es gibt auch, vom Zugriff auf die DWH Prozesse, unabhängige Monitoring Module, die ohne Öffnen des ETL Werkzeugs genutzt werden können. Auf Debugging Funktionen sollte nicht verzichtet werden. Die gängigsten ETL Werkzeuge (z. B. Pentaho , Talend, Microsoft SSIS) bieten hier die Möglichkeit, Datensätze einzeln zu prüfen.

Um Abbrüche durch Fehler während der produktiven Ladeläufe zu vermeiden, sind Mechanismen zur Aussteuerung, dem Logging und des Nachrichtenversands (z. B. E-Mail über Fehler) nicht konformer Datensätze (z. B. Verwendung eines String anstatt eines Datums) hilfreich.

Diese werden meist in separate Tabellen geschrieben und müssen manuell überprüft werden. Alle konformen Datensätze werden in das DWH geladen. Das funktioniert nur, wenn keine Abhängigkeiten zu fehlerhaften Datensätzen bestehen.

Wesentlich, bei der Auswahl eines ETL Tools, sind auch die Datenbank Konnektoren, bspw. für relationale, multidimensionale, objektorientierte und NoSQL Datenbanken. Da verschiedene Quellsysteme anzubinden sind, müssen diese vom Tool unterstützt werden. Zudem müssen unabhängige Prozesse parallel ausführbar sein. Bei großen Datenmengen sollte auch die Verteilung der Rechenoperationen auf verschiedene Prozessoren ermöglicht werden.

Weitere Funktionen zur Unterstützung von DWH Entwicklern

Ein zentraler Aspekt in der DWH Entwicklung ist die Historisierung von Daten. Hier haben sich im klassischen DWH Bereich die Prinzipien von Kimball durchgesetzt. In den ersten ETL Werkzeugen, die auf den Markt kamen, mussten Entwickler die Historisierung manuell über eine geschickte Verarbeitung der Daten (via Mapping Editor oder per Datenbankskript) selbst implementieren. Die bekanntesten Open Source und proprietären Hersteller bieten mittlerweile einen Funktionsbaustein, der ohne großen Aufwand in den Ablauf integriert wird.

Funktionen die zur Verbesserung der Datenqualität beitragen sind sinnvoll. Zwar können dadurch nur kleinere Fehler automatisch behoben werden, wie bspw. die Umwandlung eines Strings in ein Datum, dennoch verhindert dies Abbrüche in der Verarbeitung.

Da besonders bei wachsenden Datenmengen die Performance mit der Zeit zurückgeht, sollten Entwickler Verarbeitungsschritte auch manuell über SQL Skripte integrieren können. Dadurch lassen sich bestimmte Operationen auf der Datenbank ausführen und gegebenenfalls auch geschickter zusammenstellen.

Eine nette Funktion ist auch die automatische Generierung einer Dokumentation über die Strukturen und Beschreibungen in den Prozessen. Hier bieten bspw. Talend und IBM Datastage Funktionen an.

Verwendungszweck von ETL Tools

Der Verwendungszweck von ETL Tools sowie die vorhandene Systemlandschaft sind ausschlaggebend bei der Auswahl eines ETL Werkzeuges. Die Auswahl richtet sich nach dem Anwendungsfall und den spezifischen Prioritäten.

Hierfür müssen individuelle Kriterien erstellt und die am Markt verfügbaren Produkte evaluiert werden. Open Source und kommerzielle Produkte sind bzgl. der Kernkomponenten (grafischer Editor, Debugging, Prozesserstellung, Funktionsbausteine und Skript Integration) relativ gleichwertig, wobei im Open Source Bereich nicht alle Funktionen kostenfrei verfügbar sind. Im Gegenzug können eigene Module entwickelt und integriert werden.

Artikel im Bereich ETL Software

Weiterführende Artikel