🏠 » Data Warehouse » Data Warehouse-Software » ETL-Software » Talend ETL-Werkzeug

ETL-Werkzeug von Talend

Das ETL-Tool von Talend bietet eine sehr umfangreiche, flexible und benutzerfreundliche ETL Software, mit vielen Funktionen und Erweiterungsmöglichkeiten.

Es wurde von der Firma Talend entwickelt und 2006 als erstes kommerzielles Open Source Datenintegrationswerkzeug vorgestellt. Die Basisfunktionen des Datenmanagement und der Datenintegration basieren auf Open Source Software und sind in der Basisversion kostenfrei.

Darauf aufbauende Module, wie bspw. zur Datenanalyse, können ebenfalls kostenfrei genutzt werden. Zusätzliche Funktionalitäten und Support, sind kostenpflichtig.

Benutzeroberfläche zur Datenintegration von Talend ETL Open Studio

Talend besitzt eine sehr übersichtliche und klar strukturierte Oberfläche. Im Mittelpunkt der Entwicklungsumgebung befindet sich der Arbeitsbereich zur grafischen Erstellung der ETL Prozesse. Die Funktionsbausteine können per Drag-and-Drop platziert und miteinander verknüpft werden. Über einen Doppelklick erreicht man die Konfigurationsparameter zur Festlegung der Eigenschaften.

Die Mapper Bausteine von Talend enthalten die Spaltenzuordnungen der Quell- und Zieltabellen. Diese sind übersichtlich dargestellt, aktive Bestandteile werden markiert. Zusätzlich können Transformationen und weitere Informationen integriert werden.

Manuelles konfigurieren und deployen von ETL Projekten

Talend weist im Vergleich zu anderen gängigen ETL-Werkzeugen, wie den Oracle Data Integrator oder die Microsoft SQL Server Integration Services, eine Besonderheit auf. Das Studio wird lokal auf einem Benutzersystem installiert. Die entwickelten ETL Prozesse müssen über einen zusätzlichen Applikations-Server konfiguriert und deployed werden. Hierfür kann bspw. ein Tomcat Application Server eingesetzt werden.

Funktionen und Module in Talend Open Studio

Für die Entwicklung von ETL Prozessen stehen im Talend Open Studio über 900 Konnektoren und Bausteine bereit.

Quellsystemanbindung

Wie bei allen bekannten Datenintegrationswerkzeugen, bietet auch Talend Datenbank-Konnektoren  zu allen bekannten relationalen Datenbanksystemen. Auch analytische und Big Data Datenbanken werden unterstützt.

Transformation

Zur Gestaltung der Datentransformationsprozesse werden Standardbausteine bereitgestellt. Diese dienen dazu, Verknüpfungen zwischen verschiedenen Datenquellen und Informationen über sogenannte Join-Bausteine zu erstellen. Datenqualitätsbausteine unterstützen die Entwickler bei der Implementierung von Fehlerhandlings. Es könne bspw. Datensätze mit falschem Datentypen in einer Spalte automatisch transformiert und falls das nicht möglich ist, mit einem „Dummy“-Wert belegt werden.

Historisierung

Für die Unterstützung bei der Data Warehouse (DWH) Entwicklung, gibt es einen SCD (Slowly-Changing-Dimension) -Baustein, zur Generierung von Historisierungsinformationen nach Kimball. Der Baustein ersetzt die frühere manuelle Erstellung des standardisierten Historisierungsprozesses.

Jobs und Routen

In Talend gibt es eine Unterscheidung zwischen Jobs und Routen. Mit Hilfe von Jobs, werden die ETL Prozesse beschrieben, die Daten aus und in Datenbanktabellen bzw. Tabellenstrukturen schreiben. Durch die Verwendung von Routen, können die Daten in ein beliebiges Format transformiert werden.

Debugging

Ein integrierter Debugger ermöglicht es, Analysen auf Zeilenebene durchzuführen. Im Fehlerfall kann dadurch jeder Verarbeitungsschritt eines Datensatzes überprüft werden.

Einschätzung zu Talend Open Studio

Für den Einstieg in die ETL-Entwicklung ist Talend Open Studio sehr gut geeignet. Es ist übersichtlich und bringt viele Funktionen mit. Fehlende oder spezielle Module können aufgrund der Open Source Software selbstständig entwickelt werden. Funktionsbausteine zur Unterstützung der Datenqualität und Historisierung ermöglichen einen schnellen Einstieg in die DWH-Entwicklung.

Zusätzlich benötigte Systeme und nachträgliche Anpassungen an der Software stellen Hürden beim Einsatz von Talend Open Studio im Unternehmensumfeld dar. Es fehlen Funktionen zur automatischen Jobsteuerung sowie der Job- und Verarbeitungsüberwachung.

Um diese Funktionalitäten zu integrieren, müssen eigene Module programmiert werden. Es ist daher zu prüfen, ob die Freiheiten, die ein Open Source Werkzeug mit ich bringt, die zusätzlichen Aufwände aufwiegen.

Weiterführende Artikel