Pentaho ETL-Tool
Die BI-Plattform Pentaho wird von dem gleichnamigen Unternehmen Pentaho seit 2004 entwickelt und gehört seit 2015 zur Hitachi Group Company. Basisfunktionen für die Business Intelligence Entwicklung werden als Open-Source zur Verfügung gestellt.
Die verschiedenen Werkzeuge von Pentaho setzen sich aus mehreren Open-Source Projekten zusammen. Die ETL Komponente Pentaho Data Integration entstand aus dem Projekt Kettle. Das Reporting setzte auf JFreeReport auf und die OLAP Funktionen kommen aus dem Mondrian Projekt.Nachfolgend wird auf Pentaho Data Integration eingegangen. Mit dieser Komponente steht DWH Entwicklern eine solide und umfangreiche Open-Source-Software zum Aufbau von ETL-Strecken zur Verfügung. Der grafische Drag-and-Drop Ansatz ermöglicht eine intuitive und schnelle Entwicklung der Verarbeitungsprozesse.
Benutzeroberfläche und Funktionen zur Datenintegration
Der grafisch Aufbau der Oberfläche und die Unterteilung der Arbeitsfläche in mehrere Bereiche ermöglicht eine schnelle Entwicklung der Datenverarbeitungsprozesse.
Die Kernstücke eines DWHs, also die Mappings und Prozessflüsse, werden über Funktionsbausteine und Module erstellt. Die Erstellung findet im zentralen grafischen Arbeitsbereich statt. In diesem werden die Quell- und Zieltabellen ausgewählt und alle notwendigen Transformationsschritte, wie Konvertierungen oder JOINs, über Bausteine miteinander verknüpft.
Quellsystemanbindung
Penthao kann alle gängigen, aber auch exotische, Quellsysteme anbinden. Dazu zählen bspw. Excel, Oracle DB, Microsoft SQL Server und MongoDB.
Transformation
Das Tool bietet Standardfunktionen zur Verknüpfung verschiedener Datenquellen und Informationen über sogenannte JOIN-Bausteine. Mit einfachen Datenqualitätsfunktionen können Daten automatisiert transformiert werden, um einen Abbruch oder eine manuelle Nachbearbeitung über die Aussteuerung zu vermeiden. Ein Anwendungsfall ist z. B. die Umwandlung eines Strings in ein Zahlenformat oder in ein Datum.
Historisierung
Sehr nützlich ist auch der SCD (Slowly-Changing-Dimension) -Baustein, der eine manuelle Erstellung des standardisierten Historisierungsprozesses vermeidet. Die Quelldaten und die Zieltabelle werden an den Ein- bzw. Ausgang des SCD-Bausteins angebunden, den Rest übernimmt die interne Logik.
Workflows
Durch die Erstellung von Workflows ist es möglich die erstellten Mappings in einer Reihenfolge zu ordnen und nacheinander ausführen zu lassen.
Debugging
Mit dem integrierten Debugger können die verarbeiteten Daten auf Satzebene analysiert und ausgewertet werden. Auch die Aussteuerung von nicht bearbeitbaren oder auffälligen Daten im laufenden Betrieb ist möglich.
Einschätzung zu Pentaho
Die Installation und Konfiguration ist einfach. Pentaho bringt für DWH Entwickler, abhängig von der Lizenzierung, viele nützliche Funktionsbausteine mit, die eine aufwendige Eigenprogrammierung ersparen, bspw. die Historisierung von Daten entsprechend des SCD-Ansatzes nach Kimball. Monitoring und Debugging Funktionen unterstützen die Entwicklung und sind bei der Fehleranalyse sehr hilfreich.
Bei der kommerziellen Verwendung von Pentaho, also innerhalb eines Unternehmens, ist von der kostenlosen Version abzuraten. Neben einem fehlenden Support, können u. a. Funktionen für die Backups, das Monitoring und die Prozesssteuerung nicht genutzt werden. Diese sind in einem Unternehmensumfeld sehr wichtig, um die tägliche Datenbereitstellung sicherzustellen.
Der Aufbau der Benutzeroberfläche wirkt überladen, da sehr viele Funktionen, Konnektoren und Module in der linken Navigation aufgelistet werden. Je nach Anwendungszweck benötigt man nur einen sehr kleinen Teil dieser Objekte und muss diese erst suchen.
Für Neueinsteiger und Interessierte ist die kostenlose Version von Pentaho ein gutes Werkzeug, um Erfahrungen in der DWH Entwicklung zu sammeln. Im Unternehmensumfeld ist eine der kommerziellen Varianten zu empfehlen.