Data Catalog
Ein Data Catalog, welches auch als Data Dictionary oder im Deutschen als Datenkatalog oder Datenwörterbuch bezeichnet, ist ein aus Metadaten bestehendes Datenverzeichnis.
Im Data Catalog sind Informationen über die Namen von Tabellen, deren Attribute, Datentypen, Wertebereiche und Indizes enthalten. Diese Metadaten im Data Catalog beziehen sich auf eine oder mehrere Datenbanken. Wenn der Datenkatalog an eine entsprechende Datenbanksoftware gebunden ist, wird auch von einem Systemkatalog gesprochen.
Im Rahmen von Datenbanken und DWHs (Data Warehouse) sind im Data Catalog Informationen zu vielen verschiedenen Datenbanken gespeichert. Er dient als Quellverzeichnis der zur Verfügung stehenden Datenquellen.
Das Data Warehouse dient dann wiederum als Grundlage für Anwendungen der BI-Systeme (Business Intelligence). Mittels der vom Data Warehouse für die Analyse aufbereiteten Daten, die durch die Informationen im Data Catalog zur Verfügung stehen, kann das BI-System operative und strategische Entscheidungen im Unternehmensbereich abbilden.
Anforderung an einen Data Catalog
Ein Data Catalog muss in der Lage sein die Meta-Daten mehrerer Datenbanken zu verwalten. Dazu müssen die Namen und Ablageorte der Datenbanken, teilweise auch Zugangsdaten zu diesen, gespeichert sein. Zu jeder Tabelle in den einzelnen Datenbanken sind die Feldinformationen notwendig. Feldnamen, Indizes, Attribute und Ähnliches, werden im Data Catalog abgelegt.
Bestehen Verbindungen zwischen den Daten unterschiedlicher Tabellen oder sogar Datenbanken, müssen auch diese Informationen als Meta-Daten im Data Catalog gespeichert werden. Alle diese Informationen stellt der Data Catalog dem Data Warehouse zur Verfügung. Da es im Datenkatalog schnell unübersichtlich werden kann, muss er über eine geordnete Oberfläche verfügen, die einen administrativen Überblick und ggf. Eingriff leicht ermöglicht.
Zudem muss der Data Catalog in einer Weise aufgebaut sein, die einen schnellen Zugriff auf die in ihm enthaltenen Daten ermöglicht.
Beispiel eines Data Catalogs
Ein anschauliches Beispiel für eine Data Catalog bietet eine Geodaten-Anwendung. Die Geodaten befinden sich verstreut in unterschiedlichen Datenbanken. Der Data Catalog einer speziellen Geodaten-Anwendung enthält Meta-Daten mit den Informationen zu den verschiedenen Geo-Datenbanken. Deren Tabellenfelder, Attribute, Indizes und Datentypen sind ebenso enthalten, wie die Verbindungen der Daten in den Tabellen untereinander und auch die Verbindungen der Daten unterschiedlichster Datenbanken.
Geodaten finden sich vor allem bei Ämtern für Landwirtschaft, Umwelt, Raumentwicklung, Energie oder Verkehr. Da unterschiedliche Geo-Daten miteinander in Verbindung stehen können, ist die Auswertung dieser Daten und Verbindungen nur möglich, wenn der entsprechende Data Catalog alle erforderlichen Meta-Daten vorhält. Die Geodaten-Anwendung bildet dann zum Beispiel eine geographische Karte ab, die in Bezug zu Bevölkerungszahlen, Geburtenraten, Geschlechtsmerkmalen oder auftretenden Krankheiten und Umweltproblemen steht.
Im Rahmen eines BI-Systems kann dann aus den dargestellten Daten eine Entscheidungsgrundlage ermittelt und angeboten werden. Gerade im Bezug auf Umwelteinflüsse und auftretende Krankheiten ist eine solche Betrachtung sinnvoll und nützlich.
Data Catalog - Definition & Erklärung - Zusammenfassung
Im Zusammenhang mit dem Lexikoneintrag Data Catalog sollte man sich folgende Punkte merken:
- Ein Data Catalog ist ein aus Metadaten bestehendes Datenverzeichnis.
- Ein Data Catalog muss in der Lage sein die Meta-Daten mehrerer Datenbanken zu verwalten.
- Zudem muss der Data Catalog in einer Weise aufgebaut sein, die einen schnellen Zugriff auf die in ihm enthaltenen Daten ermöglicht.