Data Crunching
Der Fachbegriff Data Crunching bedeutet Datenverarbeitung. Es handelt sich dabei um eine informationstechnische Methode, welche dazu verwendet wird, eine große Menge an Daten und Informationen automatisiert zu verarbeiten.
Dabei handelt es sich vor allem um Datenmengen aus dem Big Data-Bereich. Anhand des Daten Crunchings lässt sich diese automatisierte Verarbeitung vorbereiten und durchführen.
Beim Data Crunching werden die Daten entsprechend des Verwendungszwecks aufbereitet, anschließend strukturiert und in den meisten Fällen sortiert. Durch diese Aufbereitung der Daten können anschließend Algorithmen auf das Datenkonstrukt angewendet werden, sodass es nach bestimmten Gesichtspunkten ausgewertet werden kann.
Data Crunching - Aufbau und Funktionsweise
Das Data Crunching umfasst ausschließlich die Punkte, die vor der eigentlichen Analyse der Daten passieren. In manchen Fällen kann es passieren, dass sich Schritte des Data Crunchings wiederholen. Das passiert so lange, bis die Daten die gewünschte Form angenommen haben.
In den meisten Fällen erfolgt als erster Schritt die Aufbereitung der Daten. Diese beinhaltet oft auch die Strukturierung der Daten. In diesem Schritt werden Machine Learning-Algorithmen auf den Daten angewendet. Je nach Anwendungsbereich werden die Daten nun vorbereitet. Dazu gehört beispielsweise die Auslese, welche Daten für die Auswertung wichtig sind. Irrelevante Daten werden an dieser Stelle verworfen, um das Datenvolumen auf das Nötigste zu reduzieren. Die Daten werden außerdem gruppiert und eventuell in ein anderes Datenformat gebracht.
Als letzter Schritt vor der eigentlichen Datenanalyse werden die Daten sortiert. Dies hat den Vorteil, dass viele Analysealgorithmen eine kürzere Laufzeit besitzen, wenn ihre Eingabe bereits sortiert ist. Die kann bei der Laufzeit der Algorithmen einen sehr großen Unterschied machen, da eine große Menge an Daten eingelesen wird. Die Analyse und Auswertung der Daten, welche anschließend folgt, ist nicht mehr Teil des Data Crunchings.
Data Crunching - Einsatz in der Praxis
Data Crunching
findet in vielen Bereichen seine Anwendung. Zwei sehr häufige Szenarien, in denen Data Crunching eingesetzt wird, sind das Korrigieren von Fehlern in einer bestimmten Menge an Daten und die Extraktion von Rohdaten, welche später verarbeitet werden sollen.
Für die Fehlerkorrektur werden die fehlerhaften Daten eingelesen und die Daten werden dann in das passende Format transformiert. Je nach Anwendungsfall werden die Daten abschließend sortiert. Werden beispielsweise Rechtschreibfehler in einem Text gesucht, werden alle fehlerfreien Wörter aus dem Text entfernt. Die übrig gebliebenen fehlerhaften Wörter werden nun nach ihren Fehlern sortiert, sodass Wörter, welche denselben Fehler beinhalten, aufeinanderfolgen. Diese Daten können anschließend von einem Algorithmus viel effizienter verarbeitet werden, als wenn er einen unsortierten Text als Eingabe enthält.
Data Crunching - Definition & Erklärung - Zusammenfassung
Im Zusammenhang mit dem Lexikoneintrag Data Crunching sollte man sich folgende Punkte merken:
- Der Fachbegriff Data Crunching bedeutet Datenverarbeitung.
- Beim Data Crunching werden die Daten entsprechend des Verwendungszwecks aufbereitet, anschließend strukturiert und in den meisten Fällen sortiert.
- Das Data Crunching umfasst ausschließlich die Punkte, die vor der eigentlichen Analyse der Daten passieren.