Was steckt hinter Data Warehouse?

Was steckt hinter dem Begriff Data Warehouse? 

Bei einem Data Warehouse handelt es sich um eine zentrale Datensammlung meist in Form einer Datenbank, die Daten aus unterschiedlichen Quellen beinhaltet. Die Daten werden dabei von den jeweiligen Datenquellen bereitgestellt, in das Data Warehouse geladen und hier langfristig hauptsächlich für die Datenanalyse und als betriebswirtschaftliche Entscheidungshilfen gespeichert.

Der Begriff selbst entstammt aus dem Informationsmanagement der Wirtschaftsinformatik und die Hauptaufgabe eines Data Warehouses besteht in der Integration von Informationen.

Dabei gibt es im Wesentlichen zwei Hauptaspekte, die bei der Erstellung eines Data Warehouses eine Rolle spielen. Zum einen sollen Daten, die auf unterschiedliche Datenbestände verteilt sind oder sich in verschieden strukturierten Datenbeständen befinden, in ein einheitliches System integriert werden. Zum anderen sollen die Daten in zwei große Gruppen eingeteilt werden.

In die eine Gruppe gehören solche Daten, die für das operative Geschäft verwendet werden, in die andere Gruppe solche Daten, die im Data Warehouse im Zusammenhang mit Aufgaben und Bereichen wie dem Berichtswesen, dem Controlling, der Geschäftsanalyse, der Unternehmensführung oder der Entscheidungsfindung genutzt werden.   

Wie kommen die Daten in das Data Warehouse?

Das Data Warehouse, das in der deutschen Literatur teilweise auch als Datenlager bezeichnet wird, ist der zentrale Bestandteil eines Data Warehouse Systems. Die Daten werden aus unterschiedlichen Quellen extrahiert, im Zuge einer Trabsformation bereinigt und in eine einheitliche Struktur gebracht und anschließend in das Data Warehouse geladen.

Dieser Prozess, der als ETL-Prozess bezeichnet wird, wird üblicherweise turnusmäßig durchgeführt. Dadurch befinden sich in einem Datenlager nicht nur Daten nach inhaltlichen, sondern auch nach zeitlichen Gesichtspunkten, was wiederum zeitliche Analysen ermöglicht.  

Was steckt hinter dem Begriff Data Warehouse konkret?

Grundsätzlich existiert für den Begriff Data Warehouse keine einheitliche Definition. Allerdings gibt es einige Merkmale und Eigenschaften, durch die sich ein Data Warehouse kennzeichnet. Hierzu gehört, dass die Inhalte eines Datenlagers aus kopierten und aufbereiteten Daten aus verschiedenen Quellen bestehen. Dazu werden die relevanten Daten aus den jeweiligen Datenbeständen zu einem gemeinsamen, einheitlichen Datenbestand zusammengeführt und ermöglichen so eine globale Sicht auf vormals verteilte und heterogene Datenbestände.

Meist bildet ein Data Warehouse außerdem die Grundlage für die Verdichtung und Zusammenfassung von betrieblichen Analysen und Kennzahlen im Rahmen von mehrdimensionalen Matrizen. Diese Methode wird als Online Analytical Processing, kurz OLAP, bezeichnet und gehört zusammen mit dem Data Mining, das seine Informationen ebenfalls aus dem Data Warehouse bezieht, zu den analytischen Informationssystemen.

Ein weiteres Merkmal besteht darin, dass die jeweiligen Anwendungen meist mit sogenannten Data-Marts arbeiten. Ein Data-Mart ist ein bestimmter Datenbestand innerhalb des Datenlagers oder eine Kopie eines Teilbereich des Data Warehouses, der speziell für eine Anwendung oder einen Organisationsbereich erstellt wird. Anstelle des direkten Zugriffs auf die Daten des Datenlagers wird somit mit Kopien gearbeitet, um beispielsweise die Leistung zu verbessern oder die Eigenständigkeit der Anwender zu erhöhen.

Die Unterschiede in den Definitionen eines Datenlagers ergeben sich durch unterschiedliche Ansichten im Zusammenhang mit dem Zweck eines Datenlagers, dem Umfang und dem Umgang mit den gespeicherten Daten.  

Wie wird ein Data Warehouse betrieben?

Der gesamte Prozess beim Betrieb eines Data Warehouses wird auch Data Warehousing genannt.

Dabei umfasst dieser Prozess:

·         die Beschaffung, Integration und Weiterverarbeitung von Daten im Rahmen des ETL-Prozesses,

·         die Verwaltung sowie die langfristige Speicherung und Archivierung der Daten im Data Warehouse,

·         die Datenhaltung und Versorgung von Data-Marts, also separaten Datenbeständen die für die jeweiligen Anwendungen benötigt werden, sowie

·         die Auswertung und Analyse der gespeicherten Daten.

Während der ETL-Prozess früher nahezu ausschließlich turnusmäßig durchgeführt wurde, zeichnet sich in den letzten Jahren zunehmend das sogenannte Real-Time-Data-Warehousing ab. Dies begründet sich darin, dass in einigen Branchen wie beispielsweise dem Einzelhandel oder der Telekommunikationsbranche der Bedarf nach sofort verfügbaren Daten besteht, wobei die Trennung zwischen operativen und auswertenden Systemen bestehen bleiben muss.

Das Real-Time-Data-Warehousing bildet die Grundlage für das aktive Data Warehouse, kurz ADW. Beim ADW erfolgt einerseits eine ereignis- und zeitgesteuerte Übermittlung der Analyseergebnisse an interessierte Empfänger, andererseits können operative Prozesse direkt gesteuert werden.

Neben dem Beladen mit zeitnahen Daten werden die Ergebnisse im ADW aber unmittelbar auch in die operativen Systeme zurückgespielt, wodurch die Ergebnisse der Datenanalysen auch die operativen Systeme beeinflussen. Diese Vorgehensweise wird als Closed Loop bezeichnet.    

Für welche Anwendungen wird ein Data Warehouse genutzt?

Es gibt eine Vielzahl möglicher Anwendungen, für die ein Data Warehouse genutzt werden kann.

Hierzu gehören beispielsweise die folgenden:

·         Daten aus verteilten und unterschiedlich strukturierten Daten werden in eine Zieldatenbank integriert. Dadurch ergeben sich eine globale Sicht auf die Quelldaten und die Möglichkeit zu übergreifenden Auswertungen.

·         Verborgene Zusammenhänge können im Rahmen von Data Mining und OLAP ermittelt werden.

·         Berichte, Kennzahlen, Analysen und Statistiken können schnell und flexibel verfügbar gemacht werden, beispielsweise wenn es darum geht, Zusammenhänge zwischen der Nachfrage, der Marktsituation und dem Leistungsangebot zu untersuchen.

Umfassende Informationen über Geschäftsprozesse, Aktivitäten und Maßnahmen werden bereitgestellt und beispielsweise Ressourcen, Kosten oder zeitliche Abläufe transparent gemacht. Zudem sind Informationen und Angaben abrufbar, die benötigt werden, um beispielsweise Kataloge, Produktbeschreibungen oder Angebote zu erstellen.

Weiterführende IT-Berichte, Computerthemen und Tipps:

Thema: Was steckt hinter dem Begriff Data Warehouse? 

Kommentar verfassen