Data Warehouse – Was ist das?

 Data Warehouse – Was ist das? 

 

Dass verschiedene Daten und Informationen in Datenbanken erfasst und verwaltet werden, ist in vielen Bereichen üblich. So legen sich beispielsweise Privatnutzer Datenbanken an, um ihre Kontakte übersichtlich zu speichern oder um Dokumente aufzulisten. Auch Sammlungen werden gerne in Datenbanken katalogisiert.

Unternehmen nutzen ebenfalls Datenbanken, beispielsweise in Form von Kundendatenbanken oder zur Verwaltung der Lagerbestände. Daneben finden vor allem in größeren Unternehmen auch spezielle Datenbanksysteme Anwendung, die in erster Linie Analysezwecken dienen und strategische Entscheidungen erleichtern sollen. Sie werden neudeutsch als Data Warehouse bezeichnet. 

 

 

 

Data Warehouse – Was ist das?

 

Hinter dem Begriff Data Warehouse, was ins Deutsche übersetzt soviel bedeutet wie Datenlager, verbirgt sich eine zentrale Datenbank, die für Analysezwecke optimiert ist. Dabei werden für die Datenbank Daten und Informationen aus mehreren Quellen zusammengetragen, vereinheitlicht, geordnet, verdichtet und dauerhaft archiviert.

Die Datenbasis ist im Idealfall unternehmensweit ausgerichtet und deckt das Informationsbedürfnis der unterschiedlichen Anwendergruppen ab. Im Unterschied zu herkömmlichen Datenbanken ist bei einem Data Warehouse aber nur ein Lesezugriff möglich. Daten zu verändern, zu ergänzen oder zu löschen ist den einzelnen Nutzern nicht möglich. Damit ist ein Data Warehouse von den operativen Datenbanken und Anwendungen getrennt.

Dabei bringen die Trennung von den Vorsystemen, die die Daten liefern, und der Betrieb des Datenlagers auf einer eigenständigen Plattform zwei Vorteile mit sich. Der erste Vorteil besteht darin, dass die operativen Systeme entlastet werden. Der zweite Vorteil ist, dass das Data Warehouse so gezielt und gleichzeitig leichter auf die Anforderungen, die Analysen, Auswertungen und Berichte stellen, optimiert werden kann.   

 

 

 

Wodurch kennzeichnet sich ein Data Warehouse?

 

Grundsätzlich gibt es keine einheitliche Definition für ein Data Warehouse. Die verschiedenen Ansätze unterschieden sich allerdings weniger in der Grundidee oder im Basiskonzept, sondern vielmehr darin, wie umfangreich die Datensammlung angelegt sein soll und welcher Umgang mit den Daten vorgesehen ist.

Außerdem weichen die verschiedenen Definitionen im Hinblick auf den Zweck und die Ziele einer Data Warehouse-Lösung voneinander ab.

In Abgrenzung zu den Datenbanken, die in die operativen Systeme eingebunden sind, charakterisiert sich ein Data Warehouse jedoch durch die folgenden vier Merkmale:

1.       Themenorientierung:

Inhaltlich sind die Daten in einem Data Warehouse auf die Organisation ausgerichtet. Darin unterscheidet sich ein Data Warehouse von einem operativen Datenbanksystem, das sich üblicherweise auf bestimmte Anwendungen oder Abläufe konzentriert und so zu einer effizienten Abwicklung des Tagesgeschäftes beiträgt.

Die Daten, die ein solches Datenbanksystem verwaltet, sind jedoch kaum dazu geeignet, Analysen durchzuführen und strategische Entscheidungen zu unterstützen. Die Daten hingegen, die in ein Data Warehouse aufgenommen werden, werden anhand bestimmter Datenobjekte wie Kunden oder Produkte ausgewählt, die relevante Kennzahlen für Entscheidungsprozesse liefern.

Eine normale Datenbank erfasst somit Daten, die für operative Prozesse von Bedeutung sind, während ein Data Warehouse Daten zusammenträgt, die für analytische und strategische Prozesse Relevanz haben.  

 

2.       Vereinheitlichung:

Die Daten, die aus den verschiedenen Quellen in das Data Warehouse überführt werden, während im Zuge der Übertragung vereinheitlicht. Häufig erfolgt dies durch die Benennung, die Größe und die Kodierung der einzelnen Datensätze. Grundsätzlich sind aber viele verschiedene Formen der Vereinheitlichung möglich. Die Absicht dahinter ist, einen in sich stimmigen Datenbestand mit standardisierten Strukturen aufzubauen.

 

3.       Zeitorientierung:

Während operative Datenbanken Daten zur Verfügung stellen, die zum Zeitpunkt des Zugriffs aktuell sind, dokumentiert ein Data Warehouse langfristige Datenreihen. Die Daten im Data Warehouse sind somit zwar korrekt, aber nur mit Blick auf den Zeitpunkt des letzten Datenimports aktuell.

Die Aktualität der Daten spielt in einem Data Warehouse allerdings auch nur eine untergeordnete Rolle, denn im Vordergrund steht, Analysen über Entwicklungen zu ermöglichen. Aus diesem Grund müssen die Daten nicht permanent aktualisiert werden. Wichtiger ist stattdessen, dass der Datenbestand sicherstellt, dass Veränderungen über mittlere und längere Zeiträume hinweg ausgewertet werden können.

Aus diesem Grund wird jedem Datenwert auch ein Zeitbezug zugeordnet. Bei Bestandsgrößen ist dies meist die Angabe des Datums, bei Bewegungsgrößen die Angabe des Zeitraums.   

 

4.       Beständigkeit:

Die Daten in einem Data Warehouse werden dauerhaft gespeichert. Nur so ist sichergestellt, dass längerfristige Analysen möglich sind, die dann wiederum als Grundlage für strategische Entscheidungen dienen. Gleichzeitig bedeutet das aber auch, dass ein Data Warehouse gut durchdachte Komponenten erfordert, die das Datenmaterial sinnvoll speichern und trotz teils riesiger Datenmengen zeitnahe Abfragen ermöglichen.   

 

 

 

Welches Ziel verfolgt ein Data Warehouse?

 

Das Ziel eines Data Warehouse besteht darin, die unternehmensinterne Informationsversorgung zu verbessern und auf diese Art strategische Entscheidungen zu unterstützen. Außerdem liefert ein Data Warehouse die notwendigen Daten für Problemanalysen und Auswertungen.

Damit diese Kernziele erreicht werden können, müssen aber vier Voraussetzungen erfüllt sein:

 

·         Das Data Warehouse muss eine zentrale Datenbank sein, in der Daten aus verschiedenen Quellen und Bereichen zusammengetragen werden. Im Data Warehouse werden die Daten in bereinigter, verdichteter und vereinheitlichter Form gespeichert. Durch diese zentrale Datenhaltung ist sichergestellt, dass jedem Anwender exakt die gleiche Datenbasis zur Verfügung steht.

·         Das Data Warehouse als analytische und organisatorische Anwendung wird strikt von operativen Datenbanken getrennt. Als eigenständige Anwendung soll ein Data Warehouse die unternehmensinterne Informationsversorgung verbessern und die Daten für Analysen und strategische Entscheidungen liefern.

Deshalb werden an die Datensätze andere Anforderungen gestellt, beispielsweise was die Aktualität der Daten angeht. Gleichzeitig ist ein Data Warehouse dafür konzipiert und optimiert, sehr große Datenmengen zu erfassen und umfangreiche Abfragen zu ermöglichen. Durch die Trennung von den operativen Datenbanksystemen ist gewährleistet, dass deren Performance nicht beeinträchtigt wird.

·         Im Data Warehouse werden Daten aus verschiedenen Quellen zusammengetragen. Sogenannte ETL-Prozesse (Extraktions-, Transformations- und Ladeprozesse) sorgen dafür, dass die Daten in verdichteter und vereinheitlichter Form in die zentrale Datenbank überführt werden.

In operativen Datenbanksystemen werden die Datensätze ständig ergänzt, aktualisiert und ggf. gelöscht. Durch diese Änderungen bleibt der Datenbestand aktuell, gleichzeitig gehen aber einige Informationen verloren.

Im Data Warehouse werden alte Daten nicht überschrieben. Stattdessen werden die Datensätze dauerhaft gespeichert. Dies eröffnet die Möglichkeit, die Daten auf mittlere und längere Zeiträume bezogen auszuwerten, Entwicklungen nachzuvollziehen und Abläufe miteinander zu vergleichen. 

Mehr Anleitungen, Tipps und Ratgeber:

Thema: Data Warehouse – Was ist das?

Veröffentlicht von

Redaktion

Gerd Tauber, 42 Jahre, Programmierer, Samuel Wilders, 37 Jahre, IT- Experte und Markus Berthold 44 Jahre, Inhaber einer Medienagentur schreiben hier Wissenswertes zum Thema IT, Internet, Hardware, Programmierung, Software und IT-Jobs.

Kommentar verfassen