Big Data – ein Überblick

Big Data – ein Überblick

 

Egal ob eine E-Mail abgerufen, ein Begriff in eine Internetsuchmaschine eingegeben, ein Online-Shop besucht, ein Telefonat geführt oder bei einem Einkauf die Kundenkarte eingesetzt wird: Ständig werden Daten produziert. Diese Daten können ausgewertet, zugeordnet und gespeichert werden.

So ist es möglich, die Gegenwart zu erfassen und gleichzeitig Prognosen für die Zukunft zu treffen. Das Schlüsselwort in diesem Zusammenhang heißt Big Data.

Aber was bedeutet Big Data genau? Hier dazu ein Überblick:

 

Big Data ist die Datenbank der Daten.

Die fortschreitende Digitalisierung hat natürlich ihre Vorteile. So würden heute sicher die wenigsten darauf verzichten wollen, im Internet zu surfen, unterwegs zu telefonieren oder sich vom Navigationsgerät zuverlässig an ihren Zielort führen zu lassen. Auch die Möglichkeit, verschiedenste Geräte im Haus mittels Smartphone, Fernbedienung oder zentralem Monitor zu steuern, ist bequem und praktisch.

Die Kehrseite der Digitalisierung ist aber, dass ständig Unmengen von Daten produziert werden. Das Zusammenführen und Auswerten von enormen Datenmengen aus unterschiedlichsten Quellen wird als Big Data bezeichnet. Dabei lässt sich die Idee hinter Big Data mit einem riesengroßen Datenmeer vergleichen: Jede Handlung führt dazu, dass Daten entstehen. Diese Datenspuren sind zunächst kleine, einzelne Tropfen, die zusammenfließen und so das riesige Datenmeer ergeben.

Internetkonzerne analysieren schon jetzt die Daten von Nutzern und erstellen daraus Nutzerprofile. Dafür werden die Daten mittels Algorithmen ausgewertet, gefiltert und nach bestimmten Faktoren sortiert. Durch die anschließende Vermarktung der Profile wird es möglich, gezielte Kaufempfehlungen anzuzeigen oder personalisierte Werbung zu schalten. Genauso können die Informationen verwertet werden, um neue Angebote und Dienstleistungen zu entwickeln.

Dabei sind die Datenmengen tatsächlich riesig. Experten schätzen, dass aktuell innerhalb von zehn Minuten ein fünf Milliarden Gigabyte großer Datenberg produziert wird. Weltweit verdoppelt sich das Datenvolumen alle zwei Jahre. In naher Zukunft werden aber vermutlich noch schneller noch mehr Daten produziert werden. Der Grund hierfür ist der nächste Schritt der Digitalisierung, das sogenannte Internet der Dinge.

Als Internet der Dinge wird die Vernetzung von verschiedensten Alltagsgegenständen bezeichnet, angefangen bei der Kaffeemaschine und dem Kühlschrank über die Steuerung der Jalousien und der Beleuchtung bis hin zur intelligenten Brille. Schätzungen gehen davon aus, dass bis zum Jahr 2020 50 Milliarden Geräte und Gegenstände am Internet der Dinge teilnehmen werden.

Viele von ihnen werden Daten erfassen, die Rückschlüsse auf die persönlichen Nutzungsgewohnheiten zulassen. Hinzu kommen Geräte mit GPS, die Standortdaten liefern und so Bewegungsprofile ermöglichen. Kombiniert mit den sogenannten Location-based-Services, liegen alle Informationen vor, die für Verhaltens- und Konsumprofile benötigt werden. Die Idee, dass in fast alle Lebensbereiche smarte Lösungen, also Geräte und Gegenstände, die mit Informationstechnik ausgestattet, multifunktional und kommunikationsfähig sind, einziehen, klingt nach Zukunftsmusik. In der Tat ist diese Entwicklung noch jung und noch wird viel experimentiert.

Weit weg ist sie trotzdem nicht. Schon jetzt verfügt jeder durchschnittlich über zwei internetfähige Geräte, so zum Beispiel über einen Computer und ein Smartphone, einen Tablet-PC, eine Spielekonsole oder einen smarten Fernseher.

 

Das Erheben und Speichern der Daten ist nicht das eigentliche Problem.

Es war noch nie so einfach, Daten über Interessen, Vorlieben, Hobbys, Aufenthaltsorte oder Verhaltensmuster eines Nutzers zu sammeln wie heute. Das Sammeln, Auswerten und Zusammenführen dieser Daten hat auch durchaus gute Seiten. So können die Daten unter anderem dabei helfen, Prozesse nachzuvollziehen, Gefahren zu erkennen, Abläufe zu optimieren, neue Produkte zu entwickeln oder Frühwarnsysteme zu erstellen.

Aber:

Je mehr Daten erfasst werden, umso eher können diese Informationen missbräuchlich genutzt werden. Dies gilt vor allem dann, wenn der Nutzer nicht weiß, welche seiner Daten überhaupt erfasst, ausgewertet und gespeichert werden. Dadurch kann er die Informationen weder kontrollieren noch sonst irgendwie Einfluss auf die Profile nehmen, die über ihn erstellt werden.

Genau hier liegt einer der großen Knackpunkte von Big Data. So sind die technischen Möglichkeiten mittlerweile soweit fortgeschritten, dass die enormen Datenmengen verknüpft, ausgewertet und sichtbar gemacht werden können. Auch Zusammenhänge, die eher im Hintergrund ablaufen, können aufgezeigt werden. Dabei dauert es gerade einmal eine halbe Stunde, um ein Petabyte Daten zu sortieren.

Die Datenmenge von einem Petabyte entspricht Videofilmen in HD-Qualität mit einer Laufzeit von 13 Jahren. Um diese Datenmenge in der kurzen Zeit zu bewältigen, werden die Daten auf ein System aus 8.000 Servern aufgeteilt. Die Daten werden sortiert, zu Profilen wie Kommunikations-, Konsum-, Verhaltens- oder Bewegungsprofilen zusammengefasst und mit weiteren Daten ergänzt. Dadurch können nicht nur aktuelle Verhaltensmuster abgelesen, sondern auch Vorhersagen für die Zukunft abgeleitet werden.

So ist es beispielsweise möglich, zu prognostizieren, wann sich ein Nutzer wo aufhalten und was er dort tun wird. Das Problem an der Sache ist, dass dafür noch nicht einmal personenbezogene Daten notwendig sind. Selbst wenn nur anonymisierte Informationen vorliegen, können die Daten aus verschiedenen Quellen so zusammengeführt und abgeglichen werden, dass die Zuordnung zu einer konkreten Person problemlos möglich wird.

Hierfür genügen schon wenige Angaben wie etwa das Geschlecht, das Alter, die Postleitzahl, eine Suchanfrage zu einem Arzt oder die Auswertung eines Einkaufs.

Mehr Berichte, Anleitungen und Tipps:

Thema: Big Data – ein Überblick

Kommentar verfassen