Die Masse der uns umgebenden Daten erhöht sich ständig, Informationen werden immer schneller generiert: es entsteht einen Datenflut. Mehr Volumen, mehr Quellen, mehr unstrukturierte Rohdaten – wie können wir im Umgang mit Big Data den Herausforderungen begegnen? Auf dem eigenen PC sind auch doppelte Informationen gespeichert: die Prüfung nach Duplikatte und Dubletten ist angesagt. Wie sollen wir sonst die Informationen schnell finden?
Milliarden von Menschen stellen Daten ins Internet und kommunizieren über soziale Netze, Messaging-Dienste, E-Mail, Blogs und weitere Kanäle. Das Datenwachstum ist ungebremst – es gibt kaum noch Lebensbereiche, in denen IT keine Rolle spielt.
Dieser Trend gilt nicht nur für das Internet: Firmen und Verwaltungen digitalisieren Prozesse und erzeugen so mehr und mehr Daten. In einigen Branchen ist es bereits seit langer Zeit üblich, große Datenmengen zu verarbeiten.
Es entstehen immer neue Quellen, die einbezogen werden müssen. Klassische Konzepte auf Basis relationaler Datenbanken sind daher nicht mehr ausreichend. Es werden neue Technologien gebraucht, die eine viel größere Menge Daten in kürzerer Zeit und auf eine andere Art verarbeiten können.
Gegen Datenflut gehört hierzu primär die Möglichkeit, strukturierte und unstrukturierte Daten auszuwerten und miteinander zu verbinden. Zusätzlich ist es nicht vorhersehbar, welche Daten dabei entstehen und noch entstehen werden. Das bedeutet, dass neuartige Informationen in unstrukturierten Formaten verarbeitet werden müssen.
Die Analyse der Daten und die Aufbereitung der Informationen zu aussagekräftigen Reports erfordern besondere Expertise an der Schnittstelle zwischen IT und Business.
Quellen: IBM IBV Report-Analytics: The real-world use of big data (2012)
© Datareport 1/2013
Die Konsequenzen des Datenfluts sind mittlerweile bei Privatpersonen, Unternehmen und Institution bekannt.
Die Technik zur Verarbeitung von Daten, Informationen und Wissen wird immer komplexer, teurer, langsamer und auch fehleranfälliger. Das schlägt sich auch in den Strategiekonzepten der Speichersysteme der Hersteller nieder, die oft auch Anbieter von Backup- und Archivlösungen sind.
Aus dieser Entwicklung sind glänzende Geschäfte zu generieren. Die Kosten für die Speicherung von Datenmüll werden kontinuierlich zunehmen und sind darüber hinaus nachhaltig. Softwaremethoden zur Datenkomprimierung und gezielte Deduplikation gewinnen mehr und mehr an Gewicht – ein Indiz, dass das Datenwachstum schneller als die technologische Weiterentwicklung der Speichersysteme voranschreitet.
Datenmüll-Management befasst sich grundsätzlich mit nicht mehr benötigten oder redundanten aber dennoch gespeicherten Daten. Die Daten sind also für Privatpersonen, Unternehmen und Institutionen (wirtschaftlich) nutzlos geworden. Für viele Unternehmen und Institutionen ist der Datenmüll, die Menge überflüssiger Informationen, ein Problem.
Obwohl die Speicherkosten extrem gesunken sind , steigen jedoch die Ausgaben für Speicherkapazitäten in den IT-Budgets der Unternehmen in den letzten Jahren kontinuierlich. In Bezug auf die Aufbewahrung von Daten und Dokumenten durch ein Unternehmen sind vor allem gesetzliche Aufbewahrungspflichten zu beachten.