• Mob: +49 176 34 61 81 26 Tel: +49 7852 93 79 82
  • Hauptstrasse 67, 77731 Willstätt

Datenbereinigung

Die Datenbereinigung hilft bei Datenfehlern im Informationssystem

Zur Datenbereinigung gehören verschiedene Verfahren

  • zum Entfernen von Datenfehlern
  • zum Korrigieren von Datenfehlern

 

DatenbereinigungDie Fehler können beispielsweise aus folgenden Daten bestehen.

  • inkorrekte Daten (ursprünglich falschen oder veralteten)
  • redundante Daten
  • inkonsistente Daten
  • falsch formatierte Daten

Wesentliche Schritte zur Datenbereinigung sind die

  • Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen)
  • und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).

5 Schritte zur Datenbereinigung

  • Sicherungskopie der Datei/Tabelle erstellen: Ablage der fehlerhaften Daten

    • Bevor man die Daten bereinigt, sollte man die originären, fehlerhaften Daten als Kopie speichern, und nach der Bereinigung auf keinen Fall einfach löschen. Ansonsten wären die Bereinigungen nicht nachvollziehbar, außerdem wäre ein solcher Prozess nicht revisionssicher.
    • Eine Alternative ist die Speicherung des korrigierten Werts in einer zusätzlichen Spalte. Da zusätzlicher Speicherplatz benötigt wird, empfiehlt sich dieser Ansatz nur bei wenigen zu korrigierenden Spalten in einem Datensatz.
    • Eine weitere Möglichkeit ist die Speicherung in einer zusätzlichen Zeile, was den Speicherbedarf aber noch stärker ansteigen lässt. Es bietet sich deshalb nur bei einer geringen Anzahl zu korrigierender Datensätze an. Die letzte Möglichkeit bei einer großen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle.
  • Datenqualität – Anforderungen an Daten festlegen

    Hochwertige und verlässlich Daten müssen bestimmte Anforderungen erfüllen z.B.

    • valide Daten: gleicher Datentyp, bestimmte Höchstwerte, etc.
    • vollständige Daten
    • einheitliche Daten: gleiche Einheit (z.B. Währung, Gewichtsangabe, Länge)
    • integäre Daten: Daten müssen vor absichtlicher und/oder unabsichtlicher Manipulation geschützt sein.
  • Analyse der Daten

    • Nachdem die Anforderungen geklärt sind, müssen die Daten z.B. mit Hilfe der Checklisten geprüft werden, ob die Daten die geforderte Qualität aufweisen.
  • Daten vor der Bereinigung standardisieren:

    dazu werden diese zuerst strukturiert und danach normiert.

    • Die Strukturierung bringt die Daten in ein einheitliches Format, beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht (01.09.2009).
    • Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt, z. B. der Name eines Kunden in die Namensbestandteile Anrede, Titel, Vorname und Nachname. Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgeführt.
    • Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet. Diese Normierung kann z. B. für die Anrede, den akademischen Titel oder Firmenzusätze durchgeführt werden. So können beispielsweise die Firmenzusätze e. Kfr. und Kfm durch den normierten Wert e. K. ersetzt werden, wodurch die spätere Bereinigung stark vereinfacht wird.
  • Daten bereinigen

    • Für die Datenbereinigung stehen sechs Methoden zu Auswahl, die einzeln oder kombiniert angewendet werden können:
    • Ableiten aus anderen Daten: Aus anderen Daten werden die korrekten Werte abgeleitet (z. B. die Anrede aus dem Vornamen).
    • Ersetzen durch andere Daten: Die fehlerhaften Daten werden durch andere Daten (z. B. aus anderen Systemen) ersetzt.
    • Default-Werte verwenden: Es werden Default-Werte anstelle der fehlerhaften Daten verwendet.
    • Fehlerhafte Daten entfernen: Die Daten werden herausgefiltert und nicht weiter verarbeitet.
    • Duplikate entfernen: Duplikate werden über die Duplikaterkennung identifiziert, die nicht-redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet.
    • Zusammenfassungen auftrennen: Im Gegensatz zur Entfernung von Duplikaten werden hierbei fehlerhaft zusammengefasste Daten wieder getrennt.

Merken

Merken

Merken

Merken