• Mob: +49 176 34 61 81 26 Tel: +49 7852 93 79 82
  • Hauptstrasse 67, 77731 Willstätt

Datenduplikate und Dubletten

Datenredudanz: die Prüfung nach Duplikate und Dubletten

Dubletten in der Kundendatenbank sind häufig vorhanden.

Duplikate bedeuten das mehrfache Führen der gleichen Daten, also das mehrfache Vorkommen desselben Sachverhaltes, wobei die Wiederholung als nicht notwendig eingeordnet wird.

In einer Nachricht bedeutet es, dass ein Teil der Information für den Empfänger nicht neu ist, also keine (neue bzw. wichtige ) Information darstellt.

Die Folgen sind:

  • Mehrfachaufwand,
  • Konsistenz der Daten (Datenintegrität) nicht gewährleistet
  • Abstimmungsprobleme, da Änderungen an verschiedenen Stellen (z.B. in mehreren Dateien) zur gleichen Zeit durchgeführt werden müssen.

Jedoch wird Datenredundanz häufig eingeplant, um z.B. bei Verlust von Daten die Rekonstruktion zu ermöglichen oder zur Verbesserung der Performance.

Dateiduplikate (Datei-Dublette)

In der Regel genügt es jede Datei nur einmal auf der Festplatte zu speichern – bei doppelter Verwendung reicht meist eine Verknüpfung. So löschen Sie den Rest.

Ein Duplikat ist eine Kopie. Es sind zwei Arten von Duplikaten zu unterscheiden:

  • identische Duplikate, bei denen alle Werte identisch sind
  • nichtidentische Duplikate, bei denen sich ein bis mehrere Werte unterscheiden.

Die Erkennung und Bereinigung ist nach Fälle zu unterscheiden:

  • im ersten Fall trivial, die überzähligen Duplikate können ohne Informationsverlust einfach gelöscht werden.
  • im zweiten Fall schwieriger und komplexer, da die Duplikate nicht über einen einfachen Ist-Gleich-Vergleich wie im ersten Fall identifiziert werden können.  Die überzähligen Datensätze können nicht einfach gelöscht werden, sie müssen vorher konsolidiert und die Werte zusammengefasst werden.

Wenn Daten doppelt vorkommen, muss man nicht nur die Bennenung betrachten sondern auch die Attibute der Datei (Format, Datum, Größe, …) Der Prozess zur Erkennung und Konsolidierung von Duplikaten kann in folgenden vier Schritten erfolgen:

  1. Vorverarbeitung der Daten
  2. Partitionierung der Daten
  3. Erkennung von Duplikaten und
  4. Konsolidierung zu einem Datensatz.

Zur Erkennung von Duplikaten werden verschiedene Ähnlichkeitsmaße angewandt, beispielsweise die Levenshtein-Distanz oder die Schreibmaschinendistanz. Da in der Regel aus Kostengründen nicht jeder Datensatz mit jedem anderen verglichen werden kann, gibt es Verfahren wie die sortierte Nachbarschaft (englisch Sorted Neighborhood), bei der nur potenziell ähnliche Datensätze daraufhin überprüft werden, ob sie Duplikate sind.

Es gibt phonetische Algorithmen, die Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnen, den phonetischen Code, um eine Ähnlichkeitssuche zu implementieren, zum Beispiel Soundex und Kölner Phonetik.

Um Datei-Dubletten auf den Festplattenlaufwerken aufzuspüren und dann zu löschen, verwenden Sie am besten ein Programm

Datensatz-Dublette: die Datensatzverdoppelung

Dubletten

Eine Dublette ist ein Datensatz in einer Datenbank, der redundant, d. h. mehrfach, vorhanden ist, dessen Redundanz aber aufgrund abweichender Schreibung nicht durch Prüfung auf gleiche Inhalte erkannt werden kann.

Dubletten entstehen insbesondere in Adressdatenbanken, und zwar dann, wenn die gleiche Person oder Gesellschaft mehrfach auf Basis unterschiedlicher Eingangsinformationen erfasst wird, mehrere Adressdatenbestände vereinigt werden oder die erfassten Personen oder Unternehmen ihren Namen wechseln.

Da Dubletten unnötige Zeitaufwand und Kosten verursachen und negative Folgen für das Image haben können, wird mit entsprechender Software versucht, die Dubletten zu identifizieren und automatisch oder halbautomatisch zu bereinigen (Deduplikation). Hierbei kommen mehr oder weniger scharfe phonetische, musterbezogene oder assoziative Algorithmen zur Anwendung.

Auch in Material- und Produktdaten können Dubletten auftreten. Nach der Fusion zweier Unternehmen sind meist viele Bauteile in beiden Unternehmen vorhanden, jedoch in unterschiedlicher Schreibweise verzeichnet.