Towards Duplicate Detection and Data Fusion in Fuzzy Relational Databases

;

URL
Dokumentart: Report (Bericht)
Schriftenreihe: Berichte des Fachbereichs Informatik der Universität Hamburg
Bandnummer: 292
Sprache: Englisch
Erstellungsjahr: 2010
Publikationsdatum:
SWD-Schlagwörter: Relationale Datenbank , Datenmodell
Freie Schlagwörter (Deutsch): Duplikaterkennung , Datenfusion ; Relationales Datenmodell
Freie Schlagwörter (Englisch): Possibility Distributions , Relational Databases
DDC-Sachgruppe: Informatik
BK - Klassifikation: 54.64

Kurzfassung auf Deutsch:

Die Durchführung von Methoden zur Duplikaterkennung und Datenfusion sind zwei wesentliche Schritte des Datenintegrationsprozesses um konsistente Ergebnisse zu gewährleisten. Aufgrund von Fehlern und Ungenauigkeiten während der Datenerhebung, der Datenmodellierung oder der Datenverwaltung sind Daten in praktischen Anwendungsbereichen oft inkorrekt und/oder unvollständig. Dies wiederum erschwert die Identifizierung und Zusammenführung mehrfacher Darstellungen des gleichen Realweltobjektes. Im momentan vorherrschenden relationalen Datenmodell lassen sich unvollständige Informationen nur durch einen Nullwert abbilden. Demzufolge fokussieren aktuelle Techniken der Duplikaterkennung und der Datenfusion zumeist auch nur auf die Behandlung widersprüchlicher Informationen, welche aus Tippfehlern, veralteten Daten oder falschen Schreibweisen resultieren. Für gewöhnlich sind Informationen über Phänomene der realen Welt jedoch selten vollständig, sondern eher ungewiss, unpräzise und vage. Aus diesem Grund wurden verschiedene Datenmodelle zur Handhabung ungenauer und unvollständiger Informationen entwickelt. Ein beträchtlicher Anteil dieser Modelle basiert auf der Wahrscheinlichkeitstheorie oder der Fuzzy-Set-Theorie. Aktuelle Techniken zum Abgleich und Zusammenfügen von Datensätzen sind allerdings nicht für den Umgang mit solchen Theorien konzipiert. Um dennoch eine Integration von verschiedenen Fuzzy-Datenbanken zu ermöglichen, präsentieren wir in dieser Arbeit einen Ansatz zur Duplikaterkennung und Fusion von unvollständigen Informationen, welche durch so genannte Möglichkeitsverteilungen (Possibility Distributions) modelliert sind.

Kurzfassung auf Englisch:

Duplicate detection and data fusion are two essential prerequisites for obtaining concise results from data integration processes. Caused by many deficiencies in data collection, data modeling or data management, real-life data is often incorrect and/or incomplete. Thus, identifying and unifying multiple representations of the same realworld object is not trivial. Since in the relational data model incomplete information can be represented only by null values, current techniques of duplicate detection and data fusion primarily focus on the handling of dissimilarities resulting from typos, data obsolescence or misspellings. Usually, information on real-world phenomena is rarely complete but rather uncertain, imprecise or vague. Therefore, different data models based on fuzzy set theory or probabilistic theory for modeling incomplete information have been proposed. Unfortunately, current techniques for tuple matching and tuple merging are not designed to deal with such concepts. To enable an integration of data originating from different fuzzy databases, we present a first analysis in duplicate detection and data fusion w.r.t. incomplete information represented by possibility distributions.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.