Towards Duplicate Detection and Data Fusion in Fuzzy Relational Databases

;

URL
Document type: TechReport
Series: Berichte des Fachbereichs Informatik der Universität Hamburg
Volume Number: 292
Language: English
Year of creation: 2010
Date of publication:
Keywords from authority file SWD (German): Relationale Datenbank , Datenmodell
Free keywords (German): Duplikaterkennung , Datenfusion ; Relationales Datenmodell
Free keywords (English): Possibility Distributions , Relational Databases
Dewey Decimal Classification: Computer science
BK - classification: 54.64

Abstract in German:

Die Durchführung von Methoden zur Duplikaterkennung und Datenfusion sind zwei wesentliche Schritte des Datenintegrationsprozesses um konsistente Ergebnisse zu gewährleisten. Aufgrund von Fehlern und Ungenauigkeiten während der Datenerhebung, der Datenmodellierung oder der Datenverwaltung sind Daten in praktischen Anwendungsbereichen oft inkorrekt und/oder unvollständig. Dies wiederum erschwert die Identifizierung und Zusammenführung mehrfacher Darstellungen des gleichen Realweltobjektes. Im momentan vorherrschenden relationalen Datenmodell lassen sich unvollständige Informationen nur durch einen Nullwert abbilden. Demzufolge fokussieren aktuelle Techniken der Duplikaterkennung und der Datenfusion zumeist auch nur auf die Behandlung widersprüchlicher Informationen, welche aus Tippfehlern, veralteten Daten oder falschen Schreibweisen resultieren. Für gewöhnlich sind Informationen über Phänomene der realen Welt jedoch selten vollständig, sondern eher ungewiss, unpräzise und vage. Aus diesem Grund wurden verschiedene Datenmodelle zur Handhabung ungenauer und unvollständiger Informationen entwickelt. Ein beträchtlicher Anteil dieser Modelle basiert auf der Wahrscheinlichkeitstheorie oder der Fuzzy-Set-Theorie. Aktuelle Techniken zum Abgleich und Zusammenfügen von Datensätzen sind allerdings nicht für den Umgang mit solchen Theorien konzipiert. Um dennoch eine Integration von verschiedenen Fuzzy-Datenbanken zu ermöglichen, präsentieren wir in dieser Arbeit einen Ansatz zur Duplikaterkennung und Fusion von unvollständigen Informationen, welche durch so genannte Möglichkeitsverteilungen (Possibility Distributions) modelliert sind.

Abstract in English:

Duplicate detection and data fusion are two essential prerequisites for obtaining concise results from data integration processes. Caused by many deficiencies in data collection, data modeling or data management, real-life data is often incorrect and/or incomplete. Thus, identifying and unifying multiple representations of the same realworld object is not trivial. Since in the relational data model incomplete information can be represented only by null values, current techniques of duplicate detection and data fusion primarily focus on the handling of dissimilarities resulting from typos, data obsolescence or misspellings. Usually, information on real-world phenomena is rarely complete but rather uncertain, imprecise or vague. Therefore, different data models based on fuzzy set theory or probabilistic theory for modeling incomplete information have been proposed. Unfortunately, current techniques for tuple matching and tuple merging are not designed to deal with such concepts. To enable an integration of data originating from different fuzzy databases, we present a first analysis in duplicate detection and data fusion w.r.t. incomplete information represented by possibility distributions.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.