Table Of Content

Ausgezeichnete Arbeiten zur Informationsqualität Herausgegeben von M. Gebauer, Hannover R. Giebichenstein, Köln Bewertungskommission des Information Quality Best Master Degree Award 2010: H. Hinrichs, Lübeck M. Gebauer, Hannover R. Giebichenstein, Köln K. Hildebrand, Darmstadt B. Kurpicz, Lünen J. Lüssem, Kiel M. Mielke, Helferskirchen F. Naumann, Potsdam I. Rossak, Erfurt Die Deutsche Gesellschaft für Informations- und Datenqualität e.V. (DGIQ) fördert und unterstützt alle Aktivitäten zur Verbesserung der Informationsqualität in Gesellschaft , Wirtschaft , Wissenschaft und Verwaltung. Zu diesem Zweck befasst sie sich mit den Voraussetzungen und Folgen der Daten- und Informationsqualität. Sie fördert zudem durch Innovation und Ausbildung die Wettbewerbsfähigkeit der Unternehmen sowie die des unternehmerischen und akademischen Nachwuchses in Deutschland. Die vorliegende Schrift enreihe präsentiert ausgezeichnete studentische Abschluss- arbeiten in der Daten- und Informationsqualität. Veröff entlicht werden hierin die Siegerarbeiten des jährlich stattfi ndenden „Information Quality Best Master Degree Award“. Herausgegeben von Dr. Marcus Gebauer Rüdiger Giebichenstein Hannover Köln Bewertungskommission des Information Quality Best Master Degree Award 2010: Prof. Dr. Holger Hinrichs Bernhard Kurpicz (Kommissionsvorsitz) FH Lübeck OrgaTech GmbH Dr. Marcus Gebauer Prof. Dr. Jens Lüssem Hannover Re AG FH Kiel und Vorsitzender der DGIQ Michael Mielke Rüdiger Giebichenstein Deutsche Bahn AG KPMG AG und Präsident der DGIQ Wirtschaft sprüfungsgesellschaft Köln Prof. Dr. Felix Naumann HPI, Uni Potsdam Prof. Dr. Knut Hildebrand HS Darmstadt Prof. Dr. Ines Rossak FH Erfurt Uwe Draisbach Partitionierung zur effi zienten Duplikat- erkennung in relationalen Daten Mit einem Geleitwort von Dr. Marcus Gebauer RESEARCH Uwe Draisbach Potsdam, Deutschland ISBN 978-3-8348-1772-3 ISBN 978-3-8348-8289-9 (eBook) DOI 10.1007/978-3-8348-8289-9 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National- bibliografi e; detaillierte bibliografi sche Daten sind im Internet über http://dnb.d-nb.de abrufb ar. Springer Vieweg © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden 2012 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zu- stimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Über- setzungen, Mikroverfi lmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürft en. Einbandentwurf: KünkelLopka GmbH, Heidelberg Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Springer Vieweg ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer Science+Business Media www.springer-vieweg.de Geleitwort Als Vorsitzender der Deutschen Gesellschaft für Informations- und Datenquali- tät (DGIQ e.V.) bin ich glücklich darüber, dass Sie dieses Buch in Ihren Händen halten.DasvorliegendeBuchistAusdruckunseresBestrebens,demwissenschaft- lichenNachwuchsdieMöglichkeitzueröffnen,seineArbeiteneinembreitenPu- blikumdarstellenzukönnen. Dass Sie gerade diese Arbeit vorfinden, ist Ergebnis eines strengen Auswahl- prozesses,dendieDGIQmitdemInformationQualityBestMasterDegreeAward zummittlerweiledrittenMaledurchgeführthat.Studentenwarenaufgefordert,ihre Abschlussarbeiten, die dem Thema Informationsqualität wesentliche Impulse verleihen, in diesem Wettbewerb durch ihre begutachtenden Professoren einrei- chen zu lassen. Vertreter aus Wissenschaft, Forschung und Industrie haben diese akademischenAbschlussarbeitenbegutachtet. UweDraisbachwidmetsichmitseinerArbeitderEntdeckungvonDuplikatenin relationalenDatenbanken.HierbeigehtesihmnichtnurumdieErkennungexak- terKopien.VielmehrgehtesihmumdieErkennungvonDuplikatenvonRealwelt Entitäten, die nicht exakt gleich beschrieben werden. Hierzu hat er bestehende Algorithmen-Windowing-undBlocking-Verfahren-analysiertundzueinemer- weiterten,verallgemeinertenVerfahrenentwickelt. Besondersfreueichmich,dasswirmitdemVerlagSpringerViewegnunschon zum dritten Male eine Siegerarbeit in der Schriftenreihe veröffentlichen können. FürdieInitiativedesVerlagesmöchteichmichrechtherzlichbedanken. Offenbach,15.Oktober2011 Dr.MarcusGebauer Vorwort Duplikatebzw.DublettensindmehrereDatensätze,diedasgleicheRealweltobjekt beschreiben. Typische Beispiele sind mehrfach erfasste Kunden in einem CRM- SystemoderverschiedeneRepräsentationeneinesProdukts.InderheutigenInfor- mationsgesellschaft werden Daten in vielen verschiedenen Systemen erfasst und verarbeitet.DiesteigendeAnzahlanDatenquellenwecktdenWunschnacheiner IntegrationdieserDaten,waseinederHauptursachenfürDuplikateist.DasAuf- findendieserDuplikateisteinekomplexeAufgabe,diebeigroßenDatenbeständen selbstfürmoderneRechnerTageoderWocheninAnspruchnehmenkann. Duplikaterkennung ist schon seit Jahrzehnten Gegenstand der Forschung. Ein Ansatz zur Reduzierung des Aufwands sind Partitionierungsstrategien. Die am weitesten verbreiteten Ansätze, Blocking und Windowing, werden in dieser Ar- beit miteinander verglichen und darauf aufbauend ein verallgemeinertes Verfah- ren entwickelt. Es zeigt sich, dass eine intelligente Auswahl von zu vergleichen- denDatensatz-PaarendenAufwandderDuplikaterkennungsignifikantreduzieren kann,ohnedieQualitätderDuplikaterkennungwesentlichzubeeinflussen. DiesesBuchentstandimRahmenmeinerMasterarbeit.DasseszueinerBuch- veröffentlichunggekommenist,dafürgebührtmehrerenMenschenmeinDank. AlserstesmöchteichmichbeiProf.FelixNaumannvomHasso-Plattner-Institut inPotsdambedanken,dermeineArbeitinhaltlichbetreutunddasExperimenteiner externen Masterarbeit unterstützt hat. Erst durch die vielen Diskussionen ist die ArbeitzudiesemErfolggeworden. DieAuszeichnungmeinerArbeitmitdemInformationQualityBestMasterDe- greeAwardkamfürmichsehrüberraschend.MeinDankgiltderDGIQundins- besondereDr.MarcusGebauer,derdiesesBuchvorhabenstetsbefürwortethat. Auch mein privates Umfeld hat erheblich zum Fortschritt dieser Arbeit beige- tragen. Insbesondere möchte ich mich bei meinen Eltern für ihr Verständnis und ihreUnterstützungbedanken. Berlin,November2011 UweDraisbach Inhaltsverzeichnis 1 GegenstandderArbeit 1 1.1 ThematischerÜberblick. . . . . . . . . . . . . . . . . . . . . . . 1 1.2 AufbauderArbeit . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Duplikaterkennung 5 2.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 EntstehungundAuswirkungenvonDuplikaten . . . . . . . . . . 8 2.3 AblaufderDuplikaterkennung . . . . . . . . . . . . . . . . . . . 10 2.4 Ähnlichkeitsmessung . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5 BeurteilungderQualitätderDuplikaterkennung . . . . . . . . . . 24 2.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . 28 3 Blocking-Verfahren 31 4 Windowing-Verfahren 35 4.1 Sorted-Neighborhood-Methode . . . . . . . . . . . . . . . . . . . 35 4.2 Multi-PassSorted-Neighborhood . . . . . . . . . . . . . . . . . . 38 4.3 Union-/Find-Methode . . . . . . . . . . . . . . . . . . . . . . . . 39 4.4 InkrementelleDuplikaterkennung . . . . . . . . . . . . . . . . . 40 5 VergleichBlocking-undSorted-Neighborhood-Methode 41 5.1 TheoretischerVergleich . . . . . . . . . . . . . . . . . . . . . . . 41 5.2 PraktischerVergleich . . . . . . . . . . . . . . . . . . . . . . . . 50 5.3 Zusammenfassung für die Entwicklung eines verallgemeinerten Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 6 VerallgemeinertesVerfahren 61 6.1 UntersuchungderoptimalenPartitionsüberschneidung . . . . . . 61 6.2 BeschreibungdesAlgorithmus . . . . . . . . . . . . . . . . . . . 63 6.3 AnalysedesAlgorithmus . . . . . . . . . . . . . . . . . . . . . . 66 6.4 BewertungdesverallgemeinertenVerfahrens . . . . . . . . . . . 75 7 Zusammenfassung 79 X Inhaltsverzeichnis Anhang 83 Literaturverzeichnis 89 Abbildungsverzeichnis 1.1 Die Sorted-Neighborhood-Methode im Vergleich zur Blocking- Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.1 AblaufDuplikaterkennung . . . . . . . . . . . . . . . . . . . . . 10 2.2 BeispielLevenshtein-Distanz . . . . . . . . . . . . . . . . . . . . 17 2.3 BeispielTranskript . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 ErgebnissederDuplikaterkennung . . . . . . . . . . . . . . . . . 25 2.5 OptimierungvonRecallundPrecision . . . . . . . . . . . . . . . 27 2.6 ZielkonfliktderDuplikaterkennung . . . . . . . . . . . . . . . . 29 3.1 Blocking-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1 AblaufderSorted-Neighborhood-Methode. . . . . . . . . . . . . 36 4.2 Multi-PassSorted-Neighborhood-Methode. . . . . . . . . . . . . 38 4.3 AblaufderUnion/Find-Methode . . . . . . . . . . . . . . . . . . 40 5.1 AnsätzederBlocking-undWindowing-Verfahren . . . . . . . . . 42 5.2 VergleichBlocking-undSorted-Neighborhood-Methode . . . . . 43 5.3 VergleichdesAufwandsderDuplikaterkennung . . . . . . . . . . 46 5.4 EntwicklungderBlockanzahl . . . . . . . . . . . . . . . . . . . . 47 5.5 AngleichungvonBlocking-undSorted-Neighborhood-Methode . 49 5.6 AblaufpraktischerVergleichBlockingundSorted-Neighborhood. 50 5.7 VergleichvonPrecisionundRecall . . . . . . . . . . . . . . . . . 57 5.8 VergleichdesF-Measure . . . . . . . . . . . . . . . . . . . . . . 58 6.1 ÜberlagerungenvonPartitionen . . . . . . . . . . . . . . . . . . 62 6.2 AbstandderechtenDuplikatefürverschiedeneSortierschlüssel . . 63 6.3 DarstellungverallgemeinertesVerfahren . . . . . . . . . . . . . . 64 6.4 ProgrammablaufplanverallgemeinertesVerfahren . . . . . . . . . 65 6.5 Anzahl Tupelvergleiche für n=10.000 bei verschiedenen Partiti- onsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6.6 VergleichvonPrecisionundRecall . . . . . . . . . . . . . . . . . 71 6.7 VergleichdesF-Measure . . . . . . . . . . . . . . . . . . . . . . 72

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF

99 Pages·2012·0.918 MB·German

by Uwe Draisbach (auth.)

Checking for file health...

Save to my drive

Quick download

Download

Download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF Free - Full Version

by Uwe Draisbach (auth.)| 2012| 99 pages| 0.918| German

Download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten by Uwe Draisbach (auth.) in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

No description available for this book.

Detailed Information

Author:	Uwe Draisbach (auth.)
Publication Year:	2012
Pages:	99
Language:	German
File Size:	0.918
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Partitionierung zur effizienten Duplikaterkennung in relationalen Daten Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF?

Yes, on https://PDFdrive.to you can download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten by Uwe Draisbach (auth.) completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Partitionierung zur effizienten Duplikaterkennung in relationalen Daten on my mobile device?

After downloading Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Partitionierung zur effizienten Duplikaterkennung in relationalen Daten?

Yes, this is the complete PDF version of Partitionierung zur effizienten Duplikaterkennung in relationalen Daten by Uwe Draisbach (auth.). You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.