Table Of Content43221_Rossak_173x244_43221_Rossak_RZ 13.12.12 12:43 Seite 1
ines ROSSAK (Hrsg.)
DIE HERAUSGEBERIN //
DATENINTEGRATION //
Professor Dr. Ines ROSSAKlehrt
(cid:1) Strategien zum Zusammenführen und und forscht auf dem Gebiet der
Konsolidieren von Unternehmensdaten Datenbanken und Informations -
systeme an der FH Erfurt.
(cid:1) Theoretische Einführung in die Daten -
DIE AUTOREN //
integration
K
Thomas FILBRYstudiert Angewan d -
(cid:1) Open-Source-Datenintegrationswerkzeug te Informatik an der FH Erfurt. SA
S
Talend Open Studio Frank GEYERhat seinen Master- O
R
(cid:1) Systematische und praktische Anleitung abschluss an der FH Erfurt im Stu-
zum Einsatz von Talend Open Studio diengang Angewandte Informatik
(cid:1) Praxisrelevantes Beispielszenario erworben und gründet derzeit eine
eigene Firma. Matthias LAUFER
graduierte an der FH Erfurt im Stu-
diengang Angewandte Informatik
Bei der Fusion von bisher unabhängig agierenden und arbeitet als ETL-Spezialist
Unternehmen oder Unternehmensbereichen mit sowie Softwareentwickler in Aus -
N
ähnlichen Geschäftsfeldern, aber unterschied - tralien. Sebastian RENKERhat
lichen Datenbasen, stellt sich die wichtige Aufgabe, nach seinem Studium an der FH
O
zersplitterte und daher auch oft widersprüchliche seinen Abschluss an der Swinburne
Datenbestände zu einer unternehmensweit einheit - University in Melbourne gemacht
I
lichen, vertrauenswürdigen Datenbasis zu konso - und arbeitet als IT-Security Consul- DATEN -
T
lidieren. tant. Stefan SKOUTIist ebenfalls
Absolvent der FH Erfurt und arbei- A
Dieses Lehrbuch stellt typische Ansätze für die
tet als IT-Spezialist.
Informationsintegration vor und beschreibt an
R
einem durchgängigen Beispiel ein in der Praxis INTEGRATION
häufig vorkommendes Szenario mithilfe des Open-
G
Source-Datenintegrationswerkzeugs Talend Open
Studio, mit dem die Integration der bisher auto - AUS DEM INHALT //
E
nomen Datenbasen Schritt für Schritt bis zur ein- (cid:1) Grundlagen der Daten -
heitlichen Datenbasis realisiert wird. Dabei werden integration T
die im Prozess der Integration heterogener Daten- (cid:1) Marktsituation im Bereich
basen typischen Probleme aufgegriffen und behan- Datenintegration N
delt. Die wichtigsten Komponenten des Talend (cid:1) Integrationslösungen von // INTEGRATIONSANSÄTZE
Open Studio werden vorgestellt und deren Funk - Talend I
tionsweise jeweils am Beispiel erklärt. Zusätzliche (cid:1) Beispielszenario, Installation N // BEISPIELSZENARIEN
Übungsaufgaben am Ende jeden Abschnitts die- und Konfiguration der
nen der Vertiefung. Das Buch führt theoretisch in Beispieldatenbanken E // PROBLEMLÖSUNGEN
die Problemstellung der Datenintegration ein und (cid:1) Datenintegration mit
T
bietet eine systematische praktische Anleitung Talend Open Studio for // TALEND OPEN STUDIO
zur Lösung der Probleme mit einer gut etablierten Data Integration A
Open-Source-Software.
D
EXTRA: Mit kostenlosem E-Book
€29,99[D] | €30,90[A]
ISBN 978-3-446-43221-5
www.hanser-fachbuch.de/computer
Rossak (Hrsg.)
Datenintegration
Ines Rossak (Hrsg.)
Datenintegration
Integrationsansätze, Beispielszenarien,
Problemlösungen, Talend Open Studio
Mit 156 Bildern, 15 Tabellen
sowie Kontrollfragen und Aufgaben
Die Herausgeberin: Professor Dr. Ines Rossak lehrt und forscht auf dem Gebiet der Daten-
banken und Informationssysteme an der FH Erfurt.
Die Autoren: Thomas FILBRY studiert im Masterstudiengang Angewandte Informatik an der
FH Erfurt. Frank GEYER hat seinen Masterabschluss an der FH Erfurt im Studiengang Ange-
wandte Informatik erworben und gründet derzeit unterstützt von EXIST eine eigene Firma.
Matthias LAUFER hat seinen Masterabschluss an der FH Erfurt im Studiengang Angewandte
Informatik erworben und arbeitet als IT-ETL-Spezialist sowie Softwareentwickler in Australien.
Sebastian RENKER hat nach seinem Studium im Masterstudiengang Angewandte Informatik an
der FH seinen Abschluss an der Swinburne University in Melbourne erworben und arbeitet als
IT-Security Consultant. Stefan SKOUTI hat seinen Masterabschluss an der FH Erfurt im Studi-
engang Angewandte Informatik erworben und arbeitet als IT-Specialist in der Internationalen IT
eines großen Einzelhandelsunternehmens.
Alle in diesem Buch enthaltenen Informationen, Verfahren und Darstellungen wurden nach bestem Wissen
zusammengestellt und mit Sorgfalt getestet. Dennoch sind Fehler nicht ganz auszuschließen. Aus diesem
Grund sind die im vorliegenden Buch enthaltenen Informationen mit keiner Verpflichtung oder Garantie
irgendeiner Art verbunden. Autoren und Verlag übernehmen infolgedessen keine juristische Verantwortung
und werden keine daraus folgende oder sonstige Haftung übernehmen, die auf irgendeine Art aus der Be-
nutzung dieser Informationen – oder Teilen davon – entsteht.
Ebenso übernehmen Autoren und Verlag keine Gewähr dafür, dass beschriebene Verfahren usw. frei von
Schutzrechten Dritter sind. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen
usw. in diesem Buch berechtigt deshalb auch ohne besondere Kennzeichnung nicht zu der Annahme, dass
solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären
und daher von jedermann benutzt werden dürften.
Bibliografische Information Der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der
Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im
Internet über http://dnb.d-nb.de abrufbar.
Dieses Werk ist urheberrechtlich geschützt.
Alle Rechte, auch die der Übersetzung, des Nachdruckes und der Vervielfältigung des Buches, oder Teilen
daraus, vorbehalten. Kein Teil des Werkes darf ohne schriftliche Genehmigung des Verlages in irgendeiner
Form (Fotokopie, Mikrofilm oder ein anderes Verfahren), auch nicht für Zwecke der Unterrichtsgestaltung
– mit Ausnahme der in den §§ 53, 54 URG genannten Sonderfälle –, reproduziert oder unter Verwendung
elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden.
© 2013 Carl Hanser Verlag München
Herstellung: Dipl.-Ing. Franziska Kaufmann
Coverconcept: Marc Müller-Bremer, www.rebranding.de, München
Coverrealisierung: Stephan Rönigk
Datenbelichtung, Druck und Bindung: Kösel, Krugzell
Printed in Germany
ISBN: 978-3-446-43221-5
E-Book-ISBN: 978-3-446-43491-2
www.hanser-fachbuch.de
Vorwort
LiebeLeserinnenundLeser,
dieIdeezudiesemBuchwurdeursprünglichindenVorlesungenundSeminarenzuanaly-
seorientiertenDatenbankengeboren,anderenKonzeptionderAufbaudesBuchesange-
lehntist.
Im Rahmen eines Hauptseminars im Masterstudiengang Angewandte Informatik haben
wirfünfunsunterderLeitungvonFrauProf.Dr.Rossakzusammengefunden,umeinLehr-
buchüberDatenintegrationmitHilfederSoftwareTalendOpenStudiozuverfassen.Naiv,
wiemanesvorseinemerstenBuchist,habenwir,ohnegroßzuüberlegen,„Ja“gesagt.
SchonindenerstenWochenzeigtesichaber,dass„einBuchschreiben“dochmehristals
eintypischesProjektinnerhalbdesStudiums.AlleindieAuswahldesBeispielszenariosver-
ursachtesehrintensiveDiskussionen.WiegenauwirunsereProfessorinvoneinersolchen
Männerdomäneüberzeugenkonnten,lässtsichnichtmehrrekonstruieren.
NachdemzumindestdergrobeRahmendesBuchesabgestecktwar,begannenwir,indie
WeltderFahrzeugvermietungeneinzutauchen,ausderwirunserBeispielszenarioableiten.
Preismodelle,Fahrzeugtypen,Kundendaten–allesmusstesorealitätsnahundgleichzeitig
sounterschiedlich(undrechtssicher)wiemöglichmodelliertwerden,umdenBerganzu
vermittelndenInformationenineinSzenariopressenzukönnen,dasgleichzeitigkomplex
undüberschaubargenugseinmusste.
BalddarauffolgtedieÜberzeugung,dasswir„jetztnurnochintegrierenundetwasdazu
schreiben“müssten.Werkonntedennahnen,dasszwischenSzenarioentwurf,Aufbauder
ArbeitsumgebungundErstellenderBeispieldatensätzenochbeinaheneunMonateverge-
henwürden,bisdieses„IntegrierenundSchreiben“abgeschlossenwäre?
Schnellwurdedeutlich,dassmandochnichtallesbedenkt,wenneinBeispielentworfen
wirdundsichauchbekannteSchwierigkeitenalsäußerstkomplexerweisenkönnen,wenn
RealitätaufTheorietrifft.FolglichführtenvieleWegedochnurzurückandenAnfangund
musstenmehrfachbeschrittenwerden.
Dann galt es ja nur noch „das Wichtigste aufzuschreiben“ – eine weitere grundlegende
FehleinschätzungderoffenenAufgaben.EineWelt,diedemeigenenKopfentspringt,für
Dritteverständlichzubeschreiben,stelltesichalsdiffizilerheraus,alswiresvermutethat-
ten,vorallem,weilnebendergrundlegendenVorgehensweiseeineSoftwarezurUmset-
zungdieser„miterklärt“werdenmusste...
6 Vorwort
UnzähligestundenlangeMeetings,diverseDiskussionen,StapelanPizzakartonsundliter-
weiseKaffeespäteristesnunvollbracht.WirkönnenhiermitdasfertigeBuchpräsentieren,
daswichtigeFragenrundumDatenintegrationerklärenundtypischeFragenbeantworten
soll.
EshatunsvielArbeit,SchweißundNervengekostet,aberauchvielFreudebereitet,die-
sesBuchzuschreiben.Wirsindsehrstolz,einBuchüberDatenintegrationalsunserWerk
betrachtenundanSieweiterzugebenzukönnen.
AndieserStellemöchtenwirauchunserDankeschönanalleUnterstützeraussprechen.
NebenunsereneigenenpraktischenErfahrungenausIntegrationsprojektensindindieses
BuchzahlreicheAnregungenvonStudierendeneingeflossen,diesichimRahmenvonAb-
schlussarbeiten,ProjektenundPraktikamitdemProblemderDatenintegrationkonfron-
tiertsahen.IhnengiltunserDankfürdasständigeHinterfragen,dieHinweiseaufUnstim-
migkeitenundUnklarheitenundsomanchenDenkanstoß.
Bedankenmöchtenwirunsauchbeiallen,diediewichtigeundundankbareArbeitdes
Korrekturlesensaufsichnahmen,insbesondereFrauJakob,dieunsaufvieleFehlerhinge-
wiesenhat.BesondererDankgiltFrauKaufmann,diemitRatundTatzurSeitestand,wenn
esumSatzundDruckging.SiehateinenwesentlichenAnteilamErscheinungsbilddieses
Buches.BesondererDankgiltunserenLektoren,HerrnDr.FeuchteundFrauWerner,die
mitvielenHinweisen,GeduldundRuhedasEntstehendiesesBuchesbegleiteten.
AbschließendseiauchdenwichtigstenMenscheninunseremLebengedankt,ohnederen
Ermutigung und Unterstützung dieses Buch nicht entstanden wäre – unseren Familien.
SieteiltenunsfasteinJahrlangmitKomponenten,JobsundSchemasundertrugenunsere
Frustration,wennwiederetwasnichtfunktionierte.
NocheinHinweiszumSchluss:IndiesemBuchwerdenaneinigenStellengeschlechtsspe-
zifischeFormulierungenverwendet.AndieserStelleseiausdrücklichdaraufhingewiesen,
dassineinemsolchenFallallePersonengleichermaßenadressiertwerden.
UndnunvielSpaßbeimLesenundIntegrieren!
ThomasFilbry,FrankGeyer
MatthiasLaufer,SebastianRenker
StefanSkouti Dezember2012
Es ist immer ein Wagnis, große, lang laufende und termingebundene Projekte mit Stu-
dierenden in Angriff zu nehmen. Das Risiko ist relativ hoch, dass der ein oder andere
dieProjektgruppeverlässt,weilesnichteinfachist,sichmitunterschiedlichenTempera-
menten,ArbeitstemposundKommunikationsstilenauseinanderzusetzenundweilCredits
aucheinfacherzubekommensind.MitentsprechendvorsichtigerErwartungshaltungging
ichandiesesProjektheran.ImLaufedervergangenenMonatebinichjedochimmerwie-
derüberraschtworden–vonStudierenden,diesichselbsteffektivorganisierten,sichbei-
naheklaglosdurchHunderteSeitenLiteraturkämpften,sichgegenseitigmotiviertenund
härterkritisierten,alsichesjegetanhätte.Ichbinbeeindruckt,wiesiedieseanspruchs-
volleAufgabebewältigthaben.
InesRossak Dezember2012
Vorwort 7
FürGerhardMaxKunoMöller (*10.05.1931-†13.07.2011)
„Wärd’so,wieichseinmüsst’“,hastduzumirgesagt.
Wennichsowerde,wieduwarst,binichzufrieden.
-FrankGeyer
FürDr.JamalSkouti
Nur wer gelernt hat, auf eigenen Beinen zu stehen, der kann auch seine eigenen
Wegegehen.
MitUnterstützung,auchwennvonweither,istselbstdersteinigsteWeg,nurnochhalbso
schwer.
-StefanSkouti
FürmeineEltern,Großeltern,FreundeundmeinenBruder
DankefürdieUnterstützung,Rückhalt,AntriebundMotivationaufmeinenlangjährigen
Bildungsweg.
-MatthiasLaufer
FürmeineEltern
DankefüreureUnterstützung.IhrseiddieBesten!
FürStefanie
Danke,dassDuimmerfürmichdawarst,michimmerwiedermotivierstundesnielang-
weiligmitDirwird!
-SebastianRenker
FürmeineEltern
DiemichdieJahremeinesStudiumsstetsanallenStellenwoesnötigwarunterstütztund
geförderthaben.WeiterhinmöchteichallenKommilitonendanken,mitwelchenichan
ProjektengearbeitetoderfürPrüfungengelernthabe.
-ThomasFilbry
FürTina
BleibeinSonnenkindimLeben,werSonnehat,kannSonnegeben.
FürWilli
Ohnedichistallesdoof!
-InesRossak
Inhaltsverzeichnis
1 Einführung................................................................................ 13
2 GrundlagenderDatenintegration................................................ 16
2.1 Einleitung.................................................................................... 16
2.2 TypischeAnwendungsfelder.............................................................. 18
2.2.1 KonsolidierungimoperativenBereich......................................... 19
2.2.2 KonsolidierungimanalytischenBereich...................................... 21
2.3 Herausforderungen ........................................................................ 24
2.3.1 Verteilung.......................................................................... 25
2.3.2 Autonomie......................................................................... 27
2.3.2.1 Entwurfsautonomie................................................... 27
2.3.2.2 Schnittstellenautonomie ............................................. 27
2.3.2.3 Kommunikationsautonomie......................................... 27
2.3.3 Heterogenität...................................................................... 28
2.3.3.1 TechnischeHeterogenität ............................................ 28
2.3.3.2 SyntaktischeHeterogenität........................................... 29
2.3.3.3 StrukturelleHeterogenität............................................ 29
2.3.3.4 SemantischeHeterogenität .......................................... 30
2.4 Integrationsebenen......................................................................... 31
2.4.1 IntegrationaufPräsentationsebene............................................ 32
2.4.2 IntegrationaufApplikationsebene............................................. 34
2.4.3 IntegrationaufDatenebene..................................................... 35
2.5 Integrationsarchitekturen................................................................. 37
2.5.1 Extraktion-Transformation-Laden(ETLundELT) ........................... 37
2.5.1.1 Extraktion............................................................... 39
2.5.1.2 Transformation ........................................................ 39
2.5.1.3 Laden.................................................................... 40