Table Of ContentROLAND M. MÜLLER · HANS-JOACHIM LENZ
Business
Intelligence
eXXamen.press
eXamen.pressisteineReihe,dieTheorieundPraxisausallenBereichenderInformatikfür
dieHochschulausbildungvermittelt.
Roland M. Müller · Hans-Joachim Lenz
Business Intelligence
RolandM.Müller Hans-JoachimLenz
HochschulefürWirtschaftundRechtBerlin FreieUniversitätBerlin
Berlin,Deutschland Berlin,Deutschland
ISSN1614-5216
ISBN978-3-642-35559-2 ISBN978-3-642-35560-8(eBook)
DOI10.1007/978-3-642-35560-8
DieDeutscheNationalbibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;detaillierte
bibliografischeDatensindimInternetüberhttp://dnb.d-nb.deabrufbar.
SpringerVieweg
©Springer-VerlagBerlinHeidelberg2013
DasWerkeinschließlichallerseinerTeileisturheberrechtlichgeschützt.JedeVerwertung,dienichtausdrücklich
vomUrheberrechtsgesetzzugelassenist,bedarfdervorherigenZustimmungdesVerlags.Dasgiltinsbesondere
fürVervielfältigungen,Bearbeitungen,Übersetzungen,MikroverfilmungenunddieEinspeicherungundVerar-
beitunginelektronischenSystemen.
DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungen usw.indiesemWerkberechtigt
auchohnebesondereKennzeichnungnichtzuderAnnahme,dasssolcheNamenimSinnederWarenzeichen-
undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenunddahervonjedermannbenutztwerdendürften.
GedrucktaufsäurefreiemundchlorfreigebleichtemPapier
SpringerViewegisteineMarkevonSpringerDE.SpringerDEistTeilderFachverlagsgruppeSpringer
Science+BusinessMedia
www.springer-vieweg.de
Vorwort
BusinessIntelligence(BI),istnachwievoreinModewort,„verkauftsichgut“undistzu
RechtausdemUnternehmensalltagkaummehrwegzudenken.
Dies gilt insbesondere dann, wenn man sich in die sechziger bis achtziger Jahre zu-
rückversetzt, wo jede Datenauswertung vom jeweiligen Abteilungsleiter beantragt, vom
Rechenzentrumsleiter eines Unternehmens genehmigt und dann dort einzeln program-
miertwerdenmusste.
Schlimmernoch,derzweiteAutorkannsichgutandenSommer1964erinnern,woer
ineinemnamhaftendeutschenGroßunternehmenalsWerkstudentbeschäftigtwar.Eine
unzweckmäßige Programmierung von sog. „Tabellierungen“ führte zu seitenlangen Pa-
pierausdrucken – einen Papierstapel von gut 25cm Höhe. Dieser Ausdruck enthielt die
KupferpreiseaufdeninternationalenWeltmärktengruppiertnachdiversenKriterien.Die
Aufgabebestanddarin,dieDatenmanuellsozukomprimieren,dassderzuständigeAbtei-
lungsleiterimstandeundbereitwar,sieinTabellenformzuanalysieren.Medienbrüchewie
diesewarenübrigensbisweitindieneunzigerJahrehineindurchausanderTagesordnung
inderdeutschenWirtschaft.
EsstelltsichwiebeijedemBuchdieFrage,wozunocheinBuchüberBusinessIntelligence
geschriebenwerdenmuss.Wirhabendazu,glaubenwir,guteGründe.
Zuerst einmalwollen wir unserenehemaligen Kollegen der Wirtschaftsinformatikan
derHumboldt-UniversitätzuBerlin,denjetzigenPräsidentenderUniversitätPotsdamund
–inPersonalunion–derdeutschenGesellschaftfürInformatik(GI),OliverGünther,dafür
„verantwortlich“ machen;denn er war es,der den Anstoßzu diesem Projekt gab.Ohne
seinenMotivationsschubamAnfanghätteunser„Baby“niedasLichtderWelterblickt.
Weiterhintriebunsan,dasseszweifelsfreiausgezeichneteenglischsprachigeLiteratur
zurBIgibt,dieseaberoftvonInformatikerngeschriebenwurdeundBusinessmehr„Eti-
kett“oder„Alibi“istalsdiebetriebswirtschaftlicheAnwendungsdomäne.WiederBegriff
Intelligence deutlich macht, spielt die Auswertung von Daten bei BI eine entscheidende
Rolleundzwarimbetrieblichen,nichtprimärimtechnischenodergarnaturwissenschaft-
lichenBereich.WirbringengernBIaufdieFormelBusiness Intelligence=50%Betriebs-
wirtschaft/OperationsResearch+25%DataMining/Statistik+25%DataWarehousing.
Diesbedeutet,dassdieobenangesprocheneGruppevonBüchernunsererEinschätzung
nachzuetwa%LückenanbetriebswirtschaftlichenAnwendungenaufweisen.Diesezu
V
VI Vorwort
füllenbzw.eineBrückezwischenInformatik,Statistik,OperationsResearchundBetriebs-
wirtschaft(BWL)zuschlagen,sehenwiralseinewichtigeZielsetzungdiesesBuchesan.
ZweifelsohneexistierengeradeauchimdeutschsprachigenRaumBücherüberBI.Diese
sindaberausunsererSicht„zudeskriptiv“,d.h.siegliedern,be-undumschreibenPhä-
nomeneanstattdiedahinterstehendenProblemeaufzugreifen,zuformalisierenundmit
geeigneten Werkzeugenzulösen.Auchmangeltesanillustrativen,methodischnachvoll-
ziehbarenBeispielenundFällen.
Mit diesem Buch haben wir hartnäckig versucht, uns auf das Wie zu konzentrieren,
undnichtnuraufdasWas.SelbstverständlichhabenwirdiefachlicheEinbettung derBI-
ProblemeindasbetrieblicheUmfeldnichtvölligaußerAchtgelassen.MitderQuantifizie-
rungundFormalisierungderbetrieblichenFragestellungenundderDarstellungzugehö-
rigermethodischerLösungenvonBusinessIntelligence, wiebeispielsweiseDataMining,
maschinellesLernen,statistischeDatenanalyseundOperations Research,habenwir uns
ein vertracktes Darstellungsproblem eingehandelt: Die Vielfalt der Notationen in diesen
Fachgebieten.SobezeichnetalleindasSymbol„π“inderMathematikeineKonstante,im
Operations Research einen Schattenpreis beim linearen Optimieren, in der Datenbank-
TheorieeinenProjektionsoperatorusw.InderStatistikwerdenZufallsvariablentraditionell
mitgroßenBuchstabenwie„X,Y,...“bezeichnet,imOperationsResearchüblicherweise
nur in Ausnahmefällen, siehe Produktions- und Lagerhaltung bei stochastischer Nach-
frage.Dafürwerdenwiederum(deterministische)BestandsgrößenwiederLagerbestandin
Periodet,I ,mitgroßenBuchstabenbezeichnet.NachreiflicherÜberlegunghabenwiruns
t
entschlossen,indeneinzelnenKapitelnsoweitwiemöglichandenjeweiligendomänen-
spezifischenBezeichnernfestzuhalten.DieIdeeeinereinheitlichen,kapitelübergreifenden
Notationhabenwirbewusstverworfen.
Unsere Herangehensweise an Business Intelligence ist natürlich durch etliche For-
schungs-undEntwicklungsprojekteunddiejahrzehntelangeLehrerfahrungimakademi-
schenBereichmitgeprägt.DazuhabenganzeGenerationenvonStudierendenbeigetragen.
Im Mittelpunkt stand dabei nie die reine Stoff- oder Faktenvermittlung, sondern eine
spezifischeDenkweise,wieBIinderPraxiserfolgversprechendeinzusetzenist:
1. Untersuchungszielefestlegen,
2. Datenbeschaffung durch Buchführung, Messen oder Schätzen, Herunterladen (engl.
crawlen)vonInhaltenausdemInternetoderdurchgeplanteExperimente,
3. DatenintegrationineinDataWarehouseinVerbindungmiteffizientenDatenstrukturen
für„massiveDatenmengen“oder–modernerausgedrückt–„BigData“,
4. explorativeDatenanalysemittelsstatistischer,Data-Mining-odermaschinellerLernver-
fahren,sowie
5. WissensgenerierungimSinnevonKnowledgeDiscoveryinDatabases(KDD)durchIn-
terpretation,VisualisierungundTabellierungderErgebnisse.
Wir wollen auch das an der Freien Universität Berlin in den Jahren 2005–2008 durch-
geführte kooperative Forschungsprojekt Global Business Intelligence Server (BussI) nicht
Vorwort VII
unerwähntlassen,dasvonderIBMDeutschlandGmbHundderForschungsgruppeder
DaimlerChrysler, Berlin,finanziell, soft- undhardwaremäßig unterstützt wurde. Dessen
Zielsetzungbestanddarin,ausgewähltemarktgängigeBI-Methoden,insbesonderederAn-
bieter IBM, Microsoft, Oracle und SAP, zu testen bzw. anhand von Literatur zu sichten,
wissenschaftlicheinzuordnenundaufmethodischeSoliditätzuuntersuchen.Diesgeschah
getreudemMotto:„Rerumcognoscerecausas“(dt.„DieUrsachenderDingeerkennen“).
DievomBussI-ProjektteamimRahmenvonForschungsberichten,Diplomarbeitenund
DissertationengesammeltenErkenntnissehabenStrukturundteilweiseInhaltdiesesBu-
chesmitgeprägt.
DerersteAutorhatteersteinternationaleErfahrungenalsBI-BeraterimSiliconValley
zu den Hochzeiten des Dot-Com-Booms1999 und2000 sammelndürfen.Ihm istnoch
lebhafteinER-DiagrammmithundertenEntitätenbeieinemKundenvorAugen,daseine
ganzeWandfüllte.DieMöglichkeitamGraduiertenkolleg Verteilte Informationssysteme
(GKVI)zupromovieren–mit soinspirierendenProfessorenwie O.Günther sowieKol-
legiaten wieM.SchaalundD.Asonov –hatihnnachhaltigwissenschaftlichgeprägt.Die
ArbeitamEU-ProjektPARMENIDESmitM.SpiliopoulouundanderUniversitätTwente
mitJ.vanHillegersbergsindweitereErfahrungsgrundlagenfürdiesesBuch.
Den zweiten Autor haben drei internationale Workshopsnachhaltig beeinflusst, eine
derBusinessIntelligenceangemesseneDenkweisezuerlernen.Einmalhandeltessichum
denspäterberühmtgewordenenEdinburgh-WorkshopüberStatistikundKünstlicheIntel-
ligenzEndederachtzigerJahre,veranstaltetvonD.HandundD.Spiegelhalter.Zumanderen
sinddieimZwei-Jahres-RhythmusstattfindendenWorkshopsAIandStatisticsinFt.Lau-
derdalezunennen,die1986vondenBellLabs,USA,initiiert wurden.Lastbutnotleast
gehörthierzuauchdieFolgevonWorkshopsinUdine,Italien,diedieInternationalSchool
fortheSynthesisofExpertKnowledge(ISSEK)allezweiJahredurchführteunddieunsere
KollegenG.DellaRicciaundR.KruseinsLebenriefen.
Abschließend sei uns noch eine Bemerkung zur Rolle von „Wissen“ und „Wissens-
generierung“speziellimunternehmerischenUmfeldgestattet,dieindiesemBuchimVor-
dergrundzustehenscheint.Alsindensechziger Jahrenamberühmten Institute forAd-
vancedStudies,Princeton,A.EinsteinvonseinennaturwissenschaftlichenKollegen zum
Slogan„KnowledgeisPower“befragtwurde,brachteerseineSichtaufdenPunktmitder
Antwort„Phantasieistwichtiger alsWissen“.Demhabenwirnichtshinzuzufügen;denn
Schumpeters Aussagen,ohnedieIdeenvonUnternehmern–imSinnevon„etwasunter-
nehmen“– läuft die Wirtschaft nicht, gilt nach wie vor.Kurzum, Wissen wird nie allein
Ersatzfürunternehmerische,d.h.menschlicheKreativitätsein[219,294].Soft-undHard-
wareführennichtzu„intelligenten Maschinen“,sondernwaren,sindundbleibenfürdie
Managerwertvolle,unverzichtbareAssistentenundRechenknechte.DennWissenalleinist
zwar notwendig, aber bekanntlich nicht hinreichend für erfolgreiches (wirtschaftliches)
Handeln.
SchließenwirmitG.C.Lichtenberg,derdenAutorendiesesBuchesHoffnunggibt:„Die
NeigungdesMenschen,kleineDingefürnützlichzuhalten,hatsehrvielGroßeshervor-
gebracht.“
VIII Vorwort
WirdankenvielenunsererKollegenfürkritischeHinweiseaufunklarformuliertePas-
sagenimManuskript,insbesondereK.Lenz,F.KlawonnundM.Soeffky.Besondershervor-
hebenwollenwirdieMitarbeiterundMitarbeiterinnenvomSpringerVerlag,Heidelberg,
fürihrEngagement,unsjederzeitbehilflichzusein,undfürihreGeduldbeimWartendar-
auf,dasswirdasManuskriptabliefern.WirwidmendiesesBuchKT undMHSfürderen
VerständnisundUnterstützung.
Berlin,Juni2013 RolandM.Müller
Hans-J.Lenz
Inhaltsverzeichnis
Abkürzungs-undSymbolverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII
1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Datenbereitstellung:DataWarehousing . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 DataWarehouseArchitektur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Architekturkomponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Architekturvarianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1 ETL-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.2 Schemakonflikte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Datenkonflikte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1 KenngrößenderQualitätsmessung . . . . . . . . . . . . . . . . . . . . . 38
2.4.2 Qualitätssicherungsprozess. . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.3 Datenqualitätsberichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5 OnlineAnalyticalProcessing(OLAP) . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5.1 AnforderungenanOLAPSysteme . . . . . . . . . . . . . . . . . . . . . . 50
2.5.2 FaktenundDimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5.3 OLAPGrundoperationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5.4 Summierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.5.5 Speicherarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.6 MultidimensionaleDatenmodellierung . . . . . . . . . . . . . . . . . . . . . . . 59
2.6.1 MultidimensionaleModellierungssprachen. . . . . . . . . . . . . . . . 59
2.6.2 Star-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.6.3 Snowflake-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.6.4 Galaxie-Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6.5 Fact-Constellation-Schema. . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6.6 Historisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.6.7 VorgehensweisenfürdiemultidimensionaleModellierung . . . . . 68
IX
Description:Das Buch befasst sich mit der Bereitstellung von Daten und Verfahren für analytische Zwecke (Planung, Entscheidung, Controlling sowie Fehlerrückverfolgung) in Unternehmen sowie der notwendigen Rechenleistungen. Die Autoren erläutern die Datenbereitstellung mittels Data Warehouses, Auswertung mitt