Table Of ContentSpringer-Lehrbuch
Franz Kronthaler
Statistik angewandt
Datenanalyse ist (k)eine Kunst
Franz Kronthaler
Hochschule für Technik und Wirtschaft HTW
Chur, Schweiz
ISSN 0937-7433
ISBN 978-3-642-53739-4 ISBN 978-3-642-53740-0 (eBook)
DOI 10.1007/978-3-642-53740-0
Mathematics Subject Classification Number (2010): 62-01, 62-07, 62F03, 62G10, 62J05, 62P20, 62P25
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; de-
taillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer Spektrum
© Springer-Verlag Berlin Heidelberg 2014
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht aus-
drücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das
gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Ein-
speicherung und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk be-
rechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der
Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann
benutzt werden dürften.
Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier
Springer Spektrum ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer
Science+Business Media
www.springer-spektrum.de
Eine Notiz für den Leser
Das Buch ist für all jene geschrieben, die mit Hilfe von Daten Informationen gewinnen
wollen. Studenten aus den unterschiedlichsten Fachbereichen müssen Daten analysieren,
um ihre Arbeiten zu schreiben. Unternehmen, Vereinen und Verwaltungen stehen Daten
zur Verfügung, die sie nutzen können, um Entscheidungen zu treffen. Viele Personen
scheuen sich aber davor, Datensätze anzufassen. Sie glauben, für sie sei die Datenanalyse
zu kompliziert. Das Buch ist für all diese Personen konzipiert. Es gibt einen einfachen Zu-
gang zur Analyse eines Datensatzes. Gleichzeitig versetzt es in die Lage, Datenanalysen
und Aussagen anderer Leute besser einzuschätzen. Wer kennt den Satz nicht: Traue keiner
Statistik, die du nicht selbst gefälscht hast.
Das besondere Feature des Buches ist, dass es anhand eines Datensatzes die Methoden
der Statistik nach und nach diskutiert. So wird verständlich, wie die Methoden der Statis-
tik aufeinander aufbauen und wie nach und nach immer mehr Informationen aus einem
Datensatz gezogen werden können. Dabei wird auf die Inhalte der Statistik fokussiert, die
benötigt werden, einen Datensatz zu analysieren. Inhalte die bei der Datenanalyse nur sel-
ten gebraucht werden, sind weggelassen. Das Buch bleibt somit schlank.
Das zweite Feature des Buches ist sein Fokus auf die Anwendung. Das Buch ist nicht-
mathematisch geschrieben. Aus Erfahrung weiß ich, dass die Mathematik Leser oft ab-
schreckt, Statistik zu lernen und anzuwenden. Aus diesem Grund konzentriert sich das
Buch auf die Konzepte und Ideen der Statistik und auf deren Anwendung. Der Leser wird
so in die Lage versetzt, statistische Methoden zu benutzen. Ich glaube nicht, dass Statistik
ganz ohne Mathematik unterrichtet werden kann. Es ist aber möglich, die Mathematik auf
das Wesentliche zu reduzieren und so einzubauen, dass die Anwendung der Statistik statt
der Mathematik im Vordergrund steht. Der Leser des Buches soll nicht mehr merken, dass
mathematische Konzepte benutzt werden, um Wissen zu erzeugen. Er soll mit Spaß erler-
nen, welchen Nutzen es hat, die statistischen Methoden zu verwenden.
Das dritte Feature ist die leichte Ersetzbarkeit des Datensatzes. Es ist ohne weiteres
möglich, einen anderen Datensatz zu verwenden und mit diesem das Buch durchzuarbei-
ten. Die Analyse eines Datensatzes erfordert ein systematisches Vorgehen. Dieses systema-
tische Vorgehen ist durch den Aufbau des Buches abgebildet.
Alle drei Features zusammen versetzen den Leser in die Lage, ohne großen Aufwand
einen Datensatz systematisch zu analysieren.
Datenanalyse macht Spaß!
V
Lern-Features des Buches
Das Buch diskutiert die Statistik an einem realitätsnahen Beispiel. Der Leser soll nach Le-
sen des Buches in der Lage sein, Informationen aus einem Datensatz zu ziehen. Damit
dies gelingt, nutzt das Buch neben der Diskussion am konkreten Beispiel folgende weitere
Features.
Rechnen mit Hand und rechnen mit Excel: Die Beispiele werden sowohl mit Hand (für
eine überschaubare Anzahl an Beobachtungen) als auch mit Excel (an einem vollständigen
Datensatz) gerechnet. Dies erleichtert das Verstehen der Ideen und Konzepte der statisti-
schen Methoden, gleichzeitig lernen wir die Anwendung an einem größeren Datensatz.
Freak-Wissen: Die Rubrik Freak-Wissen dient dem Ansprechen von Wissen und Kon-
zepten, die über die Inhalte des Buches hinausgehen. Es werden interessante Aspekte an-
gesprochen, die zusätzliches Wissen generieren, ohne diese vollständig zu diskutieren. Die
Rubrik soll zudem Lust auf mehr machen.
Checkpoints: Am Ende jedes Kapitels werden die wichtigsten Punkte kurz stichwortartig
zusammengefasst. Der Leser bekommt somit einen Überblick darüber, was er aus dem je-
weiligen Kapitel insbesondere mitnehmen sollte. Zudem ist er gefordert, über diese Punkte
noch einmal nachzudenken.
Anwendungen & Lösungen: Zusätzlich zu den Checkpoints werden am Ende jedes Kapi-
tels Übungen bereitgestellt, die das diskutierte Wissens vertiefen sollen. Das Verstehen der
Konzepte der Statistik wird durch das Rechnen von Hand gefördert, das Praktizieren mit
Excel dient der weiteren Vertiefung der Analyse eines Datensatzes. Die Lösungen hierzu
findet man am Ende des Buches.
Weitere Datensätze: Ebenfalls am Ende des Buches ist ein weiterer Datensatz bereitge-
stellt, der es dem Leser erlaubt, das Erlernte an einem weiteren konkreten Beispiel anzu-
wenden. Ferner finden Dozenten und Studenten aus anderen Fachrichtungen unter www.
statistik-kronthaler.ch weitere Datensätze, die es ermöglichen, Statistik anhand konkreter
fachbezogener Anwendungsbereiche zu erlernen.
VII
Inhaltsverzeichnis
Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden
1 Statistik ist Spaß 3
Warum Statistik? 3
Checkpoints 4
Daten 4
Checkpoints 7
Skalen – lebenslang wichtig bei der Datenanalyse 8
Checkpoints 9
Software: Excel, SPSS, oder „R“ 10
Excel 11
Fallbeispiele – der beste Weg zum Lernen 14
Fallbeispiel: Wachstum von Unternehmen 14
Anwendung 15
Teil II Beschreiben, nichts als beschreiben
2 Mittelwerte: Wie verhalten sich Personen und Objekte im Schnitt 19
Mittelwerte – für was wir sie brauchen 19
Der arithmetische Mittelwert 19
Der Median 22
Der Modus 23
Der geometrische Mittelwert und Wachstumsraten 23
Welchen Mittelwert sollen wir verwenden und was müssen wir sonst
noch wissen? 24
Checkpoints 26
Berechnung der Mittelwerte mit Excel 26
Anwendung 29
IX
X Inhaltsverzeichnis
3 Streuung: Die Abweichung vom durchschnittlichem Verhalten . . . . . . . . . . . . . 31
Streuung – die Kehrseite des Mittelwertes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Die Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Der Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Der Quartilsabstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Der Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Berechnung der Streuungsmaße mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Erstellen des Boxplots mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Häufigkeiten: Wie oft treten Beobachtungen auf . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Die Häufigkeitstabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Das Häufigkeitsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Absolute Häufigkeitsdarstellung, relative Häufigkeitsdarstellung oder
Histogramm? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Erstellung der Häufigkeitstabelle und der Häufigkeitsdarstellung mit Excel . . . . . 50
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 Korrelation: Vom Zusammenhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Korrelation – das gemeinsame Bewegen zweier Variablen . . . . . . . . . . . . . . . . . . . . 59
Der Korrelationskoeffizient von Bravais-Pearson für metrische Variablen . . . . . . . 60
Das Streudiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Der Korrelationskoeffizient von Spearman für ordinale Variablen . . . . . . . . . . . . . 65
Der Vierfelderkoeffizient für nominale Variablen mit zwei Ausprägungen . . . . . . 67
Der Kontingenzkoeffizient für nominale Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Korrelation, Kausalität, Drittvariablen, und weitere Korrelationskoeffizienten . . . 71
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Berechnung der Korrelationskoeffizienten mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . 74
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6 Verhältniszahlen: Die Chance, Neues aus altem Wissen zu erzeugen . . . . . . . . . 81
Die Beziehungszahl – der Quotient aus zwei unterschiedlichen Größen . . . . . . . . 82
Die Gliederungszahl – der Quotient aus einer Teilzahl und einer Gesamtzahl . . . 83
Die dynamische Messzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Inhaltsverzeichnis XI
Teil III Von Wenigen zu Allen
Von Wenigen zu Allen oder von der Stichprobe zur Grundgesamtheit . . . . 87
7 Von Daten und der Wahrheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Wie kommen wir zu unseren Daten oder: Primär- oder Sekundärdaten? . . . . . . . 89
Die Zufallsstichprobe – Der beste Schätzer für unsere Grundgesamtheit . . . . . . . . 92
Von der Wahrheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8 Hypothesen: Nur eine Präzisierung der Frage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Das kleine, große Ding der (Forschungs-)Hypothese . . . . . . . . . . . . . . . . . . . . . . . . 101
Die Nullhypothese H und die Alternativhypothese H . . . . . . . . . . . . . . . . . . . . . . 102
0 A
Hypothesen, ungerichtet oder gerichtet? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Was macht eine gute Hypothese aus? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9 Normalverteilung und andere Testverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Der z-Wert und die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Normalverteilung, t-Verteilung, χ2-Verteilung und (oder doch lieber)
F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Berechnung mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10 Hypothesentest: Was gilt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Was bedeutet statistische Signifikanz? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Das Signifikanzniveau α . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Schritte beim Durchführen des Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Wie wähle ich mein Testverfahren aus? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Teil IV Verfahren zum Testen von Hypothesen
Zeit für die Anwendung des Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . 135
11 Der Mittelwerttest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Einführung zum Mittelwerttest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Die Forschungsfrage und Hypothesen beim Mittelwerttest: Sind
Unternehmensgründer im Durchschnitt 40 Jahre alt? . . . . . . . . . . . . . . . . . . . . . . . . 137
XII Inhaltsverzeichnis
Die Testverteilung und Teststatistik beim Mittelwerttest . . . . . . . . . . . . . . . . . . . . . . 138
Der kritische Wert beim Mittelwerttest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Der z-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Die Entscheidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Der Mittelwerttest bei unbekannter Standardabweichung in der
Grundgesamtheit oder bei kleiner Stichprobe n < 30 . . . . . . . . . . . . . . . . . . . . . . . . . 140
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Berechnung mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
12 Der Test auf Differenz von Mittelwerten bei unabhängigen Stichproben . . . . . 145
Einführung in den Test auf Differenz von Mittelwerten bei
unabhängigen Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Die Forschungsfrage und Hypothesen beim Test: Sind Frauen und Männer
zum Zeitpunkt der Gründung gleich alt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Die Testverteilung und die Teststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Der kritische t-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Der t-Wert und die Entscheidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Gleiche oder ungleiche Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Berechnung mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
13 Der Test auf Differenz von Mittelwerten bei abhängigen Stichproben . . . . . . . . 155
Einführung in den Test auf Differenz von Mittelwerten bei
abhängigen Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Das Beispiel: Schulung von Unternehmensgründern in der
Vorgründungsphase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Die Forschungsfrage und die Hypothesen beim Test: Hat die
Schulung einen Einfluss auf die Einschätzung des Marktpotentials? . . . . . . . . . . . . 157
Die Teststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Der kritische t-Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Der t-Wert und die Entscheidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Die Berechnung mit Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
14 Der Test auf Korrelation bei metrischen, ordinalen und nominalen Daten . . . 165
Der Test auf Korrelation bei metrischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Der Test auf Korrelation bei ordinalen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Der Test auf Korrelation bei nominalen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Checkpoints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177