Table Of ContentDeskriptive Statistik
Franz Ferschl, *20.6.1929 in Freistadt (Oberösterreich). Ab 1948 Studium der Mathe
matik und Physik an der Universität Wien. Dort 1952 Lehramtsprüfung ftir das Lehramt
an Gymnasien, 1956 Promotion zum Dr. phil. 1955-1965 Statistiker in der Bundes
kammer der gewerblichen Wirtschaft in Wien. 1964 Habilitation ftir Statistik an der
Rechts-und Staatswissenschaftlichen Fakultät der Universität Wien. 1965 bis 1972
ordentlicher Professor für Statistik an der Universität Bonn, 1972 bis 1975 an der Uni
versität Wien, seit 1975 an der Universität München im Institut ftir Statistik und Wissen
schaftstheorie.
Franz Ferschl
Deskriptive Statistik
2., verbesserte Auflage
Springer-Verlag Berlin Heidelberg GmbH
1980
CIP-Kurztitelaufnahme der Deutschen Bibliothek
Ferschl, Franz:
Deskriptive Statistik/Pranz Ferschl.- 2.,
verb. Aufl.-Würzburg, Wien: Physica-Verlag,
1980.
(Physica-Paperback)
ISBN 978-3-7908-0232-0 ISBN 978-3-662-21775-7 (eBook)
DOI 10.1007/978-3-662-21775-7
Das Buch oder Teile davon dürfen weder photomechanisch, elektronisch noch in irgend·
einer anderen Form ohne schriftliche Genehmigung des Verlages wiedergegeben werden.
© Springer-Verlag Berlin Heide1berg 1978, 1980
Ursprünglich erschienen bei Physica-Verlag, RudolfLiebing GmbH GmbH+ Co., Würzburg 1980
Composersatz und Offsetdruck "Journalfranz" Arnulf Liebing GmbH + Co., Würzburg
Vorwort
Grundlage dieses Buches sind zwei Statistik-Skripten, die ich seit 1965 im
Einführungsunterricht an den Universitäten Bonn und Wien verwendet habe.
An beiden Orten erstreckte sich die Einftihrung in die Statistik für Wirt
schafts-und Sozialwissenschaftler auf zwei Semester; die Vorlesung des ersten
Semesters war dabei hauptsächlich der de.skriptiven Statistik gewidmet. Viele
spezielle Einzelheiten sind somit im praktischen Unterricht erprobt; einige
Besonderheiten der Reihenfolge, die dem Kenner auffallen werden (Index
rechnung vor den mehrdimensionalen Merkmalen, die Reihenfolge: qualita
tiv, quantitativ, ordinal beim Studium des Zusammenhangs in Kapitel 5.) wur
den dabei, der Unterrichtspraxis folgend, bewußt beibehalten.
Neben dem elementaren Kanon der deskriptiven Statistik finden hier eini
ge Themen besondere Berücksichtigung, die vor allem Wirtschafts-und Sozial
wissenschaftler interessieren können: Theorie der Mittelwerte, Messung der
Konzentration, Indexrechnung und Standardisierung, Maße der nominalen
und ordinalenAssoziationsowie das mehrmals wiederkehrende Thema der
Streuungszerlegung. Die verwendete Mathematik ist fast durchwegs ganz ele
mentar; die Matrizenrechnung etwa wird nur im Abschnitt über die multiple
Regression eingesetzt. Ausdruck des elementaren Charakters sollten auch die
ausführlichen Rechenschemata und die zahlreichen vollständig durchgerech
neten Beispiele sein, welche die theoretischen überlegungen begleiten. Man
kann natürlich fragen, ob so etwas zu tun im Zeitalter der "statistical pack
ages", die heute schon zu Taschencomputern angeboten werden, noch sinn
voll ist. Nun, diese Programme enthalten im wesentlichen genau das, was hier
im Detail dem direkten Verständnis nahegebracht werden soll. Besonderes
Augenmerk wurde auch auf die Bereitstellung von geeigneten übungsaufga
ben gelegt. Originelle, ohne großen Aufwand rechenbare Aufgaben zu finden,
ist gerade in der deskriptiven Statistik - im Gegensatz etwa zur Wahrschein
lichkeitsrechnung-nicht ganz leicht. Neben Aufgaben, die in Statistik-Klau
suren und Tutorenkursen erprobt wurden, die also in relativ kurzer Zeit "von
Hand" durchgerechnet werden können, habe ich-vor allem im 5. Kapitel
auch Beispiele aufgenommen, die eine größere Realitätsnähe mit etwas größe
rem Rechenaufwand erkaufen. Schließlich findet man auch Ergänzungen des
Stoffes in theoretische Aufgaben gekleidet, die von einem interessierten Le
ser leicht gemeistert werden können. Nicht zuletzt sollte dieser Typ von Auf
gaben zeigen, daß auch in der deskriptiven Statistik eine Reihe von weiterfüh
renden und zugleich interessanten Fragestellungen zu finden sind.
Es erscheint mir angemessen, die Präsentation eines Lehrbuches der des
kriptiven Statistik mit einigen Reflexionen über die Bedeutung dieses Teils
der Statistik einzubegleiten. Überblickt man die statistische Literatur der letz-
6 Vorwort
ten Jahrzehnte, so bemerkt man, daß die Beschäftigung mit der deskriptiven
Statistik als selbständiger statistischer Methode zunächst drastisch zurückge
gangen war. In der Pionierzeit der modernen Statistik sowohl im angelsächsi
schen Bereich als auch auf dem europäischen Kontinent fehlte zunächst eine
klare Trennung zwischen der Beschreibung und Analyse von Fakten einerseits
und der statistischen Inferenz andererseits. Mit der rasanten Entwicklung der
mathematischen Statistik, die eine Fülle von wahrscheinlichkeitsbezogenen
Modellen zur Lösung mannigfacher Probleme hervorbrachte, wurde die be
wußte Pflege der Deskription etwas ins Abseits gedrängt. Nur in den Berei
chen der Bevölkerungs-und Wirtschaftsstatistik, die es direkt mit sehr großen
Aggregaten zu tun haben, war naturgemäß die Frage nach der "geeigneten
Maßzahl" zur Beschreibung-eines Phänomens im Vordergrund geblieben.
Musterbeispiele sind die Konzentrationsmessung und die Indexrechnung. An
sonsten wurden Daten immer mehr als Stichproben, und Maßzahlen haupt
sächlich nach ihren Verteilungseigenschaften bei der Schätzung unbekannter
Parameter von stochastischen Modellverteilungen beurteilt. Ein Anliegen des
vorliegenden Buches ist es zu zeigen, daß die deskriptive Statistik mehr bein
haltet als bloße Datenverarbeitung für die Zwecke der statistischen Inferenz.
Neuerdings scheint sich hier eine Tendenzwende anzubahnen. Zum Zeugen
seien zwei rezente Publikationen aufgerufen. Tukey [1977] ist eine sehr aus
führliche und eingehende Darstellung der deskriptiven Statistik, die hier als
"Exploratory Data Analysis" apostrophiert wird. Dort finden wir auf Seite
lf.:
The processes of criminal justice are clearly divided between the search for
the evidence ... and the evaluation of the evidence's strength - a matter
of juries and judges. In data analysis a similar distinction is helpful. Explo
ratory data analysis is detective in character. Confirmatory data analysis is
judicial or quasi-judicial in character ... Unless the detective finds the
clues, judge or jury has nothing to consider. Unless exploratory data ana/
ysis uncovers indications, usually quantitative ones, there is likely to be
nothing for confirmatory data analysis to consider.
Die Arbeit Guttman [1977] setzt sich kritisch mit gewissen Fehlanwendun
dungen der inferenzstatistischen Methode auseinander und betont dabei die
Bedeutung, ja den Vorrang der (deskriptiven) Datenanalyse {S. 82):
In recent years eminent mathematical statisticians ... have underlined
limitations of statistical inference; there is increasing emphasis on the need
for focusing on data analysis instead.
Und zur selbständigen Bedeutung der Daten selbst:
... Nor do such investigators show that they are aware of the fact that
their data analytic problern would remain even if there were no sampling
error ...
Vorwort 7
In dem vorliegenden Buch wird also "exploratory data analysis" betrieben;
die Daten werden als für sich stehend betrachtet und nicht in erster Linie als
Stichproben aus einer Grundgesamtheit (auch dann, wenn sie tatsächlich als
Stichproben gewonnen wurden). Das zieht allerdings bei der Wahl von Be·
zeichnungen manche Schwierigkeit nach sich. Ein typisches Beispiel hiefür
bietet die empirische Varianz, die mit a2 bezeichnet wurde. Fast durchwegs
wird in der Datenanalyse hierfür das Symbol s2 gebraucht und der Nenner
n - 1 zur Division der Quadratsumme der Abweichungen verwendet. Natür
lich ist die Zahl n - 1 nicht aus einer sachlichen Interpretation des Streuungs
phänomens zu rechtfertigen, sondern nur aus Eigenschaften eines Schätzers
fur die Varianz einer hinter den Daten liegenden Modellverteilung. Jedoch:
Welcher Schätzer? Welche Eigenschaften? Welche Verteilung? Diese Fragen
zeigen, daß ein Argumentieren mit Stichprobeneigenschaften - zumindest in
diesem Fall - für die deskriptive Statistik nichts einbringt. Deskriptiv am
sinnvollsten erscheint die Division durch n. Würde man dieses Ergebnis aber
mit s2 bezeichnen, entstünde erst recht eine arge Bezeichnungskollision mit
dem gewohnten Gebrauch dieses Symbols. Anders die Lage beim Korrela
tionskoeffizienten. Er wurde mit r bezeichnet, einem Symbol, das häufig für
eine Stichprobenfunktion verwendet wird. Da bei Verwendung von p der Re
chenausdruck für den - empirischen - Korrelationskoeffizienten mit dem
Parameter einer speziellen Modellverteilung, nämlich der bivariaten Normal
verteilungyleicht verwechselt wird, wurde in diesem Fall das Stichprobensym
bol übernommen und p für Speannans Koeffizient verwendet. Im Grunde
wird durch diese Schwierigkeiten nur deutlich, daß hinter scheinbar harmlo
sen Bezeichnungskonventionen theoretische Entscheidungen stehen, aber
neuen theoretischen Konzepten leider oft nicht mit einem - an sich notwen
digen - kompletten neuen Satz von Symbolen entsprochen werden kann.
Dieses Lehrbuch hat vor allem drei "geistige Väter", deren Einfluß zum
Teil schon die Abfassung der ihm zugrundeliegenden Skripten begleitete1 ).
Es sind dies Pfanzagl [ 1972], Calot [1973] und Benninghaus [ 1974]. Das
Büchlein von Pfanzagl ist insofern bahnbrechend, als es zeigt, daß nach wie
vor originelle Methoden und scharfsinnige Argumente auch in scheinbar ein
fachsten Gebieten der Datenanalyse ihren Platz haben. Das umfangreiche
Werk von Calot hat mich ermutigt, auch bei einfacheren Fragen der Datenor
ganisation eine ausführliche Darstellung beizubehalten. Beide Werke haben
besonders das Kapitel 4. über Indexrechnung und Standardisierung stark be
einflußt. Benninghaus kommt das Verdienst zu, das Opus der Autoren Good
man und Kruskal über nominale und ordinale Assoziationsmaße für den
1) Dies betrifft in erster Linie frühere Auflagen der zitierten Bücher von P[anzagl und
von Calot.
8 Vorwort
deutschsprachigen Einfiihrungsunterricht aufbereitet zu haben. Gegenüber der
Skripten-Urfassung wurde dann auch Kapitel 5. am stärksten umgearbeitet
und erweitert. Einen Anstoß dazu gab Benninghaus [1974].
Die Aufgabensammlung dieses Buches hätte ohne ein am Institut fiir Sta
tistik der Universität Wien entstandenes Manuskript "100 Aufgaben zur des
kriptiven Statistik" nicht in der vorliegenden Fonn gegeben werden können.
Herr Wemer Till, Wien hatte einen wesentlichen Beitrag zum Zustandekom
men dieses Manuskripts geleistet. Herrn Dr. Klaus Steiner, Bonn verdanke ich
einige zentrale Beispiele dieser Sammlung. Die Grundlagen für das Sachver
zeichnis steuerte Herr Dr. KlausHoagen bei; Frau RosiMaisberger hat bei der
Überprüfung der Druckfahnen wertvo11e Hilfe geleistet. Schließlich möchte
ich auch Frau Adelheid Schuller danken, die sich um die zeitgerechte Fertig
stellung des Manuskripts große Verdienste erworben hat.
München, im Herbst 1977
Vorwort zur 2. Auflage
Bis auf einige kleine, aber nicht unwesentliche Verbesserungen konnte der
Text der ersten Auflage unverändert übernommen werden. Für mehrere wert
volle Änderungsvorschläge bin ich insbesondere Herrn Prof. Dr. Leo Knüsel,
München, zu großem Dank verpflichtet. Für weitere Anregungen möchte ich
auch den Herren Dr. Klaus Haagen, München und Dr. Fritz Poustka, Mann
heim recht herzlich danken.
München, im Frühjahr 1980
Inhaltsverzeichnis
1. Einführung. Grundbegriffe . . . . . . . . . . 13
1.1 Die Rolle der Statistik im Konzert der Wissenschaften 13
1.2 Deskriptive und induktive Statistik . . . . . . 14
1.3 Die statistische Verteilung . . . . . . . . . 16
1.3 .1 Grundgesamtheit, Merkmal, Merkmalsausprägungen 16
1.3.2 Die Klassifikation von Merkmalen . . . . . . 19
1.3 .3 Mehrdimensionale Merkmale . . . . . . . . 22
1.3.4 Hinweise auf einige weitere, oft gebrauchte Begriffe und Be-
zeichnungen . . . . . . . . . . . . . . . . 23
2. Datenorganisation; die Darstellung eindimensionaler Verteilungen. 27
2.1 Die Tabellendarstellung von Verteilungen . . . . . . . . 27
2.1.1 Die allgemeine Form der Verteilungstabelle bei einer endlichen
Zahl von Merkmalsausprägungen . . . . . . . . . . . 27
2.1.2 Die allgemeine Form der Verteilungstabelle bei quantitativ-ste-
tigem Merkmal; Klassenbildung . . . . . . . . . 29
2.2 Die geometrische (graphische) Darstellung von Verteilungen 33
2.2.1 Häufigkeitsdiagramme . . . . . . . . . . . . 33
2.2.2 Die Darstellung kumulierter Häufigkeiten; Summenkurven 36
2.2.3 Häufigkeitsverteilungen mit ungleichen Klassenbreiten, der Ver-
gleich von Verteilungen . 39
2.3 Aufgaben zu Kapitel 2 . . . . . . . . . . . . . . 44
3. Verteilungsmaßzahlen . . . . . . . . . . . . 46
3.1 Lagemaßzahlen (L ageparamete r, Lokalisationsparameter) 48
3.1'.1 Das arithmetische Mittel 48
3.1.2 Das geometrische Mittel 58
3.1.3 Das harmonische Mittel. 61
3.1.4 Das quadratische Mittel. Potenzmittel 63
3.1.5 Der Median (Zentralwert) . . . . 65
3.1.6 p-Quantile und daraus abgeleitete Lagemaße . 71
3.1.7 Der Modalwert (Modus) einer Verteilung . . 74
3 .1.8 Aufgaben und Ergänzungen zu Abschnitt 3.1 7 5
3.2 Streuungsmaßzahlen . . . . . . . . . 83
3.2.1 Allgemeine Überlegungen zum Phänomen der Streuung 83
3.2.2 Streuungsmaße, die von Quantilen abhängen. . . . 87
3.2.3 Streuungsmaße, welche die Abstände aller Merkmalsausprägun-
gen voneinander berücksichtigen . . . . . . . . . . . 88