Table Of ContentHerausgeber:
Prof. Dr. Holger Dette • Prof. Dr. Wolfgang Härdle
Statistik und ihre Anwendungen
Azizi Ghanbari, S.
Einführung in die Statistik für Sozial- und Erziehungs-
wissenschaftler 2002
Brunner, E.; Munzel, U.
Nichtparametrische Datenanalyse 2003
Dehling, H.; Haupt, B.
Einführung in die Wahrscheinlichkeitstheorie
und Statistik 2. Auflage 2004
Dümbgen, L.
Stochastik für Informatiker 2003
Falk, M.; Becker, R.; Marohn, F.
Angewandte Statistik 2004
Franke, J.; Härdle, W.; Hafner, C.
Statistik der Finanzmärkte 2. Auflage 2004
Greiner, M.
Serodiagnostische Tests 2003
Handl, A.
Mulitvariate Analysemethoden 2003
Hilgers, R.-D.; Bauer, R.; Scheiber, V.
Einführung in die Medizinische Statistik 2003
Kohn, W.
Statistik Datenanalyse und Wahrscheinlichkeitsrechnung 2005
Ligges, U.
Programmieren mit R 2005
Meintrup, D.; Schäffler, S.
Stochastik Theorie und Anwendungen 2005
Plachky, D.
Mathematische Grundbegriffe der Stochastik 2002
Pruscha, H.
Statistisches Methodenbuch 2006
Schumacher, M.; Schulgen, G.
Methodik klinischer Versuche 2002
Steland, A.
Mathematische Grundlagen der empirischen Forschung 2004
Helmut Pruscha
Statistisches
Methodenbuch
Verfahren, Fallstudien,
Programmcodes
123
Helmut Pruscha
Universität München
Institut für Mathematik
Theresienstraße 39
80333 München, Deutschland
e-mail : [email protected]
Bibliografische Information der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet
über http://dnb.ddb.de abrufbar.
Mathematics Subject Classification (2000): 62-01, 62-07, 62-04, 62P12
ISBN-10 3-540-26006-4 Springer Berlin Heidelberg New York
ISBN-13 978-3-540-26006-6 Springer Berlin Heidelberg New York
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der
Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funk-
sendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in
Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten . Eine Ver-
vielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom
9.September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig.
Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.
Springer ist ein Unternehmen von Springer Science+Business Media
springer.de
©Springer-Verlag Berlin Heidelberg 2006
Printed in Germany
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk
berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne
der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von je-
dermann benutzt werden dürften.
Umschlaggestaltung: design & production, Heidelberg
a
Datenerstellung durch den Autor unter Verwendung eines Springer L T E X -Makropakets
Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig
Gedruckt auf säurefreiem Papier 40/3142YL - 543210
Dem Andenken an meine Eltern
Vorwort
Statistik dringt in immer weitere Bereiche der Naturwissenschaft, Technik,
Medizin und Ökologie vor: Man denke an
• Wirksamkeits- und Qualitätsprüfung von Medikamenten oder von techni
schen Apperaturen
• Ermittlung von Faktoren, die Schäden im Wald oder im menschlichen
Körper bewirken
• Prädiktion von Naturereignissen, von Lagerstätten oder von klimatischen
Entwicklungen.
Nach der Datenerhebung tauchen typischer Weise solche Fragen auf:
• Sind die beobachteten Effekte signifikant - oder können sie durch Zufall
entstanden sein?
• Wie reduziere ich einen Satz miteinander korrelierter Variablen bzw. wie
kombiniere ich diese zu wenigen - aber aussagekräftigen - Faktoren?
• Wie können Datenpunkte in mehrdimensionalen Räumen visualisiert wer
den? Bei welcher Art von Projektion geben sie verborgene Strukturen
preis?
• Mit welchen Streubreiten muß bei den abgegebenen Prädiktionen gerech
net werden?
Solchen Fragen rückt der Statistiker mit seinem Methodenarsenal zu Leibe:
Varianz- und Regressionsanalyse, Diskriminanz-, Cluster- und Faktoranalyse,
Zeitreihenanalyse, mitsamt den darin enthaltenen Verfahren des Schätzens,
Testens und Errichtens von Konfidenzbereichen. Alle diese Methoden gehen
von gewissen einschränkenden Modellannahmen aus und lassen deshalb auch
nur eingeschränkte Aussagen zu. Diese aber werden in quantifizierter und
objektiv nachvollziehbarer Form gegeben.
Organisation des Buches. Ausgehend von Grundbegriffen und elementa
ren Verfahren (Kap. 1) wenden wir uns den (im Wesentlichen linearen) Stan
dardverfahren der Regressions- und Varianzanalyse zu (Kap. 2 und 3). Nicht-
\1111 \1orvvort
lineare statistische Methoden (Kap. 4 und 5.1) werden namentlich bei ka
tegorialen Daten benötigt. Diesem Datentyp begegnet der Statistiker immer
häufiger, weil aus Datenschutzgründen oft original metrische Daten codiert
werden. Nichtparametrische Kurvenanpassungen folgen (5.2 - 5.4). Interes
sieren uns als Zielgrößen mehrere Variablen gleichzeitig, so gelangen wir zu
den multivariaten Verfahren (Kap. 6 bis 8), die eine außerordentliche Attrak
tivität in den "life sciences" haben. Wir schließen mit den Analysemethoden
für Zeitreihen (Kap. 9), die sowohl in der Ökologie als auch in der Ökonomie
von Bedeutung sind.
Jedes Verfahren wird in der Regel durch ein Anwendungsbeispiel illu
striert. Diese Beispiele sind größeren real-wissenschaftlichen Fallstudien ent
nommen, die im Anhang A mit Daten(auszug) und kurzen Erläuterungenvor
gestellt werden. Den Fallstudien sind Programme in der Syntax der bekann
ten Statistikpakete Splus/R, SPSS, SAS angefügt. Mit ihrer Hilfe wurden die
präsentierten Auswertungen mitsamt der Abbildungen und Tabellen produ
ziert. Allerdings wurde stets eine Straffung der bisweilen sehr umfangreichen
Programm-Outputs vorgenommen. Die Programme im Anhang A enthalten
jeweilsden Rahmen und die Variablendefinitionen. Die Methoden-spezifischen
Codes finden sich in den jeweiligen Abschnitten des Buches.
Aus der umfangreichen Literatur zu den Programmpaketen soll erwähnt
werden: Venables & Ripley (1997), Handl (2002), Zöfel (2002), Falk (1995),
(2005), Dufneret al (2002). Informationenüber das open sourcePaketRerhält
man über http://cran.r-prajekt.arg/ .
Die Zielgruppe, die mit diesem Buch anvisiert wird, besteht: Einerseits aus
den Anwendern in den oben genannten Gebieten, die mit komplexeren Aus
wertungsproblemen konfrontiert sind, und die bis zu einer Feinanalyse ihrer
Daten vordringen möchten. Andererseits können sich Studenten und Dozen
ten in den Methodenwissenschaften (Mathematik, Statistik, Informatik) einen
Einblickindie Fragestellungenund LösungsangebotederStatistikverschaffen.
Vorausgesetzt werden Kenntnisse in der Wahrscheinlichkeitsrechnung, im
Wesentlichen eine gewisse Vertrautheit mit Grundbegriffen wie Wahrschein
lichkeit, Zufallsvariable,Verteilung, Erwartungswert,Varianz,Kovarianz,Kor
relation, Unabhängigkeit. Dieser Stoff wird in Einführungsvorlesungen in die
Stochastikanunseren Hochschulenangebotenundinder Einführungsliteratur
behandelt. Genannt seien: Bosch (2003), Krickeberg& Ziezold (1995), Georgii
(2002). Das erste Kapitel des vorliegenden Buches stellt eine (komprimierte)
Einführung in die Statistik dar.
Neben den Notationen aus der Stochastik werden - verstärkt ab Kap. 4
solche aus der Vektor- und Matrizenrechnung verwendet.
Dank habe ich an viele Personen zu entrichten. Neben meinen Kollegen am
MathematischenInstitut, insbesondereden MitarbeiternamehemaligenLehr
stuhl von Prof. Gänßler, muß ich Wissenschaftler aus anderen Instituten nen
nen, an deren Projekte ich mich beteiligen konnte. Stellvertretend für viele
Vorwort IX
erwähne ich Prof. Göttlein, dessen Waldzustandsdaten aus dem Spessart für
mich einen ständigen Ansporn zur statistischen Modellbildung und zur Me
thodenbeschaffung darstellen. Erprobt wurde der vorliegende Text an vielen
"Studentengenerationen", die an meinen Vorlesungen und Praktika über An
gewandte Statistik teilgenommen haben.
Errata werden nach Entdeckung auf meiner homepage
www.mathematik.uni-muenchen.de/~pruscha/
aufgelistet. Dort finden sich auch Dateien zu Fallstudien, die im Anhang A
nur in Auszügen abgedruckt werden konnten. Mitteilungen erbittet der Autor
per e-mail unter
pruscha©mathematik.uni-muenchen.de.
München Helmut Pruscha
Juni 2005
Je \1orvvort
Abkürzungen und Symbole
Abkürzungen, die häufiger vorkommen.
ANOVA Varianzanalyse
dirn dimensional
FG Freiheitsgrade
MANOVA Multivariate Varianzanalyse
ML Maximum-Likelihood
MQ Minimum-Quadrat
se Standardfehler (standard error)
SQ Summen-Quadrate
Symbole der Wahrscheinlichkeitstheorie.
IP Wahrscheinlichkeit
X,Y, ... Zufallsvariablen
IE(X) Erwartungswert von X
Var(X) Varianz von X
Cov(X,Y) Kovarianz von X und Y
Np(JL, E) p-dimensionale Normalverteilung mit Erwartungswert-Vektor JL
und Kovarianzmatrix E
Mengensymbole.
N natürliche Zahlen {I,2,...}
Z ganze Zahlen {...,-2,-1,0,1,2,...}
IR reelle Zahlen
IRP p-dimensionaler Raum der p-Tupel (Xl, ...,Xp) reeller Zahlen
Vektoren, Matrizen.
p-dim. Vektor a a==
a
p
a wird platzsparend auch a == (al,a2,...,ap)T geschrieben
Ableitungs-Vektoren und -Matrizen siehe (5.1) in Kap. 5
all al2 alm
a21 a22 a2m
p x rn-Matrix A A==
apl ap2 ... apm
o
al 0
o o
a2
p x p-Diagonalmatrix Diag(ai) ==
o
a
p
p X p-Einheitsmatrix Ip == Diag(l), alle Diagonalelemente == 1