Table Of ContentSpringer-Lehrbuch
Springer-Verlag Berlin Heidelberg GmbH
M. Falk R. Becker F. Marohn
Angewandte
Statistik mit SAS
Eine Einführung
Mit 111 Figuren und
1 DOS-Diskette mit Datensätzen und SAS-Programmen
i
Springer
Prof. Dr. Michael Falk
Dr. Frank Marohn
Mathematisch-Geographische Fakultăt
Katholische Universităt Eichstătt
D-85071 Eichstătt
Rainer Becker
Dr. Seidel Informationssysteme GmbH
Kapellenstrafie 20
D-82008 Unterhaching
Mathematics Subject Classification (1991): 62-01, 62-04,62-07, 62-09
ISBN 978-3-662-37655-3 ISBN 978-3-662-38449-7 (eBook)
DOI 10.1007/978-3-662-38449-7
Die Deutsche Bibliothek -CIP-Einheitsaufnahme
Angewandte Statistik mit SAS: eine EinfUhrung 1 M. Falk; R. Becker; F. Marohn -
Berlin; Heidelberg; New York; Barcelona; Budapest; Hong Kong; London; Mailand; Paris; Tokyo:
Springer.
(Springer-Lehrbuch)
NE: Falk, Michael; Becker, Rainer; Marohn, Frank
Buch.-1995
Diskette.-1995
Dieses Werk ist urheberrechtlich geschiltzt. Die dadurch begrilndeten Rechte, insbesondere die der
Obersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der
Funksendung, der Mikroverfilmung oder der Vervielfăltigung auf anderen Wegen und der Spei
cherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbe
halten. Eine Vervielfăltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur
in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland vom 9· September 1965 in der jeweils geltenden Fassung zulilssig. Sie ist grundsătzlich
vergiltungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechts
gesetzes.
© Springer-Verlag Berlin Heidelberg 1995
Urspriinglich erschienen bei Springer-Verlag Berlin Heidelberg New York 1995.
Die beigelegte Diskette im MS-DOS Format enthălt Datenslitze und SAS-Programme. Instal1ations
anweisungen finden sich in der Datei read.me im Hauptverzeichnis der Diskette. Der Springer-Ver
lag ist nicht Urheber der Daten und Programme, sondern stellt sie nur zur Verfilgung. Der Kunde
weiB, daB Software nicht feh1erfrei erstellt werden kann. Weder die Autoren, noch der Springer
Verlag ilbernehmen die Haftung filr diese Software, die Disketten, oder die Dokumentation,
einschlieBlich ihrer Qualitlit, Hande1s-oder Anwendungseignung. In keinem Fali ilbernehmen die
Autoren oder der Springer-Verlag eine Haftung filr direkte, indirekte, zufăllige oder Fo1geschiiden,
die sich aus der Nutzung der Software oder Dokumentation ergeben. Bei Material-oder Herstel-
1ungsfehlern oder bei Transportschiiden tauscht der Springer-Verlag den Datentriiger um. Darilber
hinaus ilbernimmt der Verlag keine Gewiihrleistung.
Satz: Reproduktionsfertige Vorlage vom Autor mit Springer TEX-Makros
SPIN 10102066 44/3143-5 4 3 2 1 o -Gedruckt auf siiurefreiem Papier
Vorwort
In der Regel ist die Analyse realer Datensätze mittels statistischer Methoden
unter Zuhilfenahme eines in Industrie und Verwaltung weitverbreiteten Soft
warepaketes kein integraler Bestandteil eines Mathematikstudiums, gehört aber
typischerweise zum späteren Berufsfeld.
Das vorliegende Buch soll diese Lücke schließen helfen, indem es eine Ver
bindung zwischen der mathematischen Statistik und einer Auswahl von in der
Praxis angewendeten statistischen Verfahren unter Einbeziehung des statisti
schen Softwarepaketes SAS (S.tatistical Analysis System) herstellt. Das Buch
richtet sich daher an Studenten der Mathematik sowie an Studenten angewand
ter Disziplinen wie der Wirtschafts- und Sozialwissenschaften, Biometrie und
Psychologie, zu deren Ausbildung Statistik-Veranstaltungen gehören. Es wen
det sich aber auch an den Praktiker, der sich über die Anwendung statistischer
Verfahren hinaus für deren mathematische Hintergründe interessiert. Zahlreiche
Problemstellungen illustrieren die Anwendungsmöglichkeiten der vorgestellten
statistischen Verfahren, wobei Lösungen unter Verwendung von SAS angege
ben sind. Die zugehörigen Programme sind explizit aufgeführt und erläutert.
Die diesem Buch beigefügte Diskette enthält diese Programme sowie die ver
wendeten Datensätze. Zusätzlich sind in einem Appendix die Grundlagen von
SAS (Version 6.xx) zusammengestellt. Dazu werden keinerlei Vorkenntnisse vor
ausgesetzt, weder in SAS noch in einem speziellen Betriebssystem, so daß eine
schnelle Einarbeitung in SAS gewährleistet ist.
Das Buch ist konzipiert für eine zweisemestrige statistische Veranstaltung
(Vorlesung, Seminar oder Praktikum), wobei die ersten vier Kapitel im ersten
Semester behandelt werden können. Zum Verständnis der mathematischen Hin
tergründe sind lediglich die Begriffe Verteilungskonvergenz, stochastische Kon
vergenz, Faltung, ML-Schätzer sowie Grundelemente der Testtheorie nützlich,
so daß die Veranstaltung im Anschluß an eine einführende Vorlesung in die Sto
chastik erfolgen kann. Zu jedem Kapitel werden Übungsaufgaben angeboten,
deren intensive Behandlung sehr empfohlen wird.
Wegen der Breite des Gebietes mußte zwangsläufig eine Auswahl der The
mengebiete erfolgen. Kapitell hat Elemente der explorativen Datenanalyse
(univariate Kern-Dichteschätzer , statistische Kenngrößen mit ihren Breakdown
points, Probability Plots, Quantil-Quantil Plots, Hanging Rootograms) zum
Inhalt, Kapitel 2 stellt Elemente der Statistik normalverteilter Daten (X2_, t-,
F-Verteilung, Unabhängigkeit von Stichprobenmittel und -varianz) bereit. Dies
führt zum t-Test und zum X2-Test. In einer nichtparametrischen Situation wird
der Wilcoxon-Test angesprochen. In Kapitel 3 werden mit der univariaten und
multiplen linearen Regression abhängige Stichproben betrachtet. Die polyno
miale Regression ergibt sich als Spezialfall der multiplen linearen Regression.
Kategoriale Daten werden in Kapitel 4 untersucht. Im Spezialfall einer katego
rialen Regression werden verallgemeinerte lineare Modelle, insbesondere Logit
und Probit-Modelle vorgestellt. Kapitel 5 enthält die klassische Varianzanalyse,
VI Vorwort
in der die unabhängigen Variablen von kategorialer Natur sind, aber auch den
Tukey-Test für multiple Mittelwertsvergleiche. Die Diskriminanzanalyse wird
in Kapitel 6 behandelt, wobei auch nichtparametrische Verfahren vorgestellt
werden. In diesem Zusammenhang wird auf multivariate Kern-Dichteschätzer
und auf die Verbindung zum Projection Pursuit eingegangen. Die Clusterana
lyse schließt sich in Kapitel 7 an. Nachdem Distanz- und Ähnlichkeitsmaße
eingeführt worden sind und die Visualisierung von Distanzmatrizen mittels der
Multidimensionalen Skalierung behandelt worden ist, werden verschiedene Me
thoden zur Clusterbildung vorgestellt. Wir beschränken uns auf die hierarchi
schen, agglomerativen Verfahren (Single-, Average-Linkage, etc.). Es werden
aber auch die Density-Linkage-Verfahren angesprochen. In Kapitel 8 wird die
Hauptkomponentenanalyse vorgestellt, wobei wieder die Verbindung zum Pro
jection Pursuit aufgenommen wird, und im letzten Abschnitt die daraus ab
geleitete Faktorenanalyse. Ein Appendix bietet eine Einführung in SAS, seine
Programmstruktur, Syntax, sein Display Manager System und die Einbindung
von Ergebnissen und Graphiken in Textverarbeitungssysteme.
Das Buch ist fortlaufend in einen mathematisch statistischen Teil und einen
SAS-spezifischen Teil gegliedert. Der SAS-spezifische Teil, zu dem auch die mit
SAS erstellten Abbildungen gehören, beginnt der Übersichtlichkeit wegen stets
mit einem Computersymbol, den Beginn einer Sitzung am Computer darstel
lend, und schließt mit einem Druckersymbol für das Ende der Sitzung.
Dieser SAS-spezifische Teil gliedert sich wiederum in eine mit SAS erzeugte
Abbildung, das Programm, welches diese Abbildung erzeugt hat, sowie Erläute
rungen zu diesem Programm. Um eine weitere Abgrenzung zwischen SAS
Befehlen und individuellen Namensgebungen zu erreichen, wurden SAS-eigene
Kommandos in GROSSBUCHSTABEN gesetzt, individuelle Bezeichnungen hin
gegen in kleinschrift.
Diese Programme befinden sich zusätzlich im Unterverzeichnis \programs
auf der beigefügten Diskette für IBM-kompatible PC. Im Directory \data sind
dort auch die im Buch verwendeten Datensätze als ASCII-Daten (Rohdaten) zu
finden. Im Unterverzeichnis \SASdata sind diese Datensätze im SAS-Transport
format abgelegt, was deren Einlesen in das SAS-System wesentlich vereinfacht.
Weitere Informationen über die Datensätze und deren Einlesen in das SAS
System sind im Hauptverzeichnis der Diskette in der Datei read.me enthalten.
Vorwort VII
Ohne die vielfältige Unterstützung hätte das vorliegende Buch nicht in der
vorgesehenen Zeit beendet werden können. Wir bedanken uns daher mit großer
Freude bei der Stiftung Katholische Universität Eichstätt und der Universität
für die finanzielle Unterstützung und bei Dr. Wolfgang Slaby für die technische
Unterstützung durch das von ihm geleitete Universitäts-Rechenzentrum. Insbe
sondere danken wir Barbara Woitas und Peter Zimmermann für die Erstellung
von U.TEX-Makros.
Werner Hohenberger hat das Manuskript sehr kritisch gelesen, ebenso Wolf
gang Hauner und Lothar Semmelbauer. Sie haben darüber hinaus die Program
me und deren Erläuterungen sorgfältig und konstruktiv geprüft.
Beim Springer Verlag bedanken wir uns für die Bereitschaft, dieses Buch zu
veröffentlichen. Die Kooperation mit Karen Proff und Dr. Joachim Heinze ha
ben wir als äußerst anregend empfunden.
Unser ganz besonderer Dank gilt Helma Höfter. Mit großer Sorgfalt, Um
sicht und nie endender Geduld hat sie die bei ihr eintreffenden Manuskriptteile,
Programme, Erläuterungen und Abbildungen sowie deren laufende Überarbei
tungen in einen U.TEX-file umgesetzt und zu dem vorliegenden Ganzen zusam
mengefügt.
Eichstätt, im Mai 1995 Michael Falk
Rainer Becker
Frank Marohn
Inhaltsverzeichnis
1. Elemente der explorativen Datenanalyse
1.1 Histogramme und Kern-Dichteschätzer 1
1.2 Lokationsmaße 16
1.3 Streuungsmaße 21
1.4 Schiefe und Exzeß . 24
1.5 Boxplots ...... 26
1.6 Probability Plots 29
1.7 Varianzstabilisierende Transformationen 36
Aufgaben zu Kapitell ............. 41
2. Elemente der mathematischen Statistik normalverteilter Daten
2.1 Normalverteilung und abgeleitete Verteilungen. 49
2.2 Stichprobenmittel und -varianz ........ . 57
2.3 Vergleich zweier unabhängiger Stichproben .. . 58
2.4 Eine nichtparametrische Alternative: Der Wilcoxon-Test 70
Aufgaben zu Kapitel 2 77
3. Regressionsanalyse
3.1 Beste lineare Approximation ..... 81
3.2 Die Methode der kleinsten Quadrate 89
3.3 Multiple lineare Regression. 99
Aufgaben zu Kapitel 3 . . . . . . 124
4. Kategoriale Daten
4.1 Kontingenztafeln 129
4.2 Kategoriale Regression 150
Aufgaben zu Kapitel 4 ... 167
x Inhaltsverzeichnis
5. Varianzanalyse
5.1 Die einfaktorielle Varianzanalyse . 171
5.2 Die zweifaktorielle Varianzanalyse 186
Aufgaben zu Kapitel 5 . . . . . . . . . 202
6. Diskriminanzanalyse
6.1 Der Bayes'sche Ansatz 205
6.2 Parametrische Diskriminanzanalyse: Normalverteilte Merkmale. 213
6.3 Der Ansatz von Fisher (Projection Pursuit) 219
6.4 Dichteschätzer . . . . . . . . . . 228
6.5 Die Nearest-Neighbor-Methode 242
Aufgaben zu Kapitel 6 247
7. Clustera nalyse
7.1 Die Art der Clusterbildung . 253
7.2 Distanz- und Ähnlichkeitsmaße 255
7.3 Multidimensionale Skalierung . 266
7.4 Hierarchische Klassifikationsverfahren . 276
7.5 Density-Linkage-Verfahren 285
Aufgaben zu Kapitel 7 . . . . . 293
8. Hauptkomponentenanalyse
8.1 Hauptkomponenten im IR2 297
8.2 Hauptkomponenten im IRP 302
8.3 Faktorenanalyse mittels Hauptkomponenten 316
Aufgaben zu Kapitel 8 . . . . . . . . . . . . . . 332
Appendix: Einführung in das SAS-System
A.1 Einleitung . . . . . . . . 337
A.l.1 Die SAS-Module 337
A.1.2 Verschiedene Arbeitsweisen mit SAS 338
A.1.3 Prinzipielles Vorgehen einer Datenauswertung mit SAS 339
A.2 Das Display Manager System (DMS) 341
A.2.1 Die Window-Technik . . . . . 341