Table Of ContentDas Statistiklabor
Rainer Schlittgen
Das Statistiklabor
Einführung und Benutzerhandbuch
Mit64Abbildungen
123
RainerSchlittgen
UniversitätHamburg
FBWirtschaftswissenschaften
InstitutfürStatistikundÖkonometrie
Von-Melle-Park5
20146Hamburg,Deutschland
e-mail:[email protected]
BibliografischeInformationDerDeutschenBibliothek
DieDeutscheBibliothekverzeichnetdiesePublikationinderDeutschenNationalbibliografie;
detailliertebibliografischeDatensindimInternetüberhttp://dnb.ddb.deabrufbar.
MathematicsSubjectClassification(2000):62-01,62-07
ISBN3-540-22389-4 SpringerBerlinHeidelbergNewYork
DiesesWerkisturheberrechtlichgeschützt.DiedadurchbegründetenRechte,insbesonderedie
derÜbersetzung,desNachdrucks,desVortrags,derEntnahmevonAbbildungenundTabellen,
derFunksendung,derMikroverfilmungoderderVervielfältigungaufanderenWegenundder
SpeicherunginDatenverarbeitungsanlagen,bleiben,auchbeinurauszugsweiserVerwertung,
vorbehalten.EineVervielfältigungdiesesWerkesodervonTeilendiesesWerkesistauchim
EinzelfallnurindenGrenzendergesetzlichenBestimmungendesUrheberrechtsgesetzesder
BundesrepublikDeutschlandvom9.September1965inderjeweilsgeltendenFassungzulässig.Sie
istgrundsätzlichvergütungspflichtig.ZuwiderhandlungenunterliegendenStrafbestimmungen
desUrheberrechtsgesetzes.
SpringeristeinUnternehmenvonSpringerScience+BusinessMedia
springer.de
©Springer-VerlagBerlinHeidelberg2005
PrintedinGermany
DieWiedergabevonGebrauchsnamen,Handelsnamen,Warenbezeichnungenusw.indiesem
WerkberechtigtauchohnebesondereKennzeichnungnichtzuderAnnahme,daßsolcheNamen
imSinnederWarenzeichen-undMarkenschutz-Gesetzgebungalsfreizubetrachtenwärenund
dahervonjedermannbenutztwerdendürften.
Satz:ReproduktionsfertigeVorlagevomAutor
Herstellung:LE-TEXJelonek,Schmidt&VöcklerGbR,Leipzig
Einbandgestaltung:design&productionGmbH,Heidelberg
GedrucktaufsäurefreiemPapier SPIN:11019466 40/3142YL-543210
Inhaltsverzeichnis
Vorbemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I Das Statistiklabor 3
1 Eine erste Beispielauswertung 5
2 Die Oberfläche 11
2.1 Symbolleisten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Das Menü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Das Arbeitsblatt . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Ein- und Ausgabe 19
3.1 Datensatzimport . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Copy & Paste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Datenexport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 Bericht erstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4 Statistische Objekte 25
4.1 Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Urliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3 Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Häufigkeitstabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Kontingenztafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.7 Grafik-Wizard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
vi Inhaltsverzeichnis
5 Der Kalkulator 35
5.1 Der Kalkulator als Taschenrechner . . . . . . . . . . . . . . . . . 35
5.2 Der Statistik-Taschenrechner . . . . . . . . . . . . . . . . . . . . . 38
5.3 Berechnungen im Kalkulator . . . . . . . . . . . . . . . . . . . . . 43
6 Einiges zu R 51
6.1 Datentypen und Objekte . . . . . . . . . . . . . . . . . . . . . . . 51
6.2 Operatoren und Funktionen . . . . . . . . . . . . . . . . . . . . . 58
6.3 Weitergehende Nutzung von R . . . . . . . . . . . . . . . . . . . . 66
7 R-Grafik 69
7.1 Univariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.2 Bivariate und höherdimensionale Daten . . . . . . . . . . . . . . . 75
7.3 Ergänzen von Grafiken . . . . . . . . . . . . . . . . . . . . . . . . 77
8 Anwenderbibliotheken und Packages 81
8.1 Anwenderbibliotheken . . . . . . . . . . . . . . . . . . . . . . . . 81
8.2 Packages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9 Der Musterlösungseditor 87
10 Zur R-Schnittstelle 91
II Einige Standardauswertungen 93
11 Beschreibung von Daten 95
11.1 Univariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.2 Bivariate Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
12 Wahrscheinlichkeitsrechnung 109
12.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
12.2 Spezielle Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . 110
12.3 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 116
13 Stichproben und Punktschätzungen 121
13.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
13.2 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Ivnihaltsverzeichnis Inhaltsverzeichnviisi
14 Tests und Konfidenzintervalle 129
14.1 Theoretischer Hintergrund . . . . . . . . . . . . . . . . . . . . . . 129
14.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
15 Regression 139
15.1 Die einfache lineare Regression. . . . . . . . . . . . . . . . . . . . 139
15.2 Linearisieren eines Zusammenhanges . . . . . . . . . . . . . . . . 144
15.3 Das multiple lineare Regressionsmodell . . . . . . . . . . . . . . . 146
15.4 Diagnose des Regressionsmodells . . . . . . . . . . . . . . . . . . 149
15.5 Multikollinearität . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
III Wichtige R-Funktionen 155
16 Tabellarische Überblicke 157
16.1 Mathematische Funktionen . . . . . . . . . . . . . . . . . . . . . . 157
16.2 Statistische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 158
16.3 Erzeugung und Bearbeitung von Matrizen und Vektoren . . . . . 158
16.4 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . 159
16.5 Alphabetische Liste . . . . . . . . . . . . . . . . . . . . . . . . . . 160
17 Referenz von R-Funktionen 165
Liste typischer Auswertungen 206
Literaturverzeichnis 209
1
Vorbemerkung
Diese Einführung beschreibt das Arbeiten mit dem Statistiklabor.Das Statistik-
Laboristeineinteraktive ArbeitsumgebungzurBearbeitungstatistischer Aufga-
ben.InersterLiniestelltsichdasLabordamNutzerwieeinArbeitsblattdar,auf
dem mit Hilfe statistischer Funktionen und Darstellungsmöglichkeiten Aufgaben
gelöst werden können.
Das Statistiklabor ermöglicht ein objektorientiertes Arbeiten: Zentrale statisti-
sche Objekte (wie Datensatz, Matrix, Häufigkeitstabelle) können als sogenannte
GUI-Objekte1 aufgerufen und über Konnektoren mit einem Kalkulator verbun-
den werden. Dort können statistische Berechnungen vorgenommen werden. Die
Ergebnisse stellen das abschließende Ergebnis dar oder führen zu weiteren Aus-
wertungsschritten bzw. grafischen Darstellungen. Abgespeichert werden Arbeits-
blätteralsLaborprojekte(DateienmitderDateierweiterungspf).DieBedienung
der Laborelemente wird im ersten Teil erklärt.
Eine zentralen Plattformfür alle Statistiklabor-Nutzer ist eine Webseite, die un-
terderDomainhttp://www.statistiklabor.de zuerreichen ist.Sieistdieoffizielle
Support-Site für das Statistiklabor, in der die aktuellen Versionen des Statisti-
klabors, ein Labor-Aufgabenpool mit Aufgaben und Musterlösungen zu unter-
schiedlichen Themengebieten, TutorialsundBenutzerbibliotheken zurVerfügung
gestellt und ausgetauscht werden können.
Das Labor ist eine Oberfläche für die statistische Programmiersprache R, einen
freiverfügbarenDialektderProgrammierspracheS.DieLabor-Oberflächeerlaubt
einen wesentlichen einfacheren Zugangzuderstatistischen Funktionalitätvon R.
Da R auf der einen Seite einen großen Vorratan statistischen Funktionen bietet,
andererseits für den Anfänger eher etwas schwierig und von der Bedienung her
wenig komfortabel ist, wurde die Oberfläche ’Statistiklabor’ geschaffen.
Um die Verbindung des Labors mit R etwas genauer zu benennen: Einige der
GUI-Objekte verfügen über eine systeminterne Schnittstelle zu R. Diese über-
setzt die Darstellung am Bildschirm gemäß den R-Konventionen. Innerhalb des
GUI-Objektes’R-Kalkulator’istdergesamteUmfangderProgrammiersprache R
verfügbar. Zudem gibt es einige zusätzliche Funktionalitäten.
Da auch die Programmierung mit R möglich ist, wird in einem eigenen Kapitel
etwas weitergehend auf die Programmiersprache eingegangen. Für noch weiter-
gehendeAspektederNutzungvonundProgrammierunginRistvonBedeutung,
dass für Anwender R und S-Plus weitgehend identisch sind. Bücher zu S-Plus
sinddaherauchfürR-Nutzergeeignet.DaherkönnenfolgendeBücherempfohlen
werden: Crawley (2002), Dalgaard (2002), Dolić (2004), Krause & Olson (2002),
Süsselbeck (1993),Venables (2000) sowie Venables and Ripley (1994).
Das Statistiklabor ist Gewinner des mediendidaktischen Hochschulpreises Medi-
daPrix 2003.Folgende Auszüge aus derBegründung durch die Jury des Medida-
Prix seien hier wiedergegeben.
1GUIisteinKürzelfürGraphicUserInterface,grafischeBenutzerschnittstelle.
2
DasaufkonstruktivistischenDesignprinzipienbasierendeProjekt’Sta-
tistiklabor’ der Freien Universität Berlin wurde als Preisträger des
MedidaPrix 2003 ausgewählt, da es neue Möglichkeiten in der statis-
tischen Grundausbildung eröffnet.
Statt der üblicherweise vorhandenen mathematikbasierten Lehre in
derStatistikisthiereindatenorientierterZuganggewähltworden,der
es Lehrenden und Lernenden ermöglicht, mit visueller Unterstützung
interaktive statistische Experimente und Auswertungen durchzufüh-
ren.
Das System eignet sich sowohl für die Präsentation in der Lehre als
auch für das individuelle Lernen. Eine standardisierter Schnittstelle
ermöglichtdieEinbeziehungfremderMaterialienunddieErweiterung
des Systems um neue Auswertungsverfahren.
Die professionelle technische Entwicklung dieser kostenfrei verfügba-
ren Software eröffnet nachhaltige Nutzungsmöglichkeiten. Das Labor
ist Teil des größeren Verbundvorhabens ’Neue Statistik’2.
Der Text ist in drei Teile gegliedert. Im ersten wird das Labor selbst vorgestellt.
Auch wenn das Labor selbst mit einer umfangreichen Hilfe und Beschreibung
ausgestattet ist, erscheint ein Überblick in dieser Form sinnvoll. Einmal kann
man das Buch direkt neben den Bildschirm legen und hat so einen parallelen
Zugriff. Dann werden doch etliche Punkte angesprochen und Hinweise gegeben,
die in der Laboreigenen Beschreibung nicht zu finden sind.
Um die Durchführung von Aufgaben mit dem Labor zu illustrieren, werden im
zweitenTeil’EinigeStandardauswertungen’präsentiert.Dabeiwerdennichtnack-
teAnwendungenvorgestellt,sonderneswirdauchderjeweiligemethodischeHin-
tergrund angegeben. So ist dieser Teil zugleich eine knappe Einführung in die
Statistik insgesamt. Dabei wird der Stoff einer Grundvorlesung überspannt: De-
skriptive Statistik, Wahrscheinlichkeitsrechnung, Schätzen und Testen sowie die
Regressionsrechnung.
Im dritten Teil werden die wichtigsten Funktionen tabellarisch und in Form der
R-Referenz gelistet.
ZurGestaltungdesTextes istnochFolgendesanzumerken. DerKalkulatorspielt
eine wesentliche Rolle beim Statistiklabor. Er kann zwei Zustände aufweisen,
einen Eingabe- oder Schreibmodus und einen Rechenmodus. Um kenntlich zu
machen, zu welchem Modus der angezeigte Text gehört, werden die zugehörigen
Symbole,derBleistift unddasZahnrad ,verwendet.Ein-undAusgabesowie
R-Befehle werden in Schreibmaschinenschrift gesetzt.
2FörderungerhieltdasProjektdurchdasbmb+fimRahmendesProgramms’NeueMedien
inderBildung’
Teil I
Das Statistiklabor
Kapitel 1
Eine erste Beispielauswertung
BevordasStatistiklaborsystematischbeschriebenwird,sollanhanddieserersten
Beispielauswertung ein Eindruck vermittelt werden, wie sich das Arbeiten mit
dem Laborgestaltet.
Die Ausgangssituation
Korporale Belastungen der Allgemeinbevölkerung durch Blei ergeben sich über
unterschiedlicheBelastungspfade,überluftgetragenePartikel,belasteteNahrungs-
mittel und Trinkwasser. Der Bleigehalt imBlut giltim allgemeinen als derbeste
Indikator zur Ermittlung einer aktuellen Bleibelastung.
Im Rahmen eines umfangreichen Umwelt-Surveys wurde verschiedenen Belas-
tungspfaden nachgespürt, siehe Krause et al. (1996). Unter anderem wurde der
KonsumvonMilchproduktenanalysiert.DazuwurdendiePersoneninzweiGrup-
peneingeteilt;solche,diewenigerhäufigMilchproduktekonsumiertenundsolche,
die es häufig taten. Zwei Stichproben aus Verteilungen, die den berichteten ent-
sprechen, stehen zur Verfügung; sie haben den Umfang von jeweils 100.
Einlesen der Daten
Als erstes müssen die Daten eingelesen werden. Nach entsprechender Vorberei-
tungderASCII-Dateigeschiehtdies,indemderDatensatzimportaufgerufenwird.
Dazu wird auf der Objektleiste am linken Rand des Bildschirms das zugehörige
Symbol (Diskette mit dem Pfeil raus) anklickt, die Maus auf das Arbeitsblatt
geführtundaneinerbeliebigenfreienStellewiederdielinkeMaustastegedrückt.
Nun wird bei gedrückt gehaltener Taste die Maus etwas gezogen. Schon ist das
’Datensatzobjekt’platziert.AnklickenmitderrechtenMaustasteöffnetdasKon-
textmenü,überdasimMenüpunktEinstellungendiegewünschteDatei(imExcel-
oder ASCII-Format; Dateierweiterungen xls bzw. txt) ausgewählt und somit ge-
laden werden kann. Zunächst wird die Datei Blut1.txt geladen.