Table Of ContentRönz / Förster· Regressions- und Korrelationsanalyse
Bernd Rönz / Erhard Förster
Regressions- und
Korrelations anal yse
Grundlagen - Methoden - Beispiele
GABLER
Dr. Bemd Rönz ist Hochschuldozent für Statistik an der Humboldt-Universität zu Berlin.
Prof. Dr. habil. Erhard Förster lehrt Statistik an der Humboldt-Universität zu Berlin. Er
ist Autor zahlreicher Publikationen zu diesem Gebiet.
Die Deutsche Bibliothek - CIP-Einheitsaufnahme
Rönz, Bernd:
Regressions-und Korrelationsanalyse : Grundlagen, Methoden,
Beispiele I Bernd Rönz ; Erhard Förster.-Wiesbaden: Gabler,
1992
ISBN 978-3-409-13019-6 ISBN 978-3-322-96496-0 (eBook)
DOI 10.1007/978-3-322-96496-0
NE: Förster, Erhard:
Der Gabler Verlag ist ein Unternehmen der Verlagsgruppe Bertelsmann International.
© Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden 1992
Softcover reprint of the hardcover 1s t edition 1992
Lektorat: Jutta Hauser-Fahr
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Ver
wertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustim
mung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfälti
gungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbei
tung in elektronischen Systemen.
Höchste inhaltliche und technische Qualität unserer Produkte ist unser Ziel. Bei der Produktion und Ausliefe
rung unserer Bücher wollen wir die Umwelt schonen: Dieses Buch ist auf säurefreiem und chlorfrei gebleich
tem Papier gedruckt. Die Einschweißfolie Polyäthylen besteht aus organischen Grundstoffen, die weder bei der
Herstellung noch bei der Verbrennung Schadstoffe freisetzen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt
auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen
und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden
dürften.
Vorw-ort
Die Untersuchung von Abhängigkeiten und Zusammenhängen in der Mikro
und Makroökonomie wird schon seit langem in großem stil durchge
führt. So wird versucht, mittels Verbrauchs-, Produktions- und Ko
stenfunktionen, um nur einige zu nennen, die Faktoren zu betrachten,
die wesentlich auf der Grundlage von Ursache-Wirkungs-Beziehungen
den jeweiligen ökonomischen Prozeß beeinflussen. Das gilt für Ent
scheidungen im Rahmen der Unternehmens führung ebenso wie im Manage
ment und im Marketing. Dabei spielt nicht nur die verbale Beschrei
bung der Abhängigkeiten und Zusammenhänge aus wirtschaftstheoreti
scher Sicht eine Rolle, sondern vor allem ihre statistische Erfas
sung, das heißt die zahlenmäßige Messung ihrer Intensität und die
Beschreibung ihrer Form. Die Regressions- und Korrelationsanalyse
ist ein Teilgebiet der Statistik, das die zahlenmäßige Erfassung und
Analyse von Abhängigkeiten und Zusammenhängen zum Inhalt hat. Wäh
rend die Regressions- und Korrelationsanalyse in mathematisch-stati
stischen Büchern im allgemeinen mehr oder weniger intensiv abgehan
delt wird, haben wir uns das Ziel gesetzt, eine geschlossene Ein
führung in die Grundzüge der Regressions- und Korrelationsanalyse
anzubieten. Dabei sollen die Grundprobleme der Regressions- und Kor
relationsanalyse vor allem dem in der ökonomischen Praxis Tätigen,
Studenten wirtschaftswissenschaftlicher Fachbereiche und Mitarbei
tern von Wirtschaftsforschungsinstituten nähergebracht werden. Die
angeführten Beispiele wurden deshalb fast ausschließlich aus dem
wirtschaftlichen Bereich gewählt. Das schließt nicht aus, daß Inter
essierte aus anderen Bereichen, wie Technik und Medizin, durch die
Lektüre dieses Buches Anregungen für ihre Arbeit erhalten. Da diese
Ausführungen anwendungsbezogen zu verstehen sind, wurde auf eine
strenge Beweisführung in der Regel verzichtet, ohne die Exaktheit
der Betrachtungen zu vernachlässigen.
Personalcomputer bzw. Zugang zu größeren EDV-Anlagen sowie ausge
feilte statistische Software erleichtern die Anwendung der Regres
sions- und Korrelationsanalyse mit ihren zum Teil umfänglichen Be
rechnungen erheblich. Um so wichtiger werden sichere Kenntnisse der
theoretischen Voraussetzungen, der richtigen Auswahl der Methoden
sowie der Interpretation der Ergebnisse, um einer schematischen Nut
zung der Methoden und möglichen statistischen Fehlleistungen vorzu
beugen. Grundlegende Begriffe und Verfahren werden deshalb ausführ
lich erläutert und an nachvollziehbaren Beispielen gezeigt.
Bei der Bearbeitung des Stoffes wurde auf das von den gleichen Auto
ren ver faßte Fachbuch "Methoden der Korrelations- und Regressions
analyse - ein Leitfaden für ökonomen", erschienen im Verlag Die
Wirtschaft, Berlin 1979, zurückgegriffen, jedoch der Inhalt vollkom
men überarbeitet, neu strukturiert und um einige Problemkreise er-
V
weitert.
Bei der Behandlung der Regressions- und Korrelationsanalyse haben
wir uns von folgenden überlegungen leiten lassen: Die Anwendung sta
tistischer Methoden hängt grundsätzlich von der Maßskala der einbe
zogenen statistischen Merkmale (Variablen) ab. Schwerpunkt dieses
Buches ist die Darstellung der Regressions- und Korrelationsanalyse
für kardinal- bzw. metrisch skalierte Variablen (bis einschließlich
Kapitel 12). Dabei dominiert die Zugrundelegung linearer Beziehungen
zwischen den Variablen (bis einschließlich Kapitel 10.), da sich
eine Vielzahl von ökonomischen Abhängigkeiten gut durch lineare Re
gressionsfunktionen erfassen bzw. hinreichend genau approximieren
lassen. Die lineare Regression und Korrelation wird zunächst im Sin
ne der statistischen Deskription behandelt. Darauf aufbauend erfolgt
in den Abschnitten 2.6., 2.7., 3.2. und vor allem im 5. Kapitel der
übergang zur induktiven Regressions- und Korrelationsanalyse (den
Schätz- und Testverfahren). Dies soll Lesern mit unterschiedlichen
Statistik-Vorkenntnissen ein selektives Lesen ermöglichen.
Die Kapitel 6 - 8 sind speziellen Problemen der linearen Regres
sions- und Korre lationsanalyse gewidmet, mit denen der Anwender
häufig konfrontiert wird. Mit Kapitel 10 soll eine Brücke zur ökono
metrie geschlagen werden, um auf diese weitreichende Nutzung der Re
gressionsanalyse aufmerksam zu machen.
Die Kapitel 11. und 12. enthalten einen Ausblick auf die statisti
sche Erfassung nichtlinearer Abhängigkeiten und Zusammenhänge. Im
Kapitel 13 werden einige Zusammenhangsmaße für ordinalskalierte und
nominalskalierte Variablen erläutert.
Im Rahmen dieser Einführung in die Regressions- und Korrelations
analyse kann nicht das breite Spektrum dieser statistischen Methode
mit ihren vielen Spezialfällen behandelt werden. Ein umfangreiches
Literaturverzeichnis soll Anregung für tiefergehende Studien geben.
Bernd Rönz, Erhard Förster
VI
Iriba1ts~erzeichnis
1. Grundbegriffe der Regressions- und Korrelationsanalyse .... 1
1.1. Abhängigkeiten und Zusammenhänge. ............ ... ..... 1
1. 2. Begriff der Regression ............................... 4
1.3. Begriff der Korrelation ..... ........ ... ......... ..... 10
1.4. Aufgaben der Korrelations- und Regressionsanalyse 13
1.5. Historische Entwicklung der Korrelations- und
Regressionsanalyse 17
2. Lineare Regression.... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1. streuungsdiagramm .................................... 22
2.2. Methode der bedingten Mittelwerte .......... , .... ..... 24
2.3. Einfache lineare Regression ...... , ... ...... ..... ..... 27
2.3.1. Regressionsgerade nach der Methode der klein-
sten Quadrate (nicht gruppiertes Material) .... 30
2.3.2. Regressionsgerade bei gruppierten Daten ....... 38
2.4. Multiple lineare Regression ........ ... ... ...... ...... 43
2.5. Partielle lineare Regression......................... 57
2.6. Voraussetzungen der Regressionsschätzungen . ... .... ... 59
2.7. Eigenschaften der Regressionsschätzungen .......... ... 71
2.8. Gesichtspunkte der praktischen Regressionsanalyse .... 78
3. Güte der Regression 81
3.1. Bestimmtheit der Regression ......................... . 81
3.1.1. Einfache Bestimmtheit ........................ . 83
3.1.2. Multiple Bestimmtheit ........................ . 86
3.1.3. Partielle Bestimmtheit ....................... . 91
3.1.4. Innere Bestimmtheit .......................... . 92
3.2. Standardfehler ...................................... . 94
4. Lineare Korrelation 106
4.1. Einfache lineare Korrelation ....................... ,. 106
4.1.1. Einfache lineare Korrelation bei
nichtgruppierten Angaben ..................... . 106
4.1.2. Einfache lineare Korrelation bei gruppierten
Angaben ...................................... . 110
4.1.3. Beziehungen zwischen einfachem Korrelations
koeffizienten, Regressionskoeffizient und
Bestimmtheitsmaß .............................. 111
4.1.4. Korrelationsindex von Fechner ................. 117
4.2. Multiple lineare Korrelation ......................... 118
4.3. Partielle lineare Korrelation........................ 122
4.4. Beziehungen zwischen multipler und partieller
Korrelation, Regression und Bestimmtheit ............. 128
4.5. Beeinflussung des Korrelationskoeffizienten durch
Nebenfaktoren ........................................ 130
VII
4.6. Korrelationsverhältnis ............................... 132
5. Zuverlässigkeit von Schätzungen der Regressions- und
Korrelationsanalyse ....................................... 137
5.1. Verteilung von Regressions- und
Korrelationskoeffizienten ............................ 138
5.2. Intervallschätzung . . . . . . . . . . . . • . . . . . . . . . . . . . . . . . . . . .. 142
5.2.1. Konfidenzintervalle für die
Regressionsparameter .......................... 144
5.2.2. Konfidenzintervalle für die
Korrelationskoeffizienten ..................... 146
5.2.3. Konfidenzintervalle für die Regreßwerte ....... 147
5.2.4. Konfidenzintervall für .einen Wert der
Variablen Y ................................... 152
5.3. Statistische Prüfung von Hypothesen über Parameter
der Regressions- und Korrelationsanalyse ............. 156
5.3.1. Statistische Prüfung von Hypothesen über
linearen Korrelationskoeffizienten ............ 161
5.3.2. Statistische Prüfung von Hypothesen über
Bestimmthei tsmaße . . . . . . .... . . . . . . . . . . . . . . . . . . . .. 170
5.3.3. Statistische Prüfung von Hypothesen über
Regressionsparameter .......................... 174
5.4. Statistische Prüfung der Linearität einer
Regressionsfunktion .................................. 195
6. Multikollinearität ........................................ 197
7. Regression und Korrelation von Zeitreihen ................. 215
7.1. Modell der Zeitreihenregression ...................... 215
7.2. Autokorrelation der Variablen ........................ 223
7.3. Autokorrelation der Residuen ............•............ 225
8. Heteroskedastizität 235
9. Zusammenfassendes Beispiel ................................ 240
10. Interdependente Beziehungen in der Regressionsanalyse ..... 252
10.1. Allgemeine Einführung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 252
10.2. Die Variablen in einem Regressionsmodell ............ 257
10.3. Arten von Regressionsmodellen ....................... 260
10.4. Das Identifikationsproblem .......................... 266
10.5. Wichtige Modellannahmen ............................. 269
10.6. Schätzmethoden für Regressionsmodelle ............... 271
10.6.1. Methode der kleinsten Quadrate .............. 271
10.6.2. Indirekte Methode der kleinsten Qu~drate .... 275
10.6.3. Zweistufige Methode der kleinsten Qu~drate " 277
VIII
11. Nichtl ineare Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 283
11.1. Einfache nichtlineare Regression .................... 284
11.1.1. Einfache nichtlineare Regression bei
nichtgruppiertenDaten ...................... 284
11.1.2. Einfache nichtlineare Regression bei
gruppierten Daten ........................... 295
11.2. Multiple nichtlineare Regression .................... 297
12. Nichtlineare Korrelation .................................. 300
12.1. Einfache nichtlineare Korrelation ................... 300
12.1.1. Einfache nichtlineare Korrelation bei
nichtgruppiertenDaten ...................... 300
12.1.2. Einfache nichtlineare Korrelation bei
gruppierten Daten. . . . . . . . . . . . . . . . . . . . . . . . . .. 303
12.2. Multiple nichtlineare Korrelation ................... 304
12.3. Beziehungen zwischen dem linearen Korrelationskoef
fizienten, dem allgemeinen Korrelationskoeffizienten
und dem Korrelationsverhältnis ...................... 305
13. Messung des Zusammenhanges von nominal- und
ordinalskal ierten Variablen ............................... 307
13.1. Zusammenhangsmaße für wenigstens ordinalskalierte
Variable ............................................ 308
13.1.1. Rangkorrelationskoeffizient von Spearman .... 308
13.1.2. Rangkorrelationskoeffizient von Kendall ..... 311
13.1.3. Konkordanzkoeffizient von Kendall ........... 314
13.2. Zusammenhangsmaße für nominalskalierte Variable..... 316
13.2. J • Kontingenzkoeffizient . . . . . . . . . . . . . . . . . . . . . .. 319
13.2.2. Assoziationsmaß ............................. 321
13.2.3. Zwei zeilen-Korrelation . . . . . . . . . . . . . . . . . . . . .. 323
Anhang ........................................................ 327
Tafel 1 : Dichtefunktion der Standardnormalverteilung .......... 328
Tafel 2 : Verteilungsfunktion der Standardnormalverteilung ..... 330
Tafel 3 : Signifikanzgrenzen Fl~ der F-Verteilung ............. 334
Tafel 4: t-Verteilung ......................................... 340
Tafel 5: Chi-Quadrat-Verteilung .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 341
Tafel 6: Zufallshöchstwerte des Korrelationskoeffizienten 342
Tafel 7: Verteilung des zyklischen Autokorrelationskoef-
fizienten ............................................ 343
Tafel 8: Autokorrelation nach Durbin-Watson ................... 344
Literaturverzeichnis 347
Stichwortverzeichnis 365
IX
1. Grundbegriffe der Regress:l.ons- und
Korre1ationsana1yse
1.1. Abhängigkeiten und Zusammenhänge
Wenn Erscheinungen und Prozesse in der Mikro- und Makroökonomie zum
Zwecke ihrer operationalen und zukünftigen Beherrsch- und Beeinfluß
barkeit untersucht werden, dann müssen sie im Kontext ihres Umfel
des, in ihrem Zusammenhang mit bzw. in Abhängigkeit von anderen Er
scheinungen und Prozessen sowohl aus fachwissenschaftlicher Sicht
theoretisch als auch aus der Empirie zahlenmäßig analysiert werden.
Für die Entscheidungsfindung auf Unternehmerebene , Branchenebene
oder volkswirtschaftlicher Ebene ist die Kenntnis von Ursache-Wir
kungsbeziehungen unerläßlich. Die Korrelations- und Regressionsana
lyse als statistische Methode ist dabei ein unschätzbares Hilfsmit
tel.
Im weiteren soll von Abhängigkeit einer Erscheinung oder eines Pro
zesses von anderen ökonomischen, technischen, natürlichen oder ande
ren Einflußgrößen gesprochen werden, wenn diese Faktoren einen ein
sei tig gerichteten Einfluß auf die abhängige Größe ausüben. Die
Festlegung, welche Erscheinung die abhängige Größe und welche Er
scheinungen die beeinflußenden Faktoren sind, ist in jedem Falle aus
fachwissenschaftlicher Sicht zu treffen. Von einem Zusammenhang zwi
schen wirtschaftlichen, technischen oder anderen Größen soll gespro
chen werden, wenn es zunächst unerheblich ist, welche Erscheinung
die abhängige Größe ist und welche Erscheinungen die Einflußfaktoren
sind, wenn also geprüft werden soll, ob sich Erscheinungen und Pro
zesse in irgendeiner Weise beeinflussen, unabhängig von der Richtung
dieses Einflusses.
Jede Untersuchung von Abhängigkeiten und Zusammenhängen sollte fach
wissenschaftlich fundiert sein, um von vornherein sachlogisch unsin
nige Analysen zu vermeiden. Nun sind jedoch die Aussagen der Wirt
schaftstheorien sehr allgemeiner Art in dem Sinne, daß sie die Exi
stenz von Abhängigkeiten und Zusammenhängen postulieren und gegebe
nenfalls die Wirkungsrichtung angeben. Aus wirtschaftstheoretischer
überlegung kann zum Beispiel die Anzahl der abhängig Erwerbstätigen
unter anderem aus der Abhängigkeit von den Anlageinvestitionen, dem
Export, der Kapaz i tätsaus lastung, dem privaten Verbrauch und dem
Einkommen aus ArbeitnehmertätigkeitjUnternehmertätigkeitj Vermögen
erklärt werden (zum Teil mit einer gewissen zeitlichen Verzögerung),
wobei bei den ersten vier Einflußgrößen eine positive Beschäfti
gungswirkung und bei der letzten Einflußgröße ein negativer Effekt
angenommen werden kann. Wie ist aber das konkrete quantitative Aus
maß der einzelnen Einflüsse auf die abhängig Erwerbstätigen gesamt
wirtschaftlich bzw. für einzelne Wirtschaftszweige und ihre Teilbe-
1
reiche in einem gegebenen Zeitraum? Hier genau ist der Ansatzpunkt
für die Regressions- und Korrelationsanalyse als statistische Metho
de. Dabei werden die wirtschaftstheoretischen Aussagen mittels der
Methoden der Regressions- und Korrelationsanalyse in ein statisti
sches Modell überführt, das auf der Grundlage von empirischen Daten
material numerisch bestimmt wird.
Wie bei allen statistischen Untersuchungen liegt auch der statisti
schen Analyse von Abhängigkeiten und Zusammenhängen eine Menge rele
vanter Objekte (Merkmal sträger , statistische Einheiten), das heißt
eine Gesamtheit oder eine ihrer Teilgesamtheiten, zugrunde, über die
bezüglich der interessierenden ökonomischen Merkmale Daten erfaßt
werden. Die im Ergebnis der Regressions- und Korrelationsanalyse er
zielten Ergebnisse sind statistische (zahlenmäßige) Aussagen über
die Beziehungen zwischen Erscheinungen und Prozessen, die im Mittel
aller erfaßten Objekte bzw. im Mittel des beobachteten Gesamtzeit
raumes Gültigkeit haben, jedoch nicht zwangsläufig für das Einzel
objekt oder den Einzelzeitraum zutreffen. Da das Wirtschaftsgesche
hen auf menschlichem Verhalten beruht und "trotz der Willensfreiheit
... menschliche Individuen, ohne daß sie voneinander gewußt oder sich
gegenseitig abgesprochen hätten, Entscheidungen getroffen haben, die
in ihrer Gesamtheit zu einer Regelmäßigkeit führen" (MENGES [157],
s. 38), kann diese gefundene Regelmäßigkeit (die im Durchschnitt
geltende Abhängigkeit bzw. der Zusammenhang) berechtigt zur Ent
scheidungsfindung herangezogen werden.
Andererseits soll deutlich darauf hingewiesen werden, daß mit einem
numerisch aufgezeigten Zusammenhang noch kein Nachweis über die
wirkliche Existenz solcher Beziehungen erbracht ist (siehe Nonsense
Regression weiter unten). Mit diesem Problem wird man vor allem kon
frontiert, wenn Zeitreihen die Basis von Regressions- und Korrela
tionsanalysen sind. Für zwei ökonomische Erscheinungen, die jeweils
einen ausgeprägten Trend aufweisen, wird im Ergebnis der Korrela
tionsberechnungen ein enger Zusammenhang ausgewiesen, obwohl ein
solcher überhaupt nicht existieren muß.
Ein wesentlicher Aspekt, der bei der Erforschung der Zusammenhänge
zu berücksichtigen ist, besteht darin, daß eine Beziehung zwischen
Erscheinungen nicht immer und nicht überall auftreten mUß, sondern
erst, wenn bestimmte Bedingungen dafür vorhanden sind. Veränderungen
in den Bedingungen können auch zu Veränderungen in den Zusammenhän
gen führen. Soll zum Beispiel der Lohn der Arbeitnehmer unter ande
rem auch von seinem Qualifikationsgrad abhängen, so sind im Lohnsy
stem Bedingungen zu schaffen, die diese Abhängigkeit des Lohnes von
der Qualifikation ermöglichen. Wenn die Einnahmen des staates unter
anderem von der Höhe der Einkommen aus Unternehmertätigkeit und Ver
mögen bzw. aus Arbeitnehmertätigkeit abhängen sollen, muß ein ent-
2