Table Of ContentAN`LISIS DE DATOS MULTIVARIANTES
Daniel Peæa
23 de enero de 2002
2
˝ndice General
0.1 Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1 INTRODUCCI(cid:211)N 13
1.1 EL AN`LISIS DE DATOS MULTIVARIANTES . . . . . . . . . . . . . . . 13
1.2 ESTRUCTURA DEL LIBRO . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 PROGRAMAS DE ORDENADOR . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 UN POCO DE HISTORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 LECTURAS COMPLEMENTARIAS . . . . . . . . . . . . . . . . . . . . . . 21
2 `LGEBRA MATRICIAL 23
2.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 VECTORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 De(cid:222)niciones bÆsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2 Dependencia Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 MATRICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 De(cid:222)niciones bÆsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Productos entre matrices . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Rango de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.4 Matrices Cuadradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.5 Matrices Particionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.4 VECTORES Y VALORES PROPIOS . . . . . . . . . . . . . . . . . . . . . . 46
2.4.1 De(cid:222)nici(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.2 Valores y vectores propios de matrices simØtricas . . . . . . . . . . . 49
2.4.3 Diagonalizaci(cid:243)n de Matrices SimØtricas . . . . . . . . . . . . . . . . . 52
2.4.4 Raiz cuadrada de una matriz semide(cid:222)nida positiva . . . . . . . . . . 54
2.4.5 Descomposici(cid:243)n en valores singulares . . . . . . . . . . . . . . . . . . 56
2.4.6 (*)Diagonalizaci(cid:243)n de Matrices generales . . . . . . . . . . . . . . . . 56
2.4.7 (*)Inversas Generalizadas . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5 (*)PROYECCI(cid:211)N ORTOGONAL . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.1 Matrices Idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2 Proyecci(cid:243)n Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.6 (*)DERIVADAS MATRICIALES . . . . . . . . . . . . . . . . . . . . . . . . 64
3
4 ˝NDICE GENERAL
3 DESCRIPCI(cid:211)N DE DATOS MULTIVARIANTES 67
3.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 DATOS MULTIVARIANTES . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1 Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.2 La matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.3 AnÆlisis univariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3 MEDIDAS DE CENTRALIZACI(cid:211)N: EL VECTOR DE MEDIAS . . . . . . 72
3.4 LA MATRIZ DE VARIANZAS Y COVARIANZAS . . . . . . . . . . . . . . 74
3.4.1 CÆlculo a partir de la matriz de datos centrados . . . . . . . . . . . . 75
3.4.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.4.3 Variables redundantes: El caso con Matriz S singular . . . . . . . . . 80
3.5 MEDIDAS GLOBALES DE VARIABILIDAD . . . . . . . . . . . . . . . . . 83
3.5.1 La variabilidad total y la varianza promedio . . . . . . . . . . . . . . 83
3.5.2 La Varianza Generalizada . . . . . . . . . . . . . . . . . . . . . . . . 83
3.5.3 La variabilidad promedio . . . . . . . . . . . . . . . . . . . . . . . . 85
3.6 VARIABILIDAD Y DISTANCIAS . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.1 El concepto de distancia . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.6.2 La Distancia de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . 88
3.6.3 La distancia promedio . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.7 MEDIDAS DE DEPENDENCIA LINEAL . . . . . . . . . . . . . . . . . . . 91
3.7.1 Dependencia por pares: La matriz de correlaci(cid:243)n . . . . . . . . . . . 91
3.7.2 Dependencia de cada variable y el resto: Regresi(cid:243)n Mœltiple . . . . . 92
3.7.3 Dependencia directa entre pares: Correlaciones parciales . . . . . . . 95
3.7.4 El coe(cid:222)ciente de Dependencia . . . . . . . . . . . . . . . . . . . . . . 96
3.8 La matriz de precisi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.9 COEFICIENTES DE ASIMETR˝A Y KURTOSIS . . . . . . . . . . . . . . . 99
4 ANALISIS GRAFICO Y DATOS ATIPICOS 107
4.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2 REPRESENTACIONES GR`FICAS . . . . . . . . . . . . . . . . . . . . . . 107
4.2.1 Histogramas y diagramas de dispersi(cid:243)n . . . . . . . . . . . . . . . . . 107
4.2.2 Representaci(cid:243)n mediante (cid:222)guras . . . . . . . . . . . . . . . . . . . . . 111
4.2.3 (*)Representaci(cid:243)n de Proyecciones . . . . . . . . . . . . . . . . . . . 112
4.3 TRANSFORMACIONES LINEALES . . . . . . . . . . . . . . . . . . . . . . 114
4.3.1 Consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2 Estandarizaci(cid:243)n univariante . . . . . . . . . . . . . . . . . . . . . . . 115
4.3.3 (*)Estandarizaci(cid:243)n multivariante . . . . . . . . . . . . . . . . . . . . 115
4.4 TRANSFORMACIONES NO LINEALES . . . . . . . . . . . . . . . . . . . 117
4.4.1 Simplicidad en las distribuciones . . . . . . . . . . . . . . . . . . . . 117
4.4.2 Simplicidad en las relaciones . . . . . . . . . . . . . . . . . . . . . . . 119
4.5 DATOS AT˝PICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.1 De(cid:222)nici(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.5.2 Los efectos de los at(cid:237)picos . . . . . . . . . . . . . . . . . . . . . . . . 121
4.5.3 (*)Identi(cid:222)caci(cid:243)n de grupos de at(cid:237)picos . . . . . . . . . . . . . . . . . 122
˝NDICE GENERAL 5
4.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5 COMPONENTES PRINCIPALES 137
5.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 PLANTEAMIENTO DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . 138
5.3 CALCULO DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . . . . 141
5.3.1 CÆlculo del primer componente . . . . . . . . . . . . . . . . . . . . . 141
5.3.2 CÆlculo del segundo componente. . . . . . . . . . . . . . . . . . . . . 144
5.3.3 Generalizaci(cid:243)n. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.4 PROPIEDADES DE LOS COMPONENTES . . . . . . . . . . . . . . . . . . 149
5.5 AN`LISIS NORMADO O CON CORRELACIONES . . . . . . . . . . . . . 151
5.6 INTERPRETACI(cid:211)N DE LOS COMPONENTES . . . . . . . . . . . . . . . 155
5.6.1 Selecci(cid:243)n del nœmero de componentes . . . . . . . . . . . . . . . . . . 158
5.6.2 Representaci(cid:243)n grÆ(cid:222)ca . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.6.3 Datos at(cid:237)picos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.6.4 Distribuci(cid:243)n de los componentes . . . . . . . . . . . . . . . . . . . . . 163
5.7 Generalizaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6 ESCALADO MULTIDIMENSIONAL 179
6.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
6.2 ESCALADOS M(cid:201)TRICOS: COORDENADAS PRINCIPALES . . . . . . . 180
6.2.1 Construcci(cid:243)n de variables a partir de las distancias . . . . . . . . . . 180
6.3 Matrices compatibles con mØtricas eucl(cid:237)deas . . . . . . . . . . . . . . . . . . 183
6.3.1 Construcci(cid:243)n de las Coordenadas Principales . . . . . . . . . . . . . . 186
6.4 RELACI(cid:211)N ENTRE COORDENADAS Y COMPONENTES PRINCIPALES 189
6.5 BIPLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
6.6 ESCALADO NO M(cid:201)TRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
7 AN`LISIS DE CORRESPONDENCIAS 201
7.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
7.2 B(cid:218)SQUEDA DE LA MEJOR PROYECCI(cid:211)N . . . . . . . . . . . . . . . . . 202
7.2.1 Proyecci(cid:243)n de las Filas . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2.2 Proyecci(cid:243)n de las columnas . . . . . . . . . . . . . . . . . . . . . . . 210
7.2.3 AnÆlisis Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.3 LA DISTANCIA JI-CUADRADO . . . . . . . . . . . . . . . . . . . . . . . . 214
7.4 ASIGNACI(cid:211)N DE PUNTUACIONES . . . . . . . . . . . . . . . . . . . . . 220
7.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
8 AN`LISIS DE CONGLOMERADOS 227
8.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8.2 M(cid:201)TODOS CL`SICOS DE PARTICI(cid:211)N . . . . . . . . . . . . . . . . . . . 228
8.2.1 Fundamentos del algoritmo de k-medias . . . . . . . . . . . . . . . . 228
8.2.2 Implementaci(cid:243)n del algoritmo . . . . . . . . . . . . . . . . . . . . . . 228
6 ˝NDICE GENERAL
8.2.3 Nœmero de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3 M(cid:201)TODOS JER`RQUICOS . . . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.1 Distancias y Similaridades . . . . . . . . . . . . . . . . . . . . . . . . 240
8.3.2 Algoritmos JerÆrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.3.3 MØtodos Aglomerativos . . . . . . . . . . . . . . . . . . . . . . . . . . 244
8.4 CONGLOMERADOS POR VARIABLES . . . . . . . . . . . . . . . . . . . 252
8.4.1 Medidas de distancia y similitud entre variables . . . . . . . . . . . . 252
8.5 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
9 DISTRIBUCIONES MULTIVARIANTES 257
9.1 CONCEPTOS B`SICOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
9.1.1 Variables aleatorias vectoriales. . . . . . . . . . . . . . . . . . . . . . 257
9.1.2 Distribuci(cid:243)n conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
9.1.3 Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . 259
9.1.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
9.1.5 La maldici(cid:243)n de la dimensi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . 262
9.2 PROPIEDADES DE VARIABLES VECTORIALES . . . . . . . . . . . . . . 263
9.2.1 Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9.2.2 Esperanza de una funci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . 264
9.2.3 Matriz de varianzas y covarianzas . . . . . . . . . . . . . . . . . . . . 264
9.2.4 Transformaciones de vectores aleatorios. . . . . . . . . . . . . . . . . 265
9.2.5 Esperanzas de transformaciones lineales . . . . . . . . . . . . . . . . . 266
9.3 Dependencia entre variables aleatorias . . . . . . . . . . . . . . . . . . . . . 267
9.3.1 Esperanzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . 267
9.3.2 Varianzas condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 268
9.3.3 Matriz de correlaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
9.3.4 Correlaciones Mœltiples . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.3.5 Correlaciones Parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 270
9.4 LA DISTRIBUCI(cid:211)N MULTINOMIAL . . . . . . . . . . . . . . . . . . . . . 271
9.5 LA DISTRIBUCI(cid:211)N DE DIRICHLET . . . . . . . . . . . . . . . . . . . . . 273
9.6 LA NORMAL k-DIMENSIONAL . . . . . . . . . . . . . . . . . . . . . . . . 274
9.6.1 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . 277
9.7 DISTRIBUCIONES EL˝PTICAS . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.1 Distribuciones esfØricas . . . . . . . . . . . . . . . . . . . . . . . . . . 281
9.7.2 Distribuciones el(cid:237)pticas . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.8 (*)LA DISTRIBUCI(cid:211)N DE WISHART. . . . . . . . . . . . . . . . . . . . . 283
9.8.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
9.8.2 Propiedades de la distribuci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . 285
9.9 LA T2 DE HOTELLING . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
9.10 DISTRIBUCIONES MEZCLADAS . . . . . . . . . . . . . . . . . . . . . . . 288
9.11 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
˝NDICE GENERAL 7
10 INFERENCIA CON DATOS MULTIVARIANTES 295
10.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
10.2 Fundamentos de la Estimaci(cid:243)n MÆximo Verosimil . . . . . . . . . . . . . . . 295
10.3 Estimaci(cid:243)n de los parÆmetros de variables normales p-dimensionales. . . . . 297
10.4 El mØtodo de la raz(cid:243)n de verosimilitudes . . . . . . . . . . . . . . . . . . . . 299
10.5 Contraste sobre la media de una poblaci(cid:243)n normal . . . . . . . . . . . . . . . 301
10.6 Contrastes sobre la matriz de varianzas de una poblaci(cid:243)n normal . . . . . . . 303
10.6.1 Contraste de un valor particular . . . . . . . . . . . . . . . . . . . . . 304
10.6.2 Contraste de independencia . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.3 Contraste de esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . 305
10.6.4 (*)Contraste de esfericidad parcial . . . . . . . . . . . . . . . . . . . . 306
10.6.5 Ajustes en la distribuci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . 307
10.7 Contraste de igualdad de varias medias: el AnÆlisis de laVarianza Multivariante307
10.8 Contrastes de datos at(cid:237)picos . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
10.9 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
10.9.1 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
10.10Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
11 METODOS DE INFERENCIA AVANZADA MULTIVARIANTE 321
11.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
11.2 ESTIMACI(cid:211)N MV CON DATOS FALTANTES . . . . . . . . . . . . . . . . 322
11.2.1 Estimaci(cid:243)n MV con el algoritmo EM . . . . . . . . . . . . . . . . . . 323
11.2.2 Estimaci(cid:243)n MV de mezclas . . . . . . . . . . . . . . . . . . . . . . . . 325
11.2.3 Estimaci(cid:243)n de poblaciones normales con datos ausentes . . . . . . . . 331
11.3 ESTIMACI(cid:211)N ROBUSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
11.4 ESTIMACI(cid:211)N BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.1 Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
11.4.2 Distribuciones a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 339
11.4.3 CÆlculo de la Posterior . . . . . . . . . . . . . . . . . . . . . . . . . . 340
11.4.4 Estimaci(cid:243)n Bayesiana de referencia en el modelo normal . . . . . . . 341
11.4.5 Estimaci(cid:243)n con informaci(cid:243)n a priori . . . . . . . . . . . . . . . . . . . 342
11.5 CONTRASTES BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.1 Conceptos bÆsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
11.5.2 Comparaci(cid:243)n entre los contraste bayesianos y los clÆsicos . . . . . . . 346
11.6 Selecci(cid:243)n de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.1 El Criterio de Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
11.6.2 El criterio BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
11.6.3 Relaci(cid:243)n entre el BIC y EL AIC . . . . . . . . . . . . . . . . . . . . . 350
11.7 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
12 AN`LISIS FACTORIAL 355
12.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
12.2 EL MODELO FACTORIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
12.2.1 Hip(cid:243)tesis bÆsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
8 ˝NDICE GENERAL
12.2.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
12.2.3 Unicidad del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
12.2.4 Normalizaci(cid:243)n del modelo factorial . . . . . . . . . . . . . . . . . . . 360
12.2.5 Nœmero mÆximo de factores . . . . . . . . . . . . . . . . . . . . . . . 361
12.3 EL M(cid:201)TODO DEL FACTOR PRINCIPAL . . . . . . . . . . . . . . . . . . 362
12.3.1 Estimaci(cid:243)n de las comunalidades . . . . . . . . . . . . . . . . . . . . 363
12.3.2 Generalizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
12.4 ESTIMACI(cid:211)N M`XIMO VEROS˝MIL . . . . . . . . . . . . . . . . . . . . . 370
12.4.1 Estimaci(cid:243)n MV de los parÆmetros . . . . . . . . . . . . . . . . . . . . 370
12.4.2 Otros mØtodos de estimaci(cid:243)n. . . . . . . . . . . . . . . . . . . . . . . 372
12.5 DETERMINACI(cid:211)N DEL N(cid:218)MERO DE FACTORES . . . . . . . . . . . . 374
12.5.1 Contraste de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 374
12.5.2 Criterios de selecci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
12.6 ROTACI(cid:211)N DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . . 379
12.7 ESTIMACI(cid:211)N DE LOS FACTORES . . . . . . . . . . . . . . . . . . . . . . 381
12.7.1 Los factores como parÆmetros . . . . . . . . . . . . . . . . . . . . . . 381
12.7.2 Los factores como variables aleatorias . . . . . . . . . . . . . . . . . . 382
12.8 DIAGNOSIS DEL MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . 383
12.9 AnÆlisis Factorial Con(cid:222)rmatorio . . . . . . . . . . . . . . . . . . . . . . . . . 386
12.10Relaci(cid:243)n con componentes principales . . . . . . . . . . . . . . . . . . . . . . 388
12.11Lecturas recomendadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
13 AN`LISIS DISCRIMINANTE 397
13.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
13.2 CLASIFICACI(cid:211)N ENTRE DOS POBLACIONES . . . . . . . . . . . . . . . 398
13.2.1 Planteamiento del Problema . . . . . . . . . . . . . . . . . . . . . . . 398
13.2.2 Poblaciones Normales: Funci(cid:243)n lineal discriminante . . . . . . . . . . 401
13.2.3 Interpretaci(cid:243)n GeomØtrica . . . . . . . . . . . . . . . . . . . . . . . . 402
13.2.4 CÆlculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 405
13.2.5 Probabilidades a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 406
13.3 GENERALIZACI(cid:211)N PARA VARIAS POBLACIONES NORMALES . . . . 407
13.3.1 Planteamiento General . . . . . . . . . . . . . . . . . . . . . . . . . . 407
13.3.2 Procedimiento operativo . . . . . . . . . . . . . . . . . . . . . . . . . 409
13.4 POBLACIONES DESCONOCIDAS. CASO GENERAL . . . . . . . . . . . 412
13.4.1 Regla estimada de clasi(cid:222)caci(cid:243)n . . . . . . . . . . . . . . . . . . . . . 412
13.4.2 CÆlculo de Probabilidades de error . . . . . . . . . . . . . . . . . . . 414
13.5 VARIABLES CAN(cid:211)NICAS DISCRIMINANTES . . . . . . . . . . . . . . . 415
13.5.1 El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
13.5.2 Varios Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
13.5.3 Variables can(cid:243)nicas discriminantes . . . . . . . . . . . . . . . . . . . 420
13.6 DISCRIMINACI(cid:211)NCUADR`TICA.DISCRIMINACI(cid:211)NDEPOBLACIONES
NO NORMALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
13.7 DISCRIMINACI(cid:211)N BAYESIANA . . . . . . . . . . . . . . . . . . . . . . . 427
13.8 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
˝NDICE GENERAL 9
14 DISCRIMINACI(cid:211)N LOG˝STICA Y OTROS M(cid:201)TODOS DE CLASIFI-
CACI(cid:211)N 433
14.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
14.2 EL MODELO LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
14.2.1 Modelos con respuesta cualitativa . . . . . . . . . . . . . . . . . . . . 434
14.2.2 El modelo logit con datos normales . . . . . . . . . . . . . . . . . . . 436
14.2.3 Interpretaci(cid:243)n del Modelo Log(cid:237)stico . . . . . . . . . . . . . . . . . . . 437
14.3 LA ESTIMACI(cid:211)N DEL MODELO LOGIT . . . . . . . . . . . . . . . . . . 438
14.3.1 Estimaci(cid:243)n MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
14.3.2 Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
14.3.3 Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.4 EL MODELO MULTILOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . 445
14.5 OTROS M(cid:201)TODOS DE CLASIFICACI(cid:211)N . . . . . . . . . . . . . . . . . . 446
14.5.1 `rboles de Clasi(cid:222)caci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . 446
14.5.2 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
14.5.3 MØtodos no ParamØtricos . . . . . . . . . . . . . . . . . . . . . . . . 452
14.5.4 Otros MØtodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
14.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
15 CLASIFICACI(cid:211)N MEDIANTE MEZCLAS DE DISTRIBUCIONES 457
15.1 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
15.2 EL METODO de K-MEDIAS para mezclas . . . . . . . . . . . . . . . . . . 458
15.2.1 Nœmero de grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
15.3 ESTIMACI(cid:211)N DE MEZCLAS DE NORMALES . . . . . . . . . . . . . . . 464
15.3.1 Las ecuaciones de mÆxima verosimilitud para la mezcla . . . . . . . . 464
15.3.2 Resoluci(cid:243)n mediante el algoritmo EM . . . . . . . . . . . . . . . . . . 466
15.3.3 Aplicaci(cid:243)n al anÆlisis de conglomerados . . . . . . . . . . . . . . . . . 468
15.4 M(cid:201)TODOS BAYESIANOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
15.4.1 Estimaci(cid:243)n Bayesiana de Mezclas de Normales . . . . . . . . . . . . . 470
15.5 M(cid:201)TODOS DE PROYECCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . 472
15.6 Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
16 CORRELACI(cid:211)N CAN(cid:211)NICA 477
16.1 INTRODUCCI(cid:211)N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
16.2 Construcci(cid:243)n de las variables can(cid:243)nicas . . . . . . . . . . . . . . . . . . . . . 478
16.2.1 La primera variable can(cid:243)nica. . . . . . . . . . . . . . . . . . . . . . . 478
16.3 Las r variables can(cid:243)nicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
16.3.1 Propiedades de las variables y correlaciones can(cid:243)nicas . . . . . . . . . 482
16.4 AN`LISIS MUESTRAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
16.5 INTERPRETACI(cid:211)N GEOM(cid:201)TRICA . . . . . . . . . . . . . . . . . . . . . 487
16.6 CONTRASTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
16.7 EXTENSIONES A M`S DE DOS GRUPOS . . . . . . . . . . . . . . . . . . 490
16.8 RELACI(cid:211)N CON OTRAS T(cid:201)CNICAS ESTUDIADAS . . . . . . . . . . . . 491
16.9 AN`LISIS CAN(cid:211)NICO ASIM(cid:201)TRICO . . . . . . . . . . . . . . . . . . . . 492
10 ˝NDICE GENERAL
16.9.1 Coe(cid:222)cientes de redundancia . . . . . . . . . . . . . . . . . . . . . . . 493
16.9.2 AnÆlisis can(cid:243)nico asimØtrico . . . . . . . . . . . . . . . . . . . . . . . 494
16.10Lecturas complementarias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
Datos 505
A
0.1 Prefacio
El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de
datos en todas las ciencias ha estimulado el desarrollo y utilizaci(cid:243)n del anÆlisis estad(cid:237)stico
multivarianteenmuchasdisciplinas. EnlasCienciasEcon(cid:243)micasyempresarialeslosmØtodos
estad(cid:237)sticos multivariantes se utilizan para cuanti(cid:222)car el desarrollo de un pa(cid:237)s, determinar
las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento
de los consumidores y medir la calidad de productos y servicios. En Ingenier(cid:237)a para diseæar
mÆquinas inteligentes que reconozcan formas o caracteres, para construir clasi(cid:222)cadores que
aprendan interactivamente con el entorno y para establecer sistemas de control de procesos.
En Ciencias de la computaci(cid:243)n para desarrollar sistemas de inteligencia arti(cid:222)cial. En Medi-
cina para construir procedimientos automÆticos de ayuda al diagn(cid:243)stico. En Psicolog(cid:237)a para
interpretar los resultados de pruebas de aptitudes. En Sociolog(cid:237)a y Ciencia Pol(cid:237)tica para el
anÆlisis de encuestas de actitudes y opiniones sociales y pol(cid:237)ticas.
Este libro presenta las tØcnicas actuales mÆs utilizadas del AnÆlisis multivariante. Su
contenidosehaseleccionadoparaque puedaserœtiladistintostiposdeaudiencias, peroesta
especialmente orientado como texto en un curso orientado a las aplicaciones pero donde se
desee proporcionaral estudiante los fundamentos de las herramientas presentadas de manera
que se facilite su utilizaci(cid:243)n inteligente conociendo sus posibilidades y limitaciones. Para
conseguir este objetivo, el libro incluye numerosos ejemplos de aplicaci(cid:243)n de latØcnicas, pero
tambiØn presenta con cierto detalle los fundamentos estad(cid:237)sticos de las tØcnicas expuestas.
En la exposici(cid:243)n se ha procurado prescindir de los detalles tØcnicos que tienen mÆs interØs
para especialistas, y este material se ha presentado en los apØndices y en los ejercicios al
(cid:222)nal de cada cap(cid:237)tulo. Por otro lado, se recomienda que los estudiantes realizen un proyecto
dondeapliquenlosmØtodosestudiadosasuspropiosdatos, paraqueadquieranlaexperiencia
prÆctica que les permitirÆ utilizarlos despuØs con Øxito en su trabajo profesional.
Este libro ha tenido una largo per(cid:237)odo de gestaci(cid:243)n. Mi interØs por el AnÆlisis Multivari-
ante se lo debo a Rafael Romero, CatedrÆtico en la Universidad PolitØcnica de Valencia y
excelente profesor, de quien aprend(cid:237), a (cid:222)nales de los aæos 70, la potencia de estos mØtodos
como herramientas de investigaci(cid:243)n emp(cid:237)rica y su inmenso campo de aplicaci(cid:243)n. La primera
versi(cid:243)n de este libro ten(cid:237)a la mitad del tamaæo actual y se redact(cid:243) por primera vez a (cid:222)nales
de los aæos 80 para un curso de Doctorado en la Universidad PolitØcnica de Madrid. Desde
entonces, cada aæo el manuscrito ha ido sufrido revisiones y ampliaciones, fruto de su uso
como notas de clase en varias universidades, y especialmente en la Universidad Carlos III de
Madrid. Estoy agradecido a mis estudiantes del curso de doctorado sobre anÆlisis multivari-
ante que han sugerido muchas mejoras y detectado errores y erratas de versiones anteriores.
En esa labor estoy especialmente en deuda con Ana Justel, Juan Antonio Gil, Juan Carlos